Thứ năm 26/03/2026 19:11
Hotline: 024.355.63.010
Kinh tế số

ByteDance tăng tốc trong cuộc đua AI với công cụ thu thập dữ liệu mới

Nghiên cứu cho thấy, tốc độ thu thập của Bytespider - công cụ thu thập dữ liệu web mà ByteDance mới ra mắt nhanh gấp 25 lần so với GPTbot của OpenAI.
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI.

Công ty mẹ của TikTok là ByteDance, đã ra mắt công cụ thu thập dữ liệu web mang tên Bytespider vào tháng 4 năm nay. Theo Kasada, một công ty chuyên về quản lý bot (phần mềm tự động), Bytespider nhanh chóng nổi lên như một trong những công cụ thu thập dữ liệu mạnh nhất trên internet, vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI. Nghiên cứu cho thấy, tốc độ thu thập dữ liệu của Bytespider nhanh gấp 25 lần so với GPTbot của OpenAI, công cụ thu thập dữ liệu phục vụ cho nền tảng ChatGPT.

Việc thu thập dữ liệu với tốc độ cao giúp ByteDance có thêm nhiều dữ liệu để đào tạo các mô hình ngôn ngữ lớn (LLM) và mô hình đa phương tiện (LMM), những thành phần cốt lõi trong việc phát triển các công cụ AI thế hệ mới. Trong bối cảnh các công ty công nghệ lớn đang chạy đua trong lĩnh vực AI, ByteDance cố gắng rút ngắn khoảng cách bằng cách thu thập một lượng dữ liệu khổng lồ từ các trang web toàn cầu.

Sam Crowther, CEO của Kasada, cho biết, kể từ khi Bytespider xuất hiện, nó đã thu thập dữ liệu với tốc độ nhanh hơn khoảng 25 lần so với GPTbot - công cụ thu thập dữ liệu cho nền tảng ChatGPT của OpenAI và các mô hình cơ bản. Bytespider cũng đã thu thập dữ liệu với tốc độ nhanh hơn 3.000 lần so với ClaudeBot của startup AI Anthropic.

Theo Kasada, khi những tháng trôi qua, Bytespider thậm chí còn gấp rút hơn trong việc thu thập dữ liệu. Hoạt động thu thập dữ liệu từ Bytespider tăng đột biến trong 6 tuần qua.

Việc ByteDance thu thập dữ liệu một cách thần tốc diễn ra bất chấp khả năng TikTok bị cấm tại Mỹ trong những tháng tới. Trước đó, Tổng thống Joe Biden đã ký một đạo luật yêu cầu công ty Trung Quốc này phải bán hoặc đóng cửa TikTok do lo ngại về an ninh quốc gia.

Một nguồn tin nội bộ cho biết, ByteDance đang phát triển một mô hình ngôn ngữ lớn mới nhằm cải thiện khả năng tìm kiếm trên TikTok.

Ngoài ra, Bytespider được cho là không tuân thủ tập tin quy định về robots.txt, một tập tin mà các nhà xuất bản web sử dụng để ngăn các công cụ thu thập dữ liệu. Mặc dù điều này không vi phạm pháp luật, nhưng nó có thể dẫn đến các tranh chấp về quyền sở hữu trí tuệ. Nhiều tổ chức cho rằng, việc thu thập dữ liệu mà không được phép là hành vi vi phạm bản quyền, gây ra nhiều tranh cãi trong lĩnh vực này.

"Giống như họ đang cố gắng hết sức để bắt kịp", Crowther nói về hoạt động thu thập dữ liệu tích cực do Bytespider thực hiện. Chỉ riêng năm ngoái, ByteDance được cho là đã tụt hậu rất xa trong cuộc đua AI tạo sinh đến mức họ đã sử dụng OpenAI để giúp xây dựng LLM của riêng ByteDance, điều này trái với các điều khoản dịch vụ của OpenAI.

Gần đây nhất, ByteDance chính thức bước vào cuộc đua video AI với hai mô hình trí tuệ nhân tạo là PixelDance và Seaweed được ra mắt dưới tên thương hiệu Doubao trong Volcano Engine AI Innovation Tour tại Thâm Quyến ngày 24/9. Cả hai mô hình đều nhắm vào thị trường doanh nghiệp và hiện tại vẫn đang trong giai đoạn thử nghiệm với số lượng người được mời tham gia hạn chế.

Việc ra mắt diễn ra mà không có bất kỳ thông báo trước nào. Mặc dù triển khai lặng lẽ, nhưng sự mong đợi trong ngành vẫn tăng nhờ vào những tiến bộ trước đó từ các đối thủ cạnh tranh như Open AI và Kuaishou.

Việc ByteDance ra mắt hai mô hình trên cũng cho thấy tham vọng lớn của công ty trong việc phát triển các công nghệ AI tiên tiến, bất chấp những thách thức pháp lý và sự cạnh tranh khốc liệt trong ngành.

Tin bài khác
Đà Nẵng thúc đẩy ứng dụng blockchain, tạo nền tảng cho đô thị số và kinh tế số

Đà Nẵng thúc đẩy ứng dụng blockchain, tạo nền tảng cho đô thị số và kinh tế số

Đà Nẵng đang từng bước xây dựng chiến lược ứng dụng blockchain để phát triển hạ tầng dữ liệu tin cậy, triển khai các ứng dụng thiết thực, hoàn thiện cơ chế, nguồn lực nhằm nâng cao hiệu quả quản trị, thúc đẩy kinh tế số và hướng tới đô thị thông minh, minh bạch, bền vững.
Melania Trump chọn robot Figure 03 để truyền thông điệp mới về AI và tương lai trẻ em

Melania Trump chọn robot Figure 03 để truyền thông điệp mới về AI và tương lai trẻ em

Đệ nhất phu nhân Mỹ Melania Trump đã xuất hiện cùng robot hình người Figure 03 tại Nhà Trắng trong khuôn khổ hội nghị thượng đỉnh toàn cầu về giáo dục và công nghệ cho trẻ em. Sự kiện quy tụ đại diện từ 45 quốc gia và 28 tổ chức công nghệ, cho thấy AI đang được đưa vào trung tâm các cuộc thảo luận về giáo dục tương lai.
Doanh nghiệp phải vượt “bài kiểm tra” vốn và công nghệ để vận hành sàn giao dịch tài sản mã hóa

Doanh nghiệp phải vượt “bài kiểm tra” vốn và công nghệ để vận hành sàn giao dịch tài sản mã hóa

Thị trường tài sản mã hóa tại Việt Nam đang bước vào giai đoạn chuẩn bị thực chất cho chương trình thí điểm, nhưng để vận hành một sàn giao dịch hợp pháp, doanh nghiệp không chỉ cần vốn lớn mà còn phải đáp ứng loạt tiêu chuẩn ngặt nghèo về công nghệ, an ninh hệ thống và bảo vệ nhà đầu tư.
Gia Lai đặt mục tiêu 100% thủ tục hành chính lên môi trường số vào năm 2030

Gia Lai đặt mục tiêu 100% thủ tục hành chính lên môi trường số vào năm 2030

Gia Lai đẩy mạnh chuyển đổi số, đặt mục tiêu số hóa 100% thủ tục hành chính, phát triển kinh tế số và lọt top 10 địa phương dẫn đầu cả nước vào năm 2030.
Trạm thu phát sóng BTS có thực sự nguy hiểm? Khoa học nói gì và cơ quan chức năng kiểm soát ra sao?

Trạm thu phát sóng BTS có thực sự nguy hiểm? Khoa học nói gì và cơ quan chức năng kiểm soát ra sao?

Ngày càng nhiều trạm thu phát sóng BTS xuất hiện trong khu dân cư khiến không ít người lo lắng về ảnh hưởng sức khỏe. Khoa học quốc tế và cơ quan chức năng Việt Nam - trong đó có Sở Khoa học và Công nghệ Khánh Hòa - nói gì về vấn đề này?
OpenAI thâu tóm Astral, tăng tốc Codex trong cuộc đua AI viết code

OpenAI thâu tóm Astral, tăng tốc Codex trong cuộc đua AI viết code

OpenAI vừa ký thỏa thuận mua lại Astral - startup đứng sau các công cụ Python mã nguồn mở phổ biến như uv, Ruff và ty - trong bước đi được đánh giá là mang tính chiến lược để tăng tốc Codex. Thương vụ cho thấy cuộc đua AI viết code đang chuyển từ mô hình “trợ lý sinh mã” sang giai đoạn mới, nơi các hãng công nghệ tìm cách kiểm soát sâu hơn các lớp công cụ cốt lõi trong hệ sinh thái phát triển phần mềm.
Chuyển đổi số doanh nghiệp nhỏ và vừa sẽ tạo động lực tăng trưởng cho nền kinh tế

Chuyển đổi số doanh nghiệp nhỏ và vừa sẽ tạo động lực tăng trưởng cho nền kinh tế

Đề án chuyển đổi số giai đoạn 2026–2030 đặt mục tiêu hỗ trợ hàng trăm nghìn doanh nghiệp nhỏ và vừa, mở ra cơ hội nâng cao năng lực cạnh tranh, tối ưu vận hành và tham gia sâu vào chuỗi giá trị toàn cầu.
Hà Nội: Xử lý dứt điểm dữ liệu để bứt phá khoa học công nghệ

Hà Nội: Xử lý dứt điểm dữ liệu để bứt phá khoa học công nghệ

Hà Nội đang bước vào giai đoạn tăng tốc triển khai Nghị quyết 57-NQ/TƯ của Bộ Chính trị với yêu cầu chuyển mạnh từ tư duy kế hoạch sang tư duy sản phẩm, từ báo cáo sang hiệu quả thực chất. Trong đó, bài toán dữ liệu được xác định là “nút thắt của nút thắt”, quyết định trực tiếp đến chất lượng điều hành, năng lực quản trị và hiệu quả phát triển khoa học công nghệ, đổi mới sáng tạo, chuyển đổi số trên địa bàn Thủ đô.
Arobid nâng cấp phiên bản 2.0, tham vọng định hình hạ tầng xúc tiến thương mại số

Arobid nâng cấp phiên bản 2.0, tham vọng định hình hạ tầng xúc tiến thương mại số

Đặt trọng tâm vào trí tuệ nhân tạo và dữ liệu, Arobid hướng tới xây dựng một hạ tầng giao thương số quy mô lớn, góp phần thúc đẩy doanh nghiệp Việt tiếp cận thị trường toàn cầu.
Sàng lọc hồ sơ sàn tài sản mã hóa: 5 doanh nghiệp vượt “vòng kỹ thuật”, chờ thẩm định liên ngành

Sàng lọc hồ sơ sàn tài sản mã hóa: 5 doanh nghiệp vượt “vòng kỹ thuật”, chờ thẩm định liên ngành

Bộ Tài chính đã hoàn tất bước rà soát hồ sơ đăng ký thí điểm cung cấp dịch vụ sàn giao dịch tài sản mã hóa, lựa chọn 5/7 hồ sơ đáp ứng yêu cầu để xin ý kiến thẩm định từ các cơ quan liên quan, trước khi quyết định cấp phép chính thức.
Bí mật phía sau đơn đến trong 1 giờ, thậm chí 30 phút của Amazon

Bí mật phía sau đơn đến trong 1 giờ, thậm chí 30 phút của Amazon

Amazon đang đẩy cuộc đua giao hàng siêu tốc lên một nấc mới khi triển khai dịch vụ nhận hàng trong 1 giờ tại hàng trăm khu vực ở Mỹ, đồng thời thử nghiệm mô hình giao trong 30 phút. Tốc độ kỷ lục này giúp hãng gia tăng sức ép lên Walmart và toàn ngành bán lẻ, nhưng cũng đặt ra câu hỏi lớn về chi phí vận hành và áp lực lao động trong chuỗi logistics.
Nvidia đặt cược vào “AI vận hành”, dự báo thị trường chip đạt 1.000 tỷ USD

Nvidia đặt cược vào “AI vận hành”, dự báo thị trường chip đạt 1.000 tỷ USD

Tại hội nghị công nghệ GTC 2026 diễn ra ở San Jose (Mỹ), CEO Jensen Huang công bố bước chuyển chiến lược quan trọng của Nvidia: tập trung vào giai đoạn vận hành AI (AI inference), nơi các mô hình trí tuệ nhân tạo được triển khai vào thực tế.
TP Hồ Chí Minh ra mắt Sàn giao dịch công nghệ, thúc đẩy thương mại hóa đổi mới sáng tạo

TP Hồ Chí Minh ra mắt Sàn giao dịch công nghệ, thúc đẩy thương mại hóa đổi mới sáng tạo

TP Hồ Chí Minh sẽ ra mắt phiên bản mới của Sàn Giao dịch công nghệ TP Hồ Chí Minh (Techport) vào ngày 20/3, hướng tới kết nối cung – cầu công nghệ, thúc đẩy chuyển giao và thương mại hóa các kết quả nghiên cứu trong hệ sinh thái đổi mới sáng tạo của thành phố.
Samsung đối mặt nguy cơ thua lỗ lần đầu ở mảng di động dù Galaxy S26 bán chạy

Samsung đối mặt nguy cơ thua lỗ lần đầu ở mảng di động dù Galaxy S26 bán chạy

Dù Galaxy S26 đạt doanh số khả quan, Samsung vẫn phải đối mặt bài toán lớn hơn: làm sao duy trì lợi nhuận trong một thị trường smartphone ngày càng cạnh tranh và chi phí ngày càng cao.
Oppo Find X9 Ultra rò rỉ camera 10x: Khẩu độ lớn hơn, tham vọng dẫn đầu nhiếp ảnh di động

Oppo Find X9 Ultra rò rỉ camera 10x: Khẩu độ lớn hơn, tham vọng dẫn đầu nhiếp ảnh di động

Oppo Find X9 Ultra lộ thông tin camera 10x periscope khẩu độ f/3.5, cảm biến telephoto 200MP và hệ thống camera nâng cấp mạnh, hứa hẹn cạnh tranh trực tiếp trong phân khúc flagship cao cấp.