Thứ hai 25/05/2026 06:09
Hotline: 024.355.63.010
Kinh tế số

ByteDance tăng tốc trong cuộc đua AI với công cụ thu thập dữ liệu mới

Nghiên cứu cho thấy, tốc độ thu thập của Bytespider - công cụ thu thập dữ liệu web mà ByteDance mới ra mắt nhanh gấp 25 lần so với GPTbot của OpenAI.
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI.

Công ty mẹ của TikTok là ByteDance, đã ra mắt công cụ thu thập dữ liệu web mang tên Bytespider vào tháng 4 năm nay. Theo Kasada, một công ty chuyên về quản lý bot (phần mềm tự động), Bytespider nhanh chóng nổi lên như một trong những công cụ thu thập dữ liệu mạnh nhất trên internet, vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI. Nghiên cứu cho thấy, tốc độ thu thập dữ liệu của Bytespider nhanh gấp 25 lần so với GPTbot của OpenAI, công cụ thu thập dữ liệu phục vụ cho nền tảng ChatGPT.

Việc thu thập dữ liệu với tốc độ cao giúp ByteDance có thêm nhiều dữ liệu để đào tạo các mô hình ngôn ngữ lớn (LLM) và mô hình đa phương tiện (LMM), những thành phần cốt lõi trong việc phát triển các công cụ AI thế hệ mới. Trong bối cảnh các công ty công nghệ lớn đang chạy đua trong lĩnh vực AI, ByteDance cố gắng rút ngắn khoảng cách bằng cách thu thập một lượng dữ liệu khổng lồ từ các trang web toàn cầu.

Sam Crowther, CEO của Kasada, cho biết, kể từ khi Bytespider xuất hiện, nó đã thu thập dữ liệu với tốc độ nhanh hơn khoảng 25 lần so với GPTbot - công cụ thu thập dữ liệu cho nền tảng ChatGPT của OpenAI và các mô hình cơ bản. Bytespider cũng đã thu thập dữ liệu với tốc độ nhanh hơn 3.000 lần so với ClaudeBot của startup AI Anthropic.

Theo Kasada, khi những tháng trôi qua, Bytespider thậm chí còn gấp rút hơn trong việc thu thập dữ liệu. Hoạt động thu thập dữ liệu từ Bytespider tăng đột biến trong 6 tuần qua.

Việc ByteDance thu thập dữ liệu một cách thần tốc diễn ra bất chấp khả năng TikTok bị cấm tại Mỹ trong những tháng tới. Trước đó, Tổng thống Joe Biden đã ký một đạo luật yêu cầu công ty Trung Quốc này phải bán hoặc đóng cửa TikTok do lo ngại về an ninh quốc gia.

Một nguồn tin nội bộ cho biết, ByteDance đang phát triển một mô hình ngôn ngữ lớn mới nhằm cải thiện khả năng tìm kiếm trên TikTok.

Ngoài ra, Bytespider được cho là không tuân thủ tập tin quy định về robots.txt, một tập tin mà các nhà xuất bản web sử dụng để ngăn các công cụ thu thập dữ liệu. Mặc dù điều này không vi phạm pháp luật, nhưng nó có thể dẫn đến các tranh chấp về quyền sở hữu trí tuệ. Nhiều tổ chức cho rằng, việc thu thập dữ liệu mà không được phép là hành vi vi phạm bản quyền, gây ra nhiều tranh cãi trong lĩnh vực này.

"Giống như họ đang cố gắng hết sức để bắt kịp", Crowther nói về hoạt động thu thập dữ liệu tích cực do Bytespider thực hiện. Chỉ riêng năm ngoái, ByteDance được cho là đã tụt hậu rất xa trong cuộc đua AI tạo sinh đến mức họ đã sử dụng OpenAI để giúp xây dựng LLM của riêng ByteDance, điều này trái với các điều khoản dịch vụ của OpenAI.

Gần đây nhất, ByteDance chính thức bước vào cuộc đua video AI với hai mô hình trí tuệ nhân tạo là PixelDance và Seaweed được ra mắt dưới tên thương hiệu Doubao trong Volcano Engine AI Innovation Tour tại Thâm Quyến ngày 24/9. Cả hai mô hình đều nhắm vào thị trường doanh nghiệp và hiện tại vẫn đang trong giai đoạn thử nghiệm với số lượng người được mời tham gia hạn chế.

Việc ra mắt diễn ra mà không có bất kỳ thông báo trước nào. Mặc dù triển khai lặng lẽ, nhưng sự mong đợi trong ngành vẫn tăng nhờ vào những tiến bộ trước đó từ các đối thủ cạnh tranh như Open AI và Kuaishou.

Việc ByteDance ra mắt hai mô hình trên cũng cho thấy tham vọng lớn của công ty trong việc phát triển các công nghệ AI tiên tiến, bất chấp những thách thức pháp lý và sự cạnh tranh khốc liệt trong ngành.

Tin bài khác
Đề xuất phạt tới 3 tỷ đồng hành vi mua bán dữ liệu cá nhân

Đề xuất phạt tới 3 tỷ đồng hành vi mua bán dữ liệu cá nhân

Bộ Công an đề xuất siết mạnh chế tài vi phạm an ninh mạng, trong đó hành vi mua bán dữ liệu cá nhân có thể bị phạt tới 3 tỷ đồng hoặc gấp 10 lần khoản thu bất hợp pháp. Nhiều biện pháp kỹ thuật bổ sung cũng được áp dụng.
Nvidia tiếp tục đặt cược vào Trung Quốc trong thị trường CPU AI 200 tỷ USD

Nvidia tiếp tục đặt cược vào Trung Quốc trong thị trường CPU AI 200 tỷ USD

Bất chấp các lệnh siết công nghệ từ Mỹ, Nvidia vẫn xem Trung Quốc là thị trường quan trọng trong chiến lược tăng trưởng dài hạn. Hãng đồng thời tăng tốc mở rộng sang mảng CPU AI với quy mô thị trường được dự báo lên tới 200 tỷ USD.
Hà Tĩnh triển khai đẩy mạnh truyền thông về khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số

Hà Tĩnh triển khai đẩy mạnh truyền thông về khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số

Hà Tĩnh triển khai đẩy mạnh truyền thông nhằm nâng cao nhận thức, tạo sự thống nhất trong hành động về vai trò của khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số trong phát triển kinh tế - xã hội
Đại lý thuế trước áp lực chuyển đổi số và quản trị bằng dữ liệu

Đại lý thuế trước áp lực chuyển đổi số và quản trị bằng dữ liệu

Hội nghị thường niên 2026 của VTCA tại Khánh Hòa trở thành diễn đàn kết nối cơ quan quản lý, đại lý thuế và doanh nghiệp, thúc đẩy chuyển đổi số, nâng cao chất lượng tư vấn thuế và hỗ trợ hộ kinh doanh thích ứng môi trường quản lý hiện đại.
Hà Nội hỗ trợ doanh nghiệp tiếp cận hiệu quả dịch vụ công và thúc đẩy chuyển đổi số

Hà Nội hỗ trợ doanh nghiệp tiếp cận hiệu quả dịch vụ công và thúc đẩy chuyển đổi số

Hiệp hội Doanh nghiệp nhỏ và vừa Hà Nội cùng Trung tâm Phục vụ hành chính công thành phố ký kết hợp tác nhằm hỗ trợ doanh nghiệp tiếp cận hiệu quả dịch vụ công trực tuyến và thúc đẩy chuyển đổi số.
“Internet miễn phí” và cái giá bản quyền của nền kinh tế số

“Internet miễn phí” và cái giá bản quyền của nền kinh tế số

Từ những website bóng đá lậu, phim lậu cho đến tình trạng sao chép âm nhạc, báo chí và nội dung AI trái phép vi phạm bản quyền trên Internet tại Việt Nam đang vượt xa khái niệm "thói quen dùng miễn phí". Theo số liệu của Liên minh Sở hữu trí tuệ Doanh nghiệp (BSA), tỷ lệ phần mềm không bản quyền tại Việt Nam lên tới 74%, cao gấp đôi mức trung bình toàn cầu. Khi cơ quan chức năng liên tiếp khởi tố nhiều vụ án hình sự lớn liên quan đến xâm phạm quyền tác giả, một thực tế đang hiện rõ: nếu không kiểm soát kịp thời, "Internet tự phát" có thể trở thành lực cản nguy hiểm đối với nền kinh tế số và môi trường sáng tạo quốc gia.
Quảng Trị vận dụng các nền tảng mạng xã hội và sàn thương mại điện tử để đưa hàng nông sản vươn xa

Quảng Trị vận dụng các nền tảng mạng xã hội và sàn thương mại điện tử để đưa hàng nông sản vươn xa

Bằng cách vận dụng linh hoạt các nền tảng mạng xã hội và sàn thương mại điện tử, nhiều doanh nghiệp trên địa bàn Quảng Trị đã biến thách thức về địa lý thành lợi thế cạnh tranh. Qua đó, đưa các sản phẩm của quê hương vươn xa, góp phần quan trọng vào sự phát triển kinh tế-xã hội của địa phương.
Nhà mạng lớn nhất Đông Nam Á tăng mạnh đầu tư AI và trung tâm dữ liệu

Nhà mạng lớn nhất Đông Nam Á tăng mạnh đầu tư AI và trung tâm dữ liệu

Tập đoàn viễn thông Singtel dự kiến nâng chi vốn lên khoảng 3 tỷ SGD trong năm tài chính mới, trong đó 1,2 tỷ SGD sẽ được dành cho AI và hạ tầng trung tâm dữ liệu, cho thấy cuộc đua xây dựng hạ tầng trí tuệ nhân tạo tại châu Á đang ngày càng nóng lên.
Nghệ An góp ý dự thảo Đề án phát triển Trung tâm Đổi mới sáng tạo theo mô hình liên kết “3 nhà”

Nghệ An góp ý dự thảo Đề án phát triển Trung tâm Đổi mới sáng tạo theo mô hình liên kết “3 nhà”

Sở Khoa học và Công nghệ Nghệ An tổ chức Hội nghị góp ý dự thảo Đề án phát triển Trung tâm Đổi mới sáng tạo tỉnh theo mô hình liên kết “Nhà nước - nhà trường - doanh nghiệp”.
Tuyên Quang phát triển công dân số, tạo nền tảng thúc đẩy xã hội số và kinh tế số

Tuyên Quang phát triển công dân số, tạo nền tảng thúc đẩy xã hội số và kinh tế số

Tuyên Quang đang đẩy mạnh phát triển công dân số thông qua định danh điện tử, phổ cập kỹ năng số và mở rộng dịch vụ công trực tuyến, tạo nền tảng thúc đẩy xã hội số và kinh tế số.
Google siết hạn mức Gemini, tác vụ AI nặng sẽ hao lượt nhanh hơn

Google siết hạn mức Gemini, tác vụ AI nặng sẽ hao lượt nhanh hơn

Google vừa áp dụng cơ chế giới hạn mới cho Gemini theo mức tiêu tốn tài nguyên xử lý, khiến nhiều người dùng phản ứng vì hạn mức bị giảm nhanh hơn trước.
Google ra mắt AI giúp chuyển ứng dụng từ iPhone sang Android nhanh hơn

Google ra mắt AI giúp chuyển ứng dụng từ iPhone sang Android nhanh hơn

Google vừa giới thiệu công cụ AI mới giúp lập trình viên chuyển ứng dụng từ iPhone sang Android nhanh hơn, qua đó rút ngắn khoảng cách ứng dụng giữa hai hệ điều hành di động lớn nhất thế giới.
Hà Tĩnh sẽ thúc đẩy ứng dụng khoa học công nghệ và đổi mới sáng tạo trong công tác bảo vệ môi trường

Hà Tĩnh sẽ thúc đẩy ứng dụng khoa học công nghệ và đổi mới sáng tạo trong công tác bảo vệ môi trường

Đó là một trong những nội dung của Kế hoach vừa được UBND tỉnh Hà Tĩnh ban hành để nâng cao hiệu lực, hiệu quả thực hiện chính sách, pháp luật về bảo vệ môi trường trên địa bàn tỉnh…
Starbucks dừng chương trình AI kiểm kê hàng tồn kho sau 9 tháng triển khai

Starbucks dừng chương trình AI kiểm kê hàng tồn kho sau 9 tháng triển khai

Thương hiệu cà phê nổi tiếng Starbucks đã chấm dứt công cụ AI hỗ trợ kiểm kê tại các cửa hàng ở Bắc Mỹ sau khi hệ thống liên tục ghi nhận sai sót trong quá trình vận hành.
Nghệ An thúc đẩy số hóa nghiệp vụ lõi trong quản lý nhà nước

Nghệ An thúc đẩy số hóa nghiệp vụ lõi trong quản lý nhà nước

Việc chú trọng vào số hóa nghiệp vụ lõi tại các cơ quan quản lý nhà nước giúp nâng cao chỉ số cải cách hành chính, chỉ số chuyển đổi số nhằm phục vụ người dân và doanh nghiệp tốt hơn