Thứ hai 18/05/2026 04:35
Hotline: 024.355.63.010
Kinh tế số

ByteDance tăng tốc trong cuộc đua AI với công cụ thu thập dữ liệu mới

Nghiên cứu cho thấy, tốc độ thu thập của Bytespider - công cụ thu thập dữ liệu web mà ByteDance mới ra mắt nhanh gấp 25 lần so với GPTbot của OpenAI.
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI.

Công ty mẹ của TikTok là ByteDance, đã ra mắt công cụ thu thập dữ liệu web mang tên Bytespider vào tháng 4 năm nay. Theo Kasada, một công ty chuyên về quản lý bot (phần mềm tự động), Bytespider nhanh chóng nổi lên như một trong những công cụ thu thập dữ liệu mạnh nhất trên internet, vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI. Nghiên cứu cho thấy, tốc độ thu thập dữ liệu của Bytespider nhanh gấp 25 lần so với GPTbot của OpenAI, công cụ thu thập dữ liệu phục vụ cho nền tảng ChatGPT.

Việc thu thập dữ liệu với tốc độ cao giúp ByteDance có thêm nhiều dữ liệu để đào tạo các mô hình ngôn ngữ lớn (LLM) và mô hình đa phương tiện (LMM), những thành phần cốt lõi trong việc phát triển các công cụ AI thế hệ mới. Trong bối cảnh các công ty công nghệ lớn đang chạy đua trong lĩnh vực AI, ByteDance cố gắng rút ngắn khoảng cách bằng cách thu thập một lượng dữ liệu khổng lồ từ các trang web toàn cầu.

Sam Crowther, CEO của Kasada, cho biết, kể từ khi Bytespider xuất hiện, nó đã thu thập dữ liệu với tốc độ nhanh hơn khoảng 25 lần so với GPTbot - công cụ thu thập dữ liệu cho nền tảng ChatGPT của OpenAI và các mô hình cơ bản. Bytespider cũng đã thu thập dữ liệu với tốc độ nhanh hơn 3.000 lần so với ClaudeBot của startup AI Anthropic.

Theo Kasada, khi những tháng trôi qua, Bytespider thậm chí còn gấp rút hơn trong việc thu thập dữ liệu. Hoạt động thu thập dữ liệu từ Bytespider tăng đột biến trong 6 tuần qua.

Việc ByteDance thu thập dữ liệu một cách thần tốc diễn ra bất chấp khả năng TikTok bị cấm tại Mỹ trong những tháng tới. Trước đó, Tổng thống Joe Biden đã ký một đạo luật yêu cầu công ty Trung Quốc này phải bán hoặc đóng cửa TikTok do lo ngại về an ninh quốc gia.

Một nguồn tin nội bộ cho biết, ByteDance đang phát triển một mô hình ngôn ngữ lớn mới nhằm cải thiện khả năng tìm kiếm trên TikTok.

Ngoài ra, Bytespider được cho là không tuân thủ tập tin quy định về robots.txt, một tập tin mà các nhà xuất bản web sử dụng để ngăn các công cụ thu thập dữ liệu. Mặc dù điều này không vi phạm pháp luật, nhưng nó có thể dẫn đến các tranh chấp về quyền sở hữu trí tuệ. Nhiều tổ chức cho rằng, việc thu thập dữ liệu mà không được phép là hành vi vi phạm bản quyền, gây ra nhiều tranh cãi trong lĩnh vực này.

"Giống như họ đang cố gắng hết sức để bắt kịp", Crowther nói về hoạt động thu thập dữ liệu tích cực do Bytespider thực hiện. Chỉ riêng năm ngoái, ByteDance được cho là đã tụt hậu rất xa trong cuộc đua AI tạo sinh đến mức họ đã sử dụng OpenAI để giúp xây dựng LLM của riêng ByteDance, điều này trái với các điều khoản dịch vụ của OpenAI.

Gần đây nhất, ByteDance chính thức bước vào cuộc đua video AI với hai mô hình trí tuệ nhân tạo là PixelDance và Seaweed được ra mắt dưới tên thương hiệu Doubao trong Volcano Engine AI Innovation Tour tại Thâm Quyến ngày 24/9. Cả hai mô hình đều nhắm vào thị trường doanh nghiệp và hiện tại vẫn đang trong giai đoạn thử nghiệm với số lượng người được mời tham gia hạn chế.

Việc ra mắt diễn ra mà không có bất kỳ thông báo trước nào. Mặc dù triển khai lặng lẽ, nhưng sự mong đợi trong ngành vẫn tăng nhờ vào những tiến bộ trước đó từ các đối thủ cạnh tranh như Open AI và Kuaishou.

Việc ByteDance ra mắt hai mô hình trên cũng cho thấy tham vọng lớn của công ty trong việc phát triển các công nghệ AI tiên tiến, bất chấp những thách thức pháp lý và sự cạnh tranh khốc liệt trong ngành.

Tin bài khác
Phỏng vấn 4.400 CEO toàn cầu nhưng kết quả thật bất ngờ về ứng dụng AI hiệu quả

Phỏng vấn 4.400 CEO toàn cầu nhưng kết quả thật bất ngờ về ứng dụng AI hiệu quả

Trong khi phần lớn thế giới vẫn nói về AI như động lực của một cuộc cách mạng công nghệ, thì phía sau cánh cửa phòng họp của các tập đoàn lớn toàn cầu, một tâm lý hoàn toàn khác đang xuất hiện: các CEO buộc phải tăng tốc đầu tư AI vì sợ bị bỏ lại phía sau, nhưng đồng thời ngày càng lo ngại rằng thị trường đang tiến tới giai đoạn “AI phải tạo lợi nhuận thật” thay vì chỉ tạo hiệu ứng truyền thông.
Thành phố Hồ Chí Minh xây dựng lực lượng “hạt nhân” chuyển đổi số trong hệ thống chính trị

Thành phố Hồ Chí Minh xây dựng lực lượng “hạt nhân” chuyển đổi số trong hệ thống chính trị

Gần 700 cán bộ khối Đảng, Mặt trận và cấp xã tại Thành phố Hồ Chí Minh vừa hoàn thành chương trình đào tạo chuyên sâu về chuyển đổi số, trong bối cảnh thành phố đang đẩy mạnh số hóa quản trị, liên thông dữ liệu và nâng cao hiệu quả điều hành trong toàn hệ thống chính trị.
Phê duyệt Chiến lược tiêu chuẩn quốc gia đến 2035, thúc đẩy AI, kinh tế số và tăng trưởng xanh

Phê duyệt Chiến lược tiêu chuẩn quốc gia đến 2035, thúc đẩy AI, kinh tế số và tăng trưởng xanh

Chiến lược tiêu chuẩn quốc gia giai đoạn 2026-2035 đặt mục tiêu xây dựng hệ thống tiêu chuẩn hiện đại, hài hòa quốc tế, coi tiêu chuẩn là nền tảng kỹ thuật cho chuyển đổi số, đổi mới sáng tạo và nâng cao năng lực cạnh tranh của nền kinh tế.
Áp lực chuyển đổi số trong quản lý an toàn thực phẩm

Áp lực chuyển đổi số trong quản lý an toàn thực phẩm

Nhiều doanh nghiệp ngành thực phẩm phản ánh đang rơi vào tình trạng lúng túng, phát sinh chi phí và nguy cơ gián đoạn kinh doanh khi các hồ sơ tự công bố sản phẩm từng được đăng tải trên hệ thống cũ bất ngờ “biến mất” sau quá trình sáp nhập cơ quan quản lý địa phương.
Diễn đàn doanh nghiệp 2026 tại Khánh Hòa: Khi dữ liệu và AI không còn là chuyện của ngày mai

Diễn đàn doanh nghiệp 2026 tại Khánh Hòa: Khi dữ liệu và AI không còn là chuyện của ngày mai

Chiều 16/5/2026, gần 400 doanh nghiệp tại Khánh Hòa tham dự diễn đàn về Big Data (tập hợp dữ liệu lớn và phức tạp), chuyển đổi số và AI. Không còn dừng ở câu chuyện xu hướng, nhiều vấn đề được đặt ra trực diện: doanh nghiệp bắt đầu từ đâu, ứng dụng thế nào và làm sao để chuyển đổi số thật sự hiệu quả.
Lào Cai: Mậu A đẩy mạnh ứng dụng AI hỗ trợ hộ kinh doanh kê khai thuế số

Lào Cai: Mậu A đẩy mạnh ứng dụng AI hỗ trợ hộ kinh doanh kê khai thuế số

Lào Cai triển khai chính sách thuế mới tại xã Mậu A, thúc đẩy ứng dụng AI trong kê khai thuế, hỗ trợ doanh nghiệp và hộ kinh doanh chuyển đổi số.
Hà Tĩnh: Ứng dụng công dân số i-HaTinh thu hút hơn 70.000 người dùng

Hà Tĩnh: Ứng dụng công dân số i-HaTinh thu hút hơn 70.000 người dùng

Chỉ sau gần 2 tháng vận hành, ứng dụng công dân số i-HaTinh đã ghi nhận hơn 70.000 tài khoản đăng ký và tiếp nhận hàng nghìn phản ánh, góp ý từ người dân. Kết quả bước đầu cho thấy hiệu quả rõ nét trong xây dựng chính quyền số và thúc đẩy tương tác trực tuyến giữa chính quyền với người dân tại Hà Tĩnh.
Máy bay A380 của Emirates được trang bị wi-fi Starlink

Máy bay A380 của Emirates được trang bị wi-fi Starlink

Tính đến thời điểm hiện tại, 25 chiếc Boeing 777-300ER đã được trang bị Starlink, và chiếc A380 đầu tiên cũng đã chính thức đi vào vận hành, đã có hơn 650.000 hành khách của Emirates được trải nghiệm dịch vụ kết nối hiện đại này trên các chuyến bay có trang bị Starlink.
Đà Nẵng số hóa di sản bằng VR360

Đà Nẵng số hóa di sản bằng VR360

Phường Hải Vân và Bàn Thạch (Đà Nẵng) đồng loạt triển khai nền tảng thực tế ảo VR360 để số hóa di tích lịch sử, văn hóa, mở hướng phát triển du lịch thông minh và đưa di sản đến gần hơn với cộng đồng, đặc biệt là giới trẻ.
YouTube ghi nhận hơn 2 tỉ giờ xem Shorts mỗi tháng trên TV

YouTube ghi nhận hơn 2 tỉ giờ xem Shorts mỗi tháng trên TV

Xu hướng xem video ngắn trên màn hình TV đang tăng mạnh khi YouTube ghi nhận hơn 2 tỉ giờ xem Shorts mỗi tháng, cho thấy nội dung dọc ngày càng mở rộng khỏi nền tảng điện thoại.
Đèn LED panel lên ngôi trong văn phòng hiện đại: Giải pháp tiết kiệm điện và nâng cao trải nghiệm làm việc

Đèn LED panel lên ngôi trong văn phòng hiện đại: Giải pháp tiết kiệm điện và nâng cao trải nghiệm làm việc

Đèn LED panel đang trở thành lựa chọn phổ biến trong các văn phòng hiện đại không chỉ giúp tiết kiệm điện năng tới 50-70% so với đèn huỳnh quang truyền thống, dòng đèn này còn ghi điểm nhờ khả năng chiếu sáng đồng đều, hạn chế chói lóa và phù hợp với nhiều mô hình không gian làm việc.
Chính phủ thúc tiến độ xây dựng cơ sở dữ liệu quốc gia, yêu cầu hoàn thành kết nối trong tháng 9/2026

Chính phủ thúc tiến độ xây dựng cơ sở dữ liệu quốc gia, yêu cầu hoàn thành kết nối trong tháng 9/2026

Chính phủ yêu cầu các bộ, ngành, địa phương đẩy nhanh tiến độ xây dựng và kết nối các cơ sở dữ liệu quốc gia, cơ sở dữ liệu chuyên ngành với Trung tâm dữ liệu quốc gia, hoàn thành trong tháng 9/2026, nhằm tạo nền tảng cho chuyển đổi số, cải cách thủ tục hành chính và phát triển Chính phủ số.
Phú Thọ tăng tốc chuyển đổi số, hướng tới tăng trưởng hai con số

Phú Thọ tăng tốc chuyển đổi số, hướng tới tăng trưởng hai con số

UBND tỉnh Phú Thọ yêu cầu các sở, ngành, địa phương đẩy mạnh khoa học công nghệ, đổi mới sáng tạo và chuyển đổi số, coi đây là động lực quan trọng thúc đẩy tăng trưởng kinh tế bền vững.
Mỹ duyệt bán chip H200 cho Trung Quốc, Nvidia vẫn mắc kẹt giữa thế đối đầu công nghệ

Mỹ duyệt bán chip H200 cho Trung Quốc, Nvidia vẫn mắc kẹt giữa thế đối đầu công nghệ

Dù Mỹ đã cho phép khoảng 10 công ty Trung Quốc mua chip AI H200 của Nvidia, các lô hàng vẫn chưa thể giao do trở ngại từ Bắc Kinh và những điều kiện kiểm soát phức tạp từ cả hai phía. Diễn biến này cho thấy Nvidia đang chịu sức ép ngày càng lớn trong cuộc cạnh tranh công nghệ giữa Mỹ và Trung Quốc.
TP.Hồ Chí Minh triển khai thi hành Luật An ninh mạng từ ngày 1/7/2026

TP.Hồ Chí Minh triển khai thi hành Luật An ninh mạng từ ngày 1/7/2026

UBND TP.Hồ Chí Minh vừa ban hành Kế hoạch triển khai thi hành Luật An ninh mạng trên địa bàn Thành phố, nhằm bảo đảm việc thực hiện luật được đồng bộ, thống nhất và hiệu quả ngay khi có hiệu lực từ ngày 1/7/2026.