Thứ hai 01/06/2026 07:13
Hotline: 024.355.63.010
Kinh tế số

ByteDance tăng tốc trong cuộc đua AI với công cụ thu thập dữ liệu mới

Nghiên cứu cho thấy, tốc độ thu thập của Bytespider - công cụ thu thập dữ liệu web mà ByteDance mới ra mắt nhanh gấp 25 lần so với GPTbot của OpenAI.
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI.

Công ty mẹ của TikTok là ByteDance, đã ra mắt công cụ thu thập dữ liệu web mang tên Bytespider vào tháng 4 năm nay. Theo Kasada, một công ty chuyên về quản lý bot (phần mềm tự động), Bytespider nhanh chóng nổi lên như một trong những công cụ thu thập dữ liệu mạnh nhất trên internet, vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI. Nghiên cứu cho thấy, tốc độ thu thập dữ liệu của Bytespider nhanh gấp 25 lần so với GPTbot của OpenAI, công cụ thu thập dữ liệu phục vụ cho nền tảng ChatGPT.

Việc thu thập dữ liệu với tốc độ cao giúp ByteDance có thêm nhiều dữ liệu để đào tạo các mô hình ngôn ngữ lớn (LLM) và mô hình đa phương tiện (LMM), những thành phần cốt lõi trong việc phát triển các công cụ AI thế hệ mới. Trong bối cảnh các công ty công nghệ lớn đang chạy đua trong lĩnh vực AI, ByteDance cố gắng rút ngắn khoảng cách bằng cách thu thập một lượng dữ liệu khổng lồ từ các trang web toàn cầu.

Sam Crowther, CEO của Kasada, cho biết, kể từ khi Bytespider xuất hiện, nó đã thu thập dữ liệu với tốc độ nhanh hơn khoảng 25 lần so với GPTbot - công cụ thu thập dữ liệu cho nền tảng ChatGPT của OpenAI và các mô hình cơ bản. Bytespider cũng đã thu thập dữ liệu với tốc độ nhanh hơn 3.000 lần so với ClaudeBot của startup AI Anthropic.

Theo Kasada, khi những tháng trôi qua, Bytespider thậm chí còn gấp rút hơn trong việc thu thập dữ liệu. Hoạt động thu thập dữ liệu từ Bytespider tăng đột biến trong 6 tuần qua.

Việc ByteDance thu thập dữ liệu một cách thần tốc diễn ra bất chấp khả năng TikTok bị cấm tại Mỹ trong những tháng tới. Trước đó, Tổng thống Joe Biden đã ký một đạo luật yêu cầu công ty Trung Quốc này phải bán hoặc đóng cửa TikTok do lo ngại về an ninh quốc gia.

Một nguồn tin nội bộ cho biết, ByteDance đang phát triển một mô hình ngôn ngữ lớn mới nhằm cải thiện khả năng tìm kiếm trên TikTok.

Ngoài ra, Bytespider được cho là không tuân thủ tập tin quy định về robots.txt, một tập tin mà các nhà xuất bản web sử dụng để ngăn các công cụ thu thập dữ liệu. Mặc dù điều này không vi phạm pháp luật, nhưng nó có thể dẫn đến các tranh chấp về quyền sở hữu trí tuệ. Nhiều tổ chức cho rằng, việc thu thập dữ liệu mà không được phép là hành vi vi phạm bản quyền, gây ra nhiều tranh cãi trong lĩnh vực này.

"Giống như họ đang cố gắng hết sức để bắt kịp", Crowther nói về hoạt động thu thập dữ liệu tích cực do Bytespider thực hiện. Chỉ riêng năm ngoái, ByteDance được cho là đã tụt hậu rất xa trong cuộc đua AI tạo sinh đến mức họ đã sử dụng OpenAI để giúp xây dựng LLM của riêng ByteDance, điều này trái với các điều khoản dịch vụ của OpenAI.

Gần đây nhất, ByteDance chính thức bước vào cuộc đua video AI với hai mô hình trí tuệ nhân tạo là PixelDance và Seaweed được ra mắt dưới tên thương hiệu Doubao trong Volcano Engine AI Innovation Tour tại Thâm Quyến ngày 24/9. Cả hai mô hình đều nhắm vào thị trường doanh nghiệp và hiện tại vẫn đang trong giai đoạn thử nghiệm với số lượng người được mời tham gia hạn chế.

Việc ra mắt diễn ra mà không có bất kỳ thông báo trước nào. Mặc dù triển khai lặng lẽ, nhưng sự mong đợi trong ngành vẫn tăng nhờ vào những tiến bộ trước đó từ các đối thủ cạnh tranh như Open AI và Kuaishou.

Việc ByteDance ra mắt hai mô hình trên cũng cho thấy tham vọng lớn của công ty trong việc phát triển các công nghệ AI tiên tiến, bất chấp những thách thức pháp lý và sự cạnh tranh khốc liệt trong ngành.

Tin bài khác
Lào Cai tăng cường bảo đảm an ninh mạng, bảo vệ dữ liệu trong hệ thống chính trị

Lào Cai tăng cường bảo đảm an ninh mạng, bảo vệ dữ liệu trong hệ thống chính trị

UBND tỉnh Lào Cai vừa ban hành Kế hoạch số 255/KH-UBND triển khai Chương trình hành động của Tỉnh ủy thực hiện Chỉ thị số 57-CT/TW của Ban Bí thư về tăng cường bảo đảm an ninh mạng, bảo mật thông tin và an ninh dữ liệu trong hệ thống chính trị trên địa bàn tỉnh.
Lào Cai: Mậu A tiên phong đưa AI vào công vụ: Bước đột phá xây dựng chính quyền số năm 2026

Lào Cai: Mậu A tiên phong đưa AI vào công vụ: Bước đột phá xây dựng chính quyền số năm 2026

Xã Mậu A (tỉnh Lào Cai) tổ chức tập huấn ứng dụng AI trên nền tảng MISA ONE AI và phát động cuộc thi sáng ạo số, mở ra kỷ nguyên chính quyền thông minh, phục vụ nhân dân hiệu quả hơn.
Facebook, Instagram và WhatsApp ra mắt gói trả phí, Meta mở rộng nguồn thu ngoài quảng cáo

Facebook, Instagram và WhatsApp ra mắt gói trả phí, Meta mở rộng nguồn thu ngoài quảng cáo

Meta vừa công bố triển khai các gói thuê bao trả phí dành cho Facebook, Instagram và WhatsApp trên phạm vi toàn cầu, đồng thời thử nghiệm loạt dịch vụ mới cho người dùng Meta AI, doanh nghiệp và nhà sáng tạo nội dung.
Hà Nội ra mắt Bản đồ số các không gian văn hóa sáng tạo

Hà Nội ra mắt Bản đồ số các không gian văn hóa sáng tạo

Bản đồ Mạng lưới các không gian văn hóa sáng tạo Hà Nội vừa được công bố trên nền tảng số, góp phần tăng cường kết nối hệ sinh thái sáng tạo và thúc đẩy phát triển công nghiệp văn hóa của Thủ đô theo định hướng Thành phố sáng tạo của UNESCO.
Đà Nẵng dự kiến tổ chức Tuần lễ Kinh tế – Tài chính và Công nghệ 2026 từ ngày 7 đến 12-7

Đà Nẵng dự kiến tổ chức Tuần lễ Kinh tế – Tài chính và Công nghệ 2026 từ ngày 7 đến 12-7

UBND TP Đà Nẵng vừa ban hành kế hoạch tổ chức Tuần lễ Kinh tế – Tài chính và Công nghệ Đà Nẵng năm 2026 (Da Nang Economy, Finance and Technology Week 2026), dự kiến diễn ra từ ngày 7 đến 12-7-2026 theo hình thức trực tiếp kết hợp trực tuyến.
Vì sao Anthropic vượt OpenAI để trở thành startup AI giá trị nhất thế giới?

Vì sao Anthropic vượt OpenAI để trở thành startup AI giá trị nhất thế giới?

Anthropic vừa hoàn tất vòng gọi vốn Series H trị giá 65 tỷ USD, qua đó được định giá cao hơn OpenAI trên thị trường AI toàn cầu.
Bắt tay công nghệ Việt - Nhật: Giải bài toán "thông minh hóa" y tế bằng AI và Big Data

Bắt tay công nghệ Việt - Nhật: Giải bài toán "thông minh hóa" y tế bằng AI và Big Data

Không dừng lại ở những thỏa thuận thương mại thông thường, liên minh giữa "ông lớn" công nghệ Việt Nam FPT và Tập đoàn Y tế Tokushukai Nhật Bản là một bước đi chiến lược. Sự kết hợp giữa năng lực AI, dữ liệu lớn (Big Data) của Việt Nam với kho di sản quản trị y khoa chuẩn mực của Nhật Bản kỳ vọng sẽ tái định hình hệ thống chăm sóc sức khỏe thông minh, lan tỏa giá trị ra toàn khu vực ASEAN.
Hà Nội mở rộng “đường băng” cho doanh nghiệp đổi mới sáng tạo

Hà Nội mở rộng “đường băng” cho doanh nghiệp đổi mới sáng tạo

Từ cơ chế sandbox, hỗ trợ vốn đến phát triển hạ tầng và nhân lực chất lượng cao, Hà Nội đang từng bước mở rộng ‘đường băng’ cho doanh nghiệp đổi mới sáng tạo bứt tốc.
Cà Mau thúc đẩy khoa học công nghệ tạo đột phá tăng trưởng

Cà Mau thúc đẩy khoa học công nghệ tạo đột phá tăng trưởng

Trong chiến lược phát triển khoa học công nghệ, tỉnh Cà Mau không chỉ tập trung hoàn thiện cơ chế, tỉnh Cà Mau còn hướng tới xây dựng hệ sinh thái khởi nghiệp, phát triển doanh nghiệp công nghệ và nâng cao chất lượng nguồn nhân lực, từng bước tạo động lực mới cho kinh tế vùng cực Nam Tổ quốc.
Singapore gắn phát triển AI với trách nhiệm bảo vệ người lao động

Singapore gắn phát triển AI với trách nhiệm bảo vệ người lao động

Bộ trưởng Phát triển Kỹ thuật số và Thông tin Singapore Jasmin Lau cho biết chính phủ nước này có thể can thiệp nếu doanh nghiệp liên tục nhận trợ cấp công để phát triển AI nhưng lại đối xử bất công với người lao động. Singapore đồng thời thúc đẩy chiến lược phát triển AI gắn với nâng cao kỹ năng, hỗ trợ chuyển đổi nghề nghiệp và chia sẻ thành quả năng suất công bằng hơn.
TP. Hồ Chí Minh thí điểm số hóa quản lý lòng đường, vỉa hè trong 18 tháng

TP. Hồ Chí Minh thí điểm số hóa quản lý lòng đường, vỉa hè trong 18 tháng

TP. Hồ Chí Minh sẽ triển khai thí điểm phần mềm quản lý sử dụng tạm thời lòng đường, vỉa hè trong thời gian 18 tháng nhằm minh bạch hóa quy trình cấp phép, thu phí và thúc đẩy chuyển đổi số trong quản lý đô thị.
Google nâng cấp Google Health, đưa AI vào chăm sóc sức khỏe

Google nâng cấp Google Health, đưa AI vào chăm sóc sức khỏe

Google ra mắt loạt nền tảng và công cụ AI mới nhằm cá nhân hóa trải nghiệm quản lý và theo dõi sức khỏe cho người dùng.
YouTube tự động gắn nhãn video AI, tăng kiểm soát nội dung giả

YouTube tự động gắn nhãn video AI, tăng kiểm soát nội dung giả

YouTube vừa công bố loạt thay đổi mới trong chính sách quản lý nội dung do trí tuệ nhân tạo (AI) tạo ra, đánh dấu bước đi mạnh tay hơn của nền tảng này trong việc kiểm soát các video có mức độ chân thực cao được tạo bằng AI.
VNeID sẽ có thêm những tiện ích gì để thành “siêu ứng dụng” quốc gia?

VNeID sẽ có thêm những tiện ích gì để thành “siêu ứng dụng” quốc gia?

Theo Đề án mới được Chính phủ phê duyệt, VNeID sẽ được phát triển thành “siêu ứng dụng” trung tâm của hệ sinh thái số quốc gia, tích hợp giấy tờ điện tử, thanh toán số, chữ ký số và nhiều tiện ích ứng dụng AI.
Meta mở rộng mô hình thuê bao trả phí, tìm động lực tăng trưởng ngoài quảng cáo

Meta mở rộng mô hình thuê bao trả phí, tìm động lực tăng trưởng ngoài quảng cáo

Meta bắt đầu triển khai các gói thuê bao trả phí cho Facebook, Instagram và WhatsApp trên quy mô toàn cầu, trong bước đi nhằm đa dạng hóa nguồn thu giữa lúc chi tiêu cho hạ tầng AI tăng mạnh. Động thái này cho thấy tập đoàn công nghệ Mỹ đang tìm kiếm thêm dư địa tăng trưởng bên cạnh mảng quảng cáo truyền thống.