Thứ hai 08/06/2026 08:20
Hotline: 024.355.63.010
Kinh tế số

ByteDance tăng tốc trong cuộc đua AI với công cụ thu thập dữ liệu mới

Nghiên cứu cho thấy, tốc độ thu thập của Bytespider - công cụ thu thập dữ liệu web mà ByteDance mới ra mắt nhanh gấp 25 lần so với GPTbot của OpenAI.
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI.

Công ty mẹ của TikTok là ByteDance, đã ra mắt công cụ thu thập dữ liệu web mang tên Bytespider vào tháng 4 năm nay. Theo Kasada, một công ty chuyên về quản lý bot (phần mềm tự động), Bytespider nhanh chóng nổi lên như một trong những công cụ thu thập dữ liệu mạnh nhất trên internet, vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI. Nghiên cứu cho thấy, tốc độ thu thập dữ liệu của Bytespider nhanh gấp 25 lần so với GPTbot của OpenAI, công cụ thu thập dữ liệu phục vụ cho nền tảng ChatGPT.

Việc thu thập dữ liệu với tốc độ cao giúp ByteDance có thêm nhiều dữ liệu để đào tạo các mô hình ngôn ngữ lớn (LLM) và mô hình đa phương tiện (LMM), những thành phần cốt lõi trong việc phát triển các công cụ AI thế hệ mới. Trong bối cảnh các công ty công nghệ lớn đang chạy đua trong lĩnh vực AI, ByteDance cố gắng rút ngắn khoảng cách bằng cách thu thập một lượng dữ liệu khổng lồ từ các trang web toàn cầu.

Sam Crowther, CEO của Kasada, cho biết, kể từ khi Bytespider xuất hiện, nó đã thu thập dữ liệu với tốc độ nhanh hơn khoảng 25 lần so với GPTbot - công cụ thu thập dữ liệu cho nền tảng ChatGPT của OpenAI và các mô hình cơ bản. Bytespider cũng đã thu thập dữ liệu với tốc độ nhanh hơn 3.000 lần so với ClaudeBot của startup AI Anthropic.

Theo Kasada, khi những tháng trôi qua, Bytespider thậm chí còn gấp rút hơn trong việc thu thập dữ liệu. Hoạt động thu thập dữ liệu từ Bytespider tăng đột biến trong 6 tuần qua.

Việc ByteDance thu thập dữ liệu một cách thần tốc diễn ra bất chấp khả năng TikTok bị cấm tại Mỹ trong những tháng tới. Trước đó, Tổng thống Joe Biden đã ký một đạo luật yêu cầu công ty Trung Quốc này phải bán hoặc đóng cửa TikTok do lo ngại về an ninh quốc gia.

Một nguồn tin nội bộ cho biết, ByteDance đang phát triển một mô hình ngôn ngữ lớn mới nhằm cải thiện khả năng tìm kiếm trên TikTok.

Ngoài ra, Bytespider được cho là không tuân thủ tập tin quy định về robots.txt, một tập tin mà các nhà xuất bản web sử dụng để ngăn các công cụ thu thập dữ liệu. Mặc dù điều này không vi phạm pháp luật, nhưng nó có thể dẫn đến các tranh chấp về quyền sở hữu trí tuệ. Nhiều tổ chức cho rằng, việc thu thập dữ liệu mà không được phép là hành vi vi phạm bản quyền, gây ra nhiều tranh cãi trong lĩnh vực này.

"Giống như họ đang cố gắng hết sức để bắt kịp", Crowther nói về hoạt động thu thập dữ liệu tích cực do Bytespider thực hiện. Chỉ riêng năm ngoái, ByteDance được cho là đã tụt hậu rất xa trong cuộc đua AI tạo sinh đến mức họ đã sử dụng OpenAI để giúp xây dựng LLM của riêng ByteDance, điều này trái với các điều khoản dịch vụ của OpenAI.

Gần đây nhất, ByteDance chính thức bước vào cuộc đua video AI với hai mô hình trí tuệ nhân tạo là PixelDance và Seaweed được ra mắt dưới tên thương hiệu Doubao trong Volcano Engine AI Innovation Tour tại Thâm Quyến ngày 24/9. Cả hai mô hình đều nhắm vào thị trường doanh nghiệp và hiện tại vẫn đang trong giai đoạn thử nghiệm với số lượng người được mời tham gia hạn chế.

Việc ra mắt diễn ra mà không có bất kỳ thông báo trước nào. Mặc dù triển khai lặng lẽ, nhưng sự mong đợi trong ngành vẫn tăng nhờ vào những tiến bộ trước đó từ các đối thủ cạnh tranh như Open AI và Kuaishou.

Việc ByteDance ra mắt hai mô hình trên cũng cho thấy tham vọng lớn của công ty trong việc phát triển các công nghệ AI tiên tiến, bất chấp những thách thức pháp lý và sự cạnh tranh khốc liệt trong ngành.

Tin bài khác
Thanh toán xuyên biên giới trên máy POS Payoo

Thanh toán xuyên biên giới trên máy POS Payoo

VietQRGlobal cho phép du khách quốc tế có thể thanh toán xuyên biên giới trên máy POS Payoo bằng chính ứng dụng ngân hàng, hoặc ví điện tử của quốc gia họ…
Thanh toán số tăng tốc, Việt Nam hướng tới giá trị giao dịch không tiền mặt gấp 30 lần GDP

Thanh toán số tăng tốc, Việt Nam hướng tới giá trị giao dịch không tiền mặt gấp 30 lần GDP

Thanh toán số đang trở thành hạ tầng thiết yếu của nền kinh tế số, khi giá trị giao dịch không dùng tiền mặt tại Việt Nam đã đạt mức gấp 28 lần GDP và tiếp tục tăng trưởng mạnh trong những tháng đầu năm 2026. Đây là một trong những thông tin đáng chú ý được đưa ra tại Hội thảo “Thanh toán thông minh trong kỷ nguyên số” diễn ra ngày 6/6 tại TP.HCM.
Thanh Hóa tăng cường đào tạo kỹ năng thương mại điện tử, thúc đẩy chuyển đổi số

Thanh Hóa tăng cường đào tạo kỹ năng thương mại điện tử, thúc đẩy chuyển đổi số

Sở Công Thương Thanh Hóa vừa tổ chức hội nghị tập huấn về thương mại điện tử (TMĐT), thu hút sự tham gia của đông đảo cán bộ quản lý nhà nước, doanh nghiệp, hợp tác xã, thanh niên khởi nghiệp và sinh viên trên địa bàn tỉnh.
Việt Nam lần đầu sở hữu trung tâm dữ liệu AI đạt chuẩn quốc tế hàng đầu khu vực

Việt Nam lần đầu sở hữu trung tâm dữ liệu AI đạt chuẩn quốc tế hàng đầu khu vực

Trung tâm Dữ liệu Hòa Lạc 2 của Viettel vừa trở thành hạ tầng số đầu tiên tại khu vực châu Á - Thái Bình Dương tích hợp siêu máy tính AI NVIDIA H200 và đạt chứng nhận TCCF Uptime Tier III. Dấu mốc này không chỉ khẳng định năng lực làm chủ công nghệ của doanh nghiệp Việt Nam mà còn tạo nền tảng quan trọng cho chiến lược phát triển trí tuệ nhân tạo và kinh tế số quốc gia.
CEO Nvidia: Robot sẽ là động lực tăng trưởng mới của Hàn Quốc

CEO Nvidia: Robot sẽ là động lực tăng trưởng mới của Hàn Quốc

CEO Nvidia Jensen Huang cho rằng robot sẽ trở thành ngành công nghiệp tăng trưởng lớn tiếp theo của Hàn Quốc, đồng thời cho biết Nvidia sẽ mở rộng hợp tác về AI, robot và sản xuất tiên tiến với các doanh nghiệp nước này.
Amazon ra mắt robot AI thế hệ mới, tăng tốc tự động hóa kho hàng

Amazon ra mắt robot AI thế hệ mới, tăng tốc tự động hóa kho hàng

Theo Reuters, Amazon vừa giới thiệu thế hệ robot di động mới tích hợp trí tuệ nhân tạo (AI), có khả năng tiếp nhận và phản hồi các chỉ dẫn bằng ngôn ngữ tự nhiên của con người.
AI đang khởi động lại thị trường đầu tư toàn cầu

AI đang khởi động lại thị trường đầu tư toàn cầu

Trí tuệ nhân tạo (AI) đang tái định hình chuỗi giá trị công nghệ toàn cầu, khi có thể rút ngắn thời gian phát triển phần mềm từ vài tuần, vài tháng xuống còn vài ngày, thậm chí vài giờ.
Phát động cuộc thi Road to AI 2026: Tìm kiếm giải pháp trợ lý pháp lý AI cho doanh nghiệp Việt

Phát động cuộc thi Road to AI 2026: Tìm kiếm giải pháp trợ lý pháp lý AI cho doanh nghiệp Việt

Cuộc thi “Road to AI 2026” (R2AI) với chủ đề “Build AI Legal Assistant” chính thức được phát động, hướng tới việc tìm kiếm và phát triển các giải pháp trí tuệ nhân tạo hỗ trợ tra cứu, hỏi đáp pháp luật cho doanh nghiệp nhỏ và vừa (SME) tại Việt Nam.
Lào Cai đơn giản hóa thủ tục hành chính lĩnh vực công thương, hỗ trợ doanh nghiệp phát triển

Lào Cai đơn giản hóa thủ tục hành chính lĩnh vực công thương, hỗ trợ doanh nghiệp phát triển

Việc công bố, sửa đổi và chuẩn hóa thủ tục hành chính thuộc lĩnh vực công thương đang mở ra thêm thuận lợi cho doanh nghiệp, giảm chi phí tuân thủ và góp phần cải thiện môi trường đầu tư trên địa bàn tỉnh Lào Cai.
TP.Hồ Chí Minh tăng tốc chuyển đổi số, xây dựng nền tảng đô thị thông minh toàn diện

TP.Hồ Chí Minh tăng tốc chuyển đổi số, xây dựng nền tảng đô thị thông minh toàn diện

Chuyển đổi số đang trở thành động lực quan trọng thúc đẩy cải cách hành chính, nâng cao chất lượng phục vụ người dân và hiện đại hóa công tác quản trị đô thị tại TP.HCM. Trong bối cảnh triển khai mô hình chính quyền địa phương hai cấp sau sắp xếp đơn vị hành chính, thành phố đang đẩy mạnh đầu tư hạ tầng số, kết nối dữ liệu và phát triển hệ sinh thái đô thị thông minh với mục tiêu trở thành trung tâm đổi mới sáng tạo hàng đầu khu vực.
Anh siết quản lý AI, yêu cầu Google tăng quyền kiểm soát nội dung cho website

Anh siết quản lý AI, yêu cầu Google tăng quyền kiểm soát nội dung cho website

Cơ quan quản lý cạnh tranh Anh đề xuất Google cho phép các website lựa chọn không đưa nội dung vào các tính năng tìm kiếm sử dụng AI nhằm bảo vệ quyền lợi của nhà xuất bản và đơn vị sáng tạo nội dung.
ROAD TO AI 2026 – Doanh nghiệp đặt hàng tìm thế hệ kỹ sư AI tương lai

ROAD TO AI 2026 – Doanh nghiệp đặt hàng tìm thế hệ kỹ sư AI tương lai

Trong bối cảnh Trí tuệ nhân tạo (AI) đang trở thành động lực quan trọng thúc đẩy tăng trưởng kinh tế và đổi mới sáng tạo trên toàn cầu, việc đào tạo nguồn nhân lực AI có khả năng giải quyết các bài toán thực tiễn đang trở thành yêu cầu cấp thiết đối với Việt Nam.
Nghệ An chỉ đạo đẩy mạnh giải ngân vốn trong lĩnh vực khoa học công nghệ, đổi mới sáng tạo và chuyển đổi số

Nghệ An chỉ đạo đẩy mạnh giải ngân vốn trong lĩnh vực khoa học công nghệ, đổi mới sáng tạo và chuyển đổi số

UBND tỉnh Nghệ An chỉ đạo đẩy mạnh giải ngân vốn ngân sách nhà nước năm 2026 lĩnh vực khoa học công nghệ, đổi mới sáng tạo và chuyển đổi số.
YouTube giảm quảng cáo trong livestream khi tương tác người xem tăng cao

YouTube giảm quảng cáo trong livestream khi tương tác người xem tăng cao

YouTube vừa triển khai tính năng tự động hạn chế quảng cáo trong các buổi phát trực tiếp có lượng tương tác lớn, đồng thời bổ sung thêm công cụ hỗ trợ kiếm tiền cho nhà sáng tạo nội dung.
Tuyên Quang hoàn thiện cơ sở dữ liệu công trình ngầm, thúc đẩy quản trị đô thị số

Tuyên Quang hoàn thiện cơ sở dữ liệu công trình ngầm, thúc đẩy quản trị đô thị số

UBND tỉnh Tuyên Quang vừa ban hành Quyết định số 67/2026/QĐ-UBND quy định về quản lý, phân cấp quản lý cơ sở dữ liệu và cung cấp dữ liệu về công trình ngầm đô thị trên địa bàn tỉnh. Quy định mới được kỳ vọng tạo nền tảng quan trọng cho công tác quản lý hạ tầng kỹ thuật, quy hoạch đô thị và thúc đẩy quá trình chuyển đổi số trong lĩnh vực xây dựng.