Thứ tư 17/06/2026 14:42
Hotline: 024.355.63.010
Kinh tế số

ByteDance tăng tốc trong cuộc đua AI với công cụ thu thập dữ liệu mới

Nghiên cứu cho thấy, tốc độ thu thập của Bytespider - công cụ thu thập dữ liệu web mà ByteDance mới ra mắt nhanh gấp 25 lần so với GPTbot của OpenAI.
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI.

Công ty mẹ của TikTok là ByteDance, đã ra mắt công cụ thu thập dữ liệu web mang tên Bytespider vào tháng 4 năm nay. Theo Kasada, một công ty chuyên về quản lý bot (phần mềm tự động), Bytespider nhanh chóng nổi lên như một trong những công cụ thu thập dữ liệu mạnh nhất trên internet, vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI. Nghiên cứu cho thấy, tốc độ thu thập dữ liệu của Bytespider nhanh gấp 25 lần so với GPTbot của OpenAI, công cụ thu thập dữ liệu phục vụ cho nền tảng ChatGPT.

Việc thu thập dữ liệu với tốc độ cao giúp ByteDance có thêm nhiều dữ liệu để đào tạo các mô hình ngôn ngữ lớn (LLM) và mô hình đa phương tiện (LMM), những thành phần cốt lõi trong việc phát triển các công cụ AI thế hệ mới. Trong bối cảnh các công ty công nghệ lớn đang chạy đua trong lĩnh vực AI, ByteDance cố gắng rút ngắn khoảng cách bằng cách thu thập một lượng dữ liệu khổng lồ từ các trang web toàn cầu.

Sam Crowther, CEO của Kasada, cho biết, kể từ khi Bytespider xuất hiện, nó đã thu thập dữ liệu với tốc độ nhanh hơn khoảng 25 lần so với GPTbot - công cụ thu thập dữ liệu cho nền tảng ChatGPT của OpenAI và các mô hình cơ bản. Bytespider cũng đã thu thập dữ liệu với tốc độ nhanh hơn 3.000 lần so với ClaudeBot của startup AI Anthropic.

Theo Kasada, khi những tháng trôi qua, Bytespider thậm chí còn gấp rút hơn trong việc thu thập dữ liệu. Hoạt động thu thập dữ liệu từ Bytespider tăng đột biến trong 6 tuần qua.

Việc ByteDance thu thập dữ liệu một cách thần tốc diễn ra bất chấp khả năng TikTok bị cấm tại Mỹ trong những tháng tới. Trước đó, Tổng thống Joe Biden đã ký một đạo luật yêu cầu công ty Trung Quốc này phải bán hoặc đóng cửa TikTok do lo ngại về an ninh quốc gia.

Một nguồn tin nội bộ cho biết, ByteDance đang phát triển một mô hình ngôn ngữ lớn mới nhằm cải thiện khả năng tìm kiếm trên TikTok.

Ngoài ra, Bytespider được cho là không tuân thủ tập tin quy định về robots.txt, một tập tin mà các nhà xuất bản web sử dụng để ngăn các công cụ thu thập dữ liệu. Mặc dù điều này không vi phạm pháp luật, nhưng nó có thể dẫn đến các tranh chấp về quyền sở hữu trí tuệ. Nhiều tổ chức cho rằng, việc thu thập dữ liệu mà không được phép là hành vi vi phạm bản quyền, gây ra nhiều tranh cãi trong lĩnh vực này.

"Giống như họ đang cố gắng hết sức để bắt kịp", Crowther nói về hoạt động thu thập dữ liệu tích cực do Bytespider thực hiện. Chỉ riêng năm ngoái, ByteDance được cho là đã tụt hậu rất xa trong cuộc đua AI tạo sinh đến mức họ đã sử dụng OpenAI để giúp xây dựng LLM của riêng ByteDance, điều này trái với các điều khoản dịch vụ của OpenAI.

Gần đây nhất, ByteDance chính thức bước vào cuộc đua video AI với hai mô hình trí tuệ nhân tạo là PixelDance và Seaweed được ra mắt dưới tên thương hiệu Doubao trong Volcano Engine AI Innovation Tour tại Thâm Quyến ngày 24/9. Cả hai mô hình đều nhắm vào thị trường doanh nghiệp và hiện tại vẫn đang trong giai đoạn thử nghiệm với số lượng người được mời tham gia hạn chế.

Việc ra mắt diễn ra mà không có bất kỳ thông báo trước nào. Mặc dù triển khai lặng lẽ, nhưng sự mong đợi trong ngành vẫn tăng nhờ vào những tiến bộ trước đó từ các đối thủ cạnh tranh như Open AI và Kuaishou.

Việc ByteDance ra mắt hai mô hình trên cũng cho thấy tham vọng lớn của công ty trong việc phát triển các công nghệ AI tiên tiến, bất chấp những thách thức pháp lý và sự cạnh tranh khốc liệt trong ngành.

Tin bài khác
Cải cách hành chính Cà Mau tạo chuyển biến từ những việc làm cụ thể

Cải cách hành chính Cà Mau tạo chuyển biến từ những việc làm cụ thể

Cải cách hành chính Cà Mau tiếp tục tạo chuyển biến rõ nét với tỷ lệ giải quyết hồ sơ đúng hạn trên 99%, đẩy mạnh chuyển đổi số, nâng cao chất lượng dịch vụ công trực tuyến và mức độ hài lòng của người dân, doanh nghiệp.
Meta ra mắt AI Mode trên Facebook, cho phép tìm kiếm bằng hội thoại tự nhiên

Meta ra mắt AI Mode trên Facebook, cho phép tìm kiếm bằng hội thoại tự nhiên

Meta vừa triển khai AI Mode trên Facebook, cho phép người dùng đặt câu hỏi bằng ngôn ngữ tự nhiên và nhận câu trả lời được AI tổng hợp từ các bài đăng, hội nhóm và video trên nền tảng.
Bắc Ninh đón cơ hội đầu tư 700 triệu USD vào lĩnh vực công nghệ cao và bán dẫn

Bắc Ninh đón cơ hội đầu tư 700 triệu USD vào lĩnh vực công nghệ cao và bán dẫn

Việc Công ty Zhongji Innolight Co., Ltd (Trung Quốc) đề xuất đầu tư dự án công nghệ cao quy mô 700 triệu USD tại Bắc Ninh không chỉ cho thấy sức hấp dẫn của môi trường đầu tư địa phương mà còn khẳng định vị thế ngày càng nổi bật của tỉnh trong chiến lược phát triển công nghiệp công nghệ cao và bán dẫn của Việt Nam.
Tuyên Quang: Lũng Cú đẩy mạnh chuyển đổi số, mở hướng phát triển mới cho du lịch vùng cực Bắc

Tuyên Quang: Lũng Cú đẩy mạnh chuyển đổi số, mở hướng phát triển mới cho du lịch vùng cực Bắc

Từ vùng đất địa đầu cực Bắc của Tổ quốc, Lũng Cú, Tuyên Quang đang từng bước chuyển mình mạnh mẽ nhờ ứng dụng công nghệ số vào phát triển du lịch. Không chỉ góp phần nâng cao chất lượng dịch vụ và trải nghiệm du khách, chuyển đổi số còn mở ra cơ hội mới cho các hộ kinh doanh, hợp tác xã và cộng đồng dân cư, tạo động lực thúc đẩy phát triển kinh tế - xã hội bền vững nơi vùng biên giới.
YouTube thử nghiệm lại tính năng nhắn tin trực tiếp sau 7 năm

YouTube thử nghiệm lại tính năng nhắn tin trực tiếp sau 7 năm

YouTube đang mở rộng thử nghiệm tính năng nhắn tin trực tiếp tại Mỹ, cho phép người dùng chia sẻ video và trò chuyện ngay trên nền tảng.
Tân Kỳ (Nghệ An): Tập huấn ứng dụng trí tuệ nhân tạo AI, công nghệ thông tin và chuyển đổi số

Tân Kỳ (Nghệ An): Tập huấn ứng dụng trí tuệ nhân tạo AI, công nghệ thông tin và chuyển đổi số

UBND xã Tân Kỳ (Nghệ An) vừa tổ chức tập huấn kiến thức về ứng dụng trí tuệ nhân tạo (AI), công nghệ thông tin và chuyển đổi số năm 2026.
Anthropic bất ngờ gỡ Fable 5 và Mythos 5 chỉ sau vài ngày ra mắt

Anthropic bất ngờ gỡ Fable 5 và Mythos 5 chỉ sau vài ngày ra mắt

Hai mô hình AI mới nhất của Anthropic đã bị gỡ khỏi hệ thống công khai sau khi công ty cho biết nhận được yêu cầu từ phía cơ quan chức năng Mỹ.
SpaceX IPO: Biến vũ trụ thành một thị trường chứng khoán và cơ hội nào cho doanh nghiệp Việt?

SpaceX IPO: Biến vũ trụ thành một thị trường chứng khoán và cơ hội nào cho doanh nghiệp Việt?

Đêm 11, rạng sáng 12/6/2026 (giờ Việt Nam), một thứ vốn chỉ thuộc về các cường quốc và giới siêu giàu đã lặng lẽ đổi chủ, đó là bầu trời. Không có tên lửa nào rời bệ phóng, nhưng đây có thể là cú phóng quan trọng nhất trong lịch sử 24 năm của SpaceX, phóng chính mình lên sàn chứng khoán Nasdaq. Trong khi truyền thông thế giới mải đếm xem Elon Musk giàu thêm bao nhiêu, câu hỏi đáng giá hơn là, khi không gian trở thành một ngành kinh tế đại chúng, các doanh nghiệp công nghệ Việt của chúng ta sẽ đứng ở đâu trong chuỗi giá trị mới của nhân loại?
KPMG gỡ báo cáo về AI sau khi bị chỉ ra nhiều thông tin sai lệch

KPMG gỡ báo cáo về AI sau khi bị chỉ ra nhiều thông tin sai lệch

KPMG đã rút một báo cáo về ứng dụng AI sau khi bị phát hiện đưa ra nhiều thông tin không chính xác, qua đó tiếp tục làm dấy lên lo ngại về hiện tượng “ảo giác AI” trong ngành tư vấn chuyên nghiệp.
Ý nghĩa thực sự phía sau đề án đưa doanh nghiệp công nghệ số Việt Nam vươn ra toàn cầu

Ý nghĩa thực sự phía sau đề án đưa doanh nghiệp công nghệ số Việt Nam vươn ra toàn cầu

Việt Nam đặt mục tiêu đưa doanh nghiệp công nghệ số vươn ra toàn cầu đến năm 2030. Thời điểm Việt Nam chuyển từ trung tâm sản xuất sang quốc gia xuất khẩu công nghệ, AI và nền tảng số.
Việt Nam đặt mục tiêu kinh tế số chiếm 30% GDP vào năm 2030

Việt Nam đặt mục tiêu kinh tế số chiếm 30% GDP vào năm 2030

Chương trình phát triển kinh tế số và xã hội số giai đoạn 2026-2030 vừa được Chính phủ phê duyệt đặt ra nhiều mục tiêu tham vọng, trong đó kinh tế số đóng góp khoảng 30% GDP, hỗ trợ ít nhất 500.000 doanh nghiệp nhỏ và vừa chuyển đổi số, đồng thời thúc đẩy dữ liệu và trí tuệ nhân tạo trở thành động lực tăng trưởng mới của nền kinh tế.
Lào Cai phát động phong trào “Thôn số”, đưa chuyển đổi số đến từng thôn bản

Lào Cai phát động phong trào “Thôn số”, đưa chuyển đổi số đến từng thôn bản

Chiều 11/6, Tỉnh ủy Lào Cai phát động phong trào xây dựng “Thôn số” và khai trương Hệ thống theo dõi, giám sát việc thực hiện nhiệm vụ của Tỉnh ủy. Đây là hai hoạt động trọng tâm nhằm cụ thể hóa Nghị quyết số 57 của Bộ Chính trị, tạo động lực thúc đẩy chuyển đổi số từ cơ sở đến toàn tỉnh.
Google tung AI dịch giọng nói thời gian thực bằng hơn 70 ngôn ngữ

Google tung AI dịch giọng nói thời gian thực bằng hơn 70 ngôn ngữ

Google vừa công bố Gemini 3.5 Live Translate, công nghệ AI có khả năng dịch giọng nói theo thời gian thực giữa hơn 70 ngôn ngữ, đồng thời giữ được ngữ điệu và đặc điểm giọng nói của người dùng.
Canada đề xuất cấm trẻ em dưới 16 tuổi sử dụng mạng xã hội

Canada đề xuất cấm trẻ em dưới 16 tuổi sử dụng mạng xã hội

Chính phủ Canada vừa trình dự luật an toàn kỹ thuật số, đề xuất cấm trẻ em dưới 16 tuổi sử dụng mạng xã hội, đồng thời tăng cường kiểm soát đối với các chatbot trí tuệ nhân tạo. Động thái này cho thấy xu hướng siết chặt quản lý không gian số nhằm bảo vệ người chưa thành niên đang ngày càng rõ nét tại nhiều quốc gia.
SpaceX muốn trình diễn hạ tầng AI trên quỹ đạo từ cuối năm 2027

SpaceX muốn trình diễn hạ tầng AI trên quỹ đạo từ cuối năm 2027

SpaceX cho biết có thể bắt đầu trình diễn hạ tầng điện toán AI trên quỹ đạo từ cuối năm 2027, sớm hơn mốc nêu trong hồ sơ IPO. Kế hoạch này được xem là một phần trong chiến lược tăng trưởng dài hạn, nhưng vẫn phụ thuộc lớn vào tiến độ phát triển tên lửa Starship.