Thứ hai 22/06/2026 10:30
Hotline: 024.355.63.010
Kinh tế số

ByteDance tăng tốc trong cuộc đua AI với công cụ thu thập dữ liệu mới

Nghiên cứu cho thấy, tốc độ thu thập của Bytespider - công cụ thu thập dữ liệu web mà ByteDance mới ra mắt nhanh gấp 25 lần so với GPTbot của OpenAI.
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI.

Công ty mẹ của TikTok là ByteDance, đã ra mắt công cụ thu thập dữ liệu web mang tên Bytespider vào tháng 4 năm nay. Theo Kasada, một công ty chuyên về quản lý bot (phần mềm tự động), Bytespider nhanh chóng nổi lên như một trong những công cụ thu thập dữ liệu mạnh nhất trên internet, vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI. Nghiên cứu cho thấy, tốc độ thu thập dữ liệu của Bytespider nhanh gấp 25 lần so với GPTbot của OpenAI, công cụ thu thập dữ liệu phục vụ cho nền tảng ChatGPT.

Việc thu thập dữ liệu với tốc độ cao giúp ByteDance có thêm nhiều dữ liệu để đào tạo các mô hình ngôn ngữ lớn (LLM) và mô hình đa phương tiện (LMM), những thành phần cốt lõi trong việc phát triển các công cụ AI thế hệ mới. Trong bối cảnh các công ty công nghệ lớn đang chạy đua trong lĩnh vực AI, ByteDance cố gắng rút ngắn khoảng cách bằng cách thu thập một lượng dữ liệu khổng lồ từ các trang web toàn cầu.

Sam Crowther, CEO của Kasada, cho biết, kể từ khi Bytespider xuất hiện, nó đã thu thập dữ liệu với tốc độ nhanh hơn khoảng 25 lần so với GPTbot - công cụ thu thập dữ liệu cho nền tảng ChatGPT của OpenAI và các mô hình cơ bản. Bytespider cũng đã thu thập dữ liệu với tốc độ nhanh hơn 3.000 lần so với ClaudeBot của startup AI Anthropic.

Theo Kasada, khi những tháng trôi qua, Bytespider thậm chí còn gấp rút hơn trong việc thu thập dữ liệu. Hoạt động thu thập dữ liệu từ Bytespider tăng đột biến trong 6 tuần qua.

Việc ByteDance thu thập dữ liệu một cách thần tốc diễn ra bất chấp khả năng TikTok bị cấm tại Mỹ trong những tháng tới. Trước đó, Tổng thống Joe Biden đã ký một đạo luật yêu cầu công ty Trung Quốc này phải bán hoặc đóng cửa TikTok do lo ngại về an ninh quốc gia.

Một nguồn tin nội bộ cho biết, ByteDance đang phát triển một mô hình ngôn ngữ lớn mới nhằm cải thiện khả năng tìm kiếm trên TikTok.

Ngoài ra, Bytespider được cho là không tuân thủ tập tin quy định về robots.txt, một tập tin mà các nhà xuất bản web sử dụng để ngăn các công cụ thu thập dữ liệu. Mặc dù điều này không vi phạm pháp luật, nhưng nó có thể dẫn đến các tranh chấp về quyền sở hữu trí tuệ. Nhiều tổ chức cho rằng, việc thu thập dữ liệu mà không được phép là hành vi vi phạm bản quyền, gây ra nhiều tranh cãi trong lĩnh vực này.

"Giống như họ đang cố gắng hết sức để bắt kịp", Crowther nói về hoạt động thu thập dữ liệu tích cực do Bytespider thực hiện. Chỉ riêng năm ngoái, ByteDance được cho là đã tụt hậu rất xa trong cuộc đua AI tạo sinh đến mức họ đã sử dụng OpenAI để giúp xây dựng LLM của riêng ByteDance, điều này trái với các điều khoản dịch vụ của OpenAI.

Gần đây nhất, ByteDance chính thức bước vào cuộc đua video AI với hai mô hình trí tuệ nhân tạo là PixelDance và Seaweed được ra mắt dưới tên thương hiệu Doubao trong Volcano Engine AI Innovation Tour tại Thâm Quyến ngày 24/9. Cả hai mô hình đều nhắm vào thị trường doanh nghiệp và hiện tại vẫn đang trong giai đoạn thử nghiệm với số lượng người được mời tham gia hạn chế.

Việc ra mắt diễn ra mà không có bất kỳ thông báo trước nào. Mặc dù triển khai lặng lẽ, nhưng sự mong đợi trong ngành vẫn tăng nhờ vào những tiến bộ trước đó từ các đối thủ cạnh tranh như Open AI và Kuaishou.

Việc ByteDance ra mắt hai mô hình trên cũng cho thấy tham vọng lớn của công ty trong việc phát triển các công nghệ AI tiên tiến, bất chấp những thách thức pháp lý và sự cạnh tranh khốc liệt trong ngành.

Tin bài khác
Office trên Mac và iPhone cũ sắp bị hạn chế tính năng, người dùng cần lưu ý những gì?

Office trên Mac và iPhone cũ sắp bị hạn chế tính năng, người dùng cần lưu ý những gì?

Từ ngày 13/7/2026, nhiều người dùng Mac, iPhone và iPad đời cũ có thể không còn sử dụng đầy đủ bộ Microsoft Office. Các ứng dụng vẫn mở được tài liệu nhưng sẽ bị hạn chế khả năng chỉnh sửa, lưu hoặc tạo mới tệp nếu thiết bị không đáp ứng các điều kiện cập nhật mới.
Kính thông minh Ray-Ban Meta và tham vọng thay đổi thế giới sau iPhone

Kính thông minh Ray-Ban Meta và tham vọng thay đổi thế giới sau iPhone

Ray-Ban Meta không còn là một chiếc kính thông minh mới. Sản phẩm đã xuất hiện trên thị trường hơn một năm và được báo chí thế giới nhắc đến rất nhiều. Nhưng những diễn biến mới nhất trong năm 2026 đang khiến giới công nghệ nhìn sản phẩm này dưới một góc độ hoàn toàn khác.
Pháp ra mắt Robot Eno của Genesis AI: Trợ lý đắc lực mới của ngành công nghiệp toàn cầu

Pháp ra mắt Robot Eno của Genesis AI: Trợ lý đắc lực mới của ngành công nghiệp toàn cầu

Có một câu hỏi mà ngành robot toàn cầu hiếm khi đặt ra một cách thẳng thắn: nếu mục tiêu cuối cùng là giúp con người làm việc hiệu quả hơn, tại sao robot nhất thiết phải có hai chân, một gương mặt và một giọng nói để trông giống con người? Trong khi Tesla, Figure và nhiều tên tuổi lớn vẫn đang đầu tư hàng tỷ USD để dạy robot bước đi như con người, một startup non trẻ tại Paris lại chọn hướng tiếp cận hoàn toàn khác.
Tham vọng lập “bản đồ thanh toán khu vực”, NAPAS đẩy mạnh phủ sóng QR xuyên biên giới

Tham vọng lập “bản đồ thanh toán khu vực”, NAPAS đẩy mạnh phủ sóng QR xuyên biên giới

Tại hội thảo "Thanh toán thông minh trong kỷ nguyên số", Công ty cổ phần Thanh toán quốc gia (NAPAS) cho biết đang đẩy mạnh triển khai hai giải pháp chiến lược là VietQRPay (nội địa) và VietQRGlobal (xuyên biên giới). Đây là bước đi nhằm đón đầu làn sóng phục hồi của du lịch toàn cầu, khắc phục các hạn chế chi phí của phương thức thanh toán bằng thẻ hay tiền mặt truyền thống, đồng thời đưa Việt Nam hội nhập sâu hơn vào hệ sinh thái thanh toán số quốc tế.
Cơ sở dữ liệu số tạo nền tảng chuyển đổi số tại Cà Mau

Cơ sở dữ liệu số tạo nền tảng chuyển đổi số tại Cà Mau

Cà Mau tăng tốc xây dựng cơ sở dữ liệu số, chuẩn hóa dữ liệu và số hóa tài liệu, góp phần hoàn thiện chính quyền số, nâng cao hiệu quả quản lý, phục vụ người dân và doanh nghiệp.
Robot quản gia Ballie tận tụy của Samsung: Một thành viên gia đình của nhà thông minh

Robot quản gia Ballie tận tụy của Samsung: Một thành viên gia đình của nhà thông minh

Có một câu hỏi mà ngành công nghệ toàn cầu đã loay hoay đi tìm lời giải suốt hơn một thập kỷ qua: làm sao để một ngôi nhà thực sự trở nên thông minh, chứ không chỉ là một ngôi nhà chứa đầy thiết bị thông minh? Các tập đoàn công nghệ lớn từ Mỹ, Hàn Quốc đến Trung Quốc đã đổ hàng tỷ USD vào camera kết nối, loa thông minh, cảm biến, robot hút bụi, khóa cửa điện tử hay điều hòa, bình nước nóng, rèm cửa, thiết bị chiếu sáng… điều khiển từ xa. Thế nhưng nghịch lý là càng nhiều thiết bị xuất hiện trong nhà, cuộc sống của người dùng phổ thông lại càng trở nên phức tạp, khó dùng hơn thay vì đơn giản.
Google ra mắt loa thông minh tích hợp Gemini, hỗ trợ hội thoại tự nhiên

Google ra mắt loa thông minh tích hợp Gemini, hỗ trợ hội thoại tự nhiên

Loa thông minh mới của Google hỗ trợ hội thoại nhiều bước, hiểu ngôn ngữ tự nhiên và bổ sung nhiều tính năng AI nâng cao.
iPhone 18 có thể tăng giá mạnh do chi phí linh kiện leo thang

iPhone 18 có thể tăng giá mạnh do chi phí linh kiện leo thang

Áp lực từ chi phí linh kiện tăng mạnh đang khiến Apple đứng trước khả năng phải điều chỉnh giá bán loạt iPhone 18 nhằm duy trì biên lợi nhuận.
Adobe nâng cấp Firefly, đưa trợ lý AI lên Premiere và Illustrator

Adobe nâng cấp Firefly, đưa trợ lý AI lên Premiere và Illustrator

Adobe tiếp tục nâng cấp Firefly và tích hợp trợ lý AI này vào nhiều phần mềm sáng tạo nhằm hỗ trợ thiết kế, dựng phim và quản lý nội dung.
Ứng dụng AI vào giáo dục đại học và vấn đề liêm chính học thuật

Ứng dụng AI vào giáo dục đại học và vấn đề liêm chính học thuật

Phó Giáo sư Ali Al-Dulaimi – Trưởng Khoa Khoa học Máy tính & Công nghệ, Trường Đại học Anh Quốc Việt Nam (BUV) – nhận định AI là một bước tiến công nghệ quan trọng, nhưng không phải “phép màu” hay sự thay thế cho mục tiêu giáo dục.
Hà Tĩnh tăng tốc chuyển đổi số, hơn 1,1 triệu người dân sở hữu tài khoản định danh điện tử

Hà Tĩnh tăng tốc chuyển đổi số, hơn 1,1 triệu người dân sở hữu tài khoản định danh điện tử

Hà Tĩnh đang ghi nhận những bước tiến tích cực trong triển khai Đề án 06 và xây dựng công dân số khi toàn tỉnh đã có hơn 1,15 triệu tài khoản định danh điện tử được cấp. Việc đẩy mạnh kích hoạt VNeID, tích hợp giấy tờ cá nhân và đưa dịch vụ công lên môi trường số đang góp phần thúc đẩy quá trình chuyển đổi số từ cơ sở.
Google Gemini, NotebookLM - Công cụ AI hỗ trợ học tập, làm việc và sáng tạo hiệu quả

Google Gemini, NotebookLM - Công cụ AI hỗ trợ học tập, làm việc và sáng tạo hiệu quả

Ngày 18/6, Google tổ chức buổi chia sẻ về “AI for Learning” cập nhật công nghệ mới nhất, mang đến góc nhìn trực quan, hữu ích, góp phần hỗ trợ thiết thực cho công việc biên tập, sáng tạo nội dung cũng như tác nghiệp hằng ngày.
Quảng Trị: Tăng tốc hoàn thiện cơ sở dữ liệu đất đai phục vụ chuyển đổi số

Quảng Trị: Tăng tốc hoàn thiện cơ sở dữ liệu đất đai phục vụ chuyển đổi số

Quảng Trị đã hoàn thành đo đạc bản đồ địa chính trên toàn bộ diện tích tự nhiên và hiện nằm trong nhóm 10 địa phương dẫn đầu cả nước về xây dựng cơ sở dữ liệu đất đai, tạo nền tảng quan trọng cho công tác quản lý nhà nước và thúc đẩy chuyển đổi số trong lĩnh vực đất đai.
Khu công nghệ cao TP. Hồ Chí Minh: Ưu tiên các dự án công nghệ chiến lược

Khu công nghệ cao TP. Hồ Chí Minh: Ưu tiên các dự án công nghệ chiến lược

Dòng vốn FDI hơn 11 tỷ USD đang tạo động lực quan trọng cho Khu Công nghệ cao TP. H Chí Minh chuyển dịch từ gia công sang các lĩnh vực công nghệ chiến lược như AI, bán dẫn và trung tâm dữ liệu.
Microsoft cân nhắc dùng DeepSeek cho Copilot để giảm chi phí AI doanh nghiệp

Microsoft cân nhắc dùng DeepSeek cho Copilot để giảm chi phí AI doanh nghiệp

Microsoft được cho là đang cân nhắc sử dụng DeepSeek V4 cho nền tảng Copilot Cowork nhằm tối ưu chi phí vận hành AI doanh nghiệp và tăng khả năng kiểm soát hạ tầng.