Thứ năm 05/02/2026 00:33
Hotline: 024.355.63.010
Email: banbientap.dnhn@gmail.com
Kinh tế số

ByteDance tăng tốc trong cuộc đua AI với công cụ thu thập dữ liệu mới

Nghiên cứu cho thấy, tốc độ thu thập của Bytespider - công cụ thu thập dữ liệu web mà ByteDance mới ra mắt nhanh gấp 25 lần so với GPTbot của OpenAI.
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI.

Công ty mẹ của TikTok là ByteDance, đã ra mắt công cụ thu thập dữ liệu web mang tên Bytespider vào tháng 4 năm nay. Theo Kasada, một công ty chuyên về quản lý bot (phần mềm tự động), Bytespider nhanh chóng nổi lên như một trong những công cụ thu thập dữ liệu mạnh nhất trên internet, vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI. Nghiên cứu cho thấy, tốc độ thu thập dữ liệu của Bytespider nhanh gấp 25 lần so với GPTbot của OpenAI, công cụ thu thập dữ liệu phục vụ cho nền tảng ChatGPT.

Việc thu thập dữ liệu với tốc độ cao giúp ByteDance có thêm nhiều dữ liệu để đào tạo các mô hình ngôn ngữ lớn (LLM) và mô hình đa phương tiện (LMM), những thành phần cốt lõi trong việc phát triển các công cụ AI thế hệ mới. Trong bối cảnh các công ty công nghệ lớn đang chạy đua trong lĩnh vực AI, ByteDance cố gắng rút ngắn khoảng cách bằng cách thu thập một lượng dữ liệu khổng lồ từ các trang web toàn cầu.

Sam Crowther, CEO của Kasada, cho biết, kể từ khi Bytespider xuất hiện, nó đã thu thập dữ liệu với tốc độ nhanh hơn khoảng 25 lần so với GPTbot - công cụ thu thập dữ liệu cho nền tảng ChatGPT của OpenAI và các mô hình cơ bản. Bytespider cũng đã thu thập dữ liệu với tốc độ nhanh hơn 3.000 lần so với ClaudeBot của startup AI Anthropic.

Theo Kasada, khi những tháng trôi qua, Bytespider thậm chí còn gấp rút hơn trong việc thu thập dữ liệu. Hoạt động thu thập dữ liệu từ Bytespider tăng đột biến trong 6 tuần qua.

Việc ByteDance thu thập dữ liệu một cách thần tốc diễn ra bất chấp khả năng TikTok bị cấm tại Mỹ trong những tháng tới. Trước đó, Tổng thống Joe Biden đã ký một đạo luật yêu cầu công ty Trung Quốc này phải bán hoặc đóng cửa TikTok do lo ngại về an ninh quốc gia.

Một nguồn tin nội bộ cho biết, ByteDance đang phát triển một mô hình ngôn ngữ lớn mới nhằm cải thiện khả năng tìm kiếm trên TikTok.

Ngoài ra, Bytespider được cho là không tuân thủ tập tin quy định về robots.txt, một tập tin mà các nhà xuất bản web sử dụng để ngăn các công cụ thu thập dữ liệu. Mặc dù điều này không vi phạm pháp luật, nhưng nó có thể dẫn đến các tranh chấp về quyền sở hữu trí tuệ. Nhiều tổ chức cho rằng, việc thu thập dữ liệu mà không được phép là hành vi vi phạm bản quyền, gây ra nhiều tranh cãi trong lĩnh vực này.

"Giống như họ đang cố gắng hết sức để bắt kịp", Crowther nói về hoạt động thu thập dữ liệu tích cực do Bytespider thực hiện. Chỉ riêng năm ngoái, ByteDance được cho là đã tụt hậu rất xa trong cuộc đua AI tạo sinh đến mức họ đã sử dụng OpenAI để giúp xây dựng LLM của riêng ByteDance, điều này trái với các điều khoản dịch vụ của OpenAI.

Gần đây nhất, ByteDance chính thức bước vào cuộc đua video AI với hai mô hình trí tuệ nhân tạo là PixelDance và Seaweed được ra mắt dưới tên thương hiệu Doubao trong Volcano Engine AI Innovation Tour tại Thâm Quyến ngày 24/9. Cả hai mô hình đều nhắm vào thị trường doanh nghiệp và hiện tại vẫn đang trong giai đoạn thử nghiệm với số lượng người được mời tham gia hạn chế.

Việc ra mắt diễn ra mà không có bất kỳ thông báo trước nào. Mặc dù triển khai lặng lẽ, nhưng sự mong đợi trong ngành vẫn tăng nhờ vào những tiến bộ trước đó từ các đối thủ cạnh tranh như Open AI và Kuaishou.

Việc ByteDance ra mắt hai mô hình trên cũng cho thấy tham vọng lớn của công ty trong việc phát triển các công nghệ AI tiên tiến, bất chấp những thách thức pháp lý và sự cạnh tranh khốc liệt trong ngành.

Tin bài khác
TP. Hồ Chí Minh ứng dụng VNeID, số hóa công tác quản lý cử tri phục vụ bầu cử

TP. Hồ Chí Minh ứng dụng VNeID, số hóa công tác quản lý cử tri phục vụ bầu cử

TP. Hồ Chí Minh triển khai phần mềm quản lý cử tri, khai thác Cơ sở dữ liệu quốc gia về dân cư và ứng dụng định danh điện tử VNeID nhằm bảo đảm công tác lập danh sách cử tri chính xác, minh bạch, phục vụ hiệu quả cuộc bầu cử đại biểu Quốc hội khóa XVI và HĐND Thành phố nhiệm kỳ 2026–2031.
Vì sao Galaxy Z TriFold “cháy hàng” trong vài phút?

Vì sao Galaxy Z TriFold “cháy hàng” trong vài phút?

Một sản phẩm công nghệ gần 3.000 USD thường kén khách. Nhưng lần này, thị trường Mỹ chứng kiến nghịch lý: hàng vừa mở bán đã hết. Điều gì khiến mẫu máy gập ba của Samsung trở thành “hiện tượng”? Câu trả lời đến từ chính cộng đồng người dùng.
Hà Nội ra mắt sàn giao dịch công nghệ và “chợ” chuyển đổi số

Hà Nội ra mắt sàn giao dịch công nghệ và “chợ” chuyển đổi số

Hà Nội ra mắt Sàn Giao dịch công nghệ HanoTEX và Chợ Chuyển đổi số DTMarket theo mô hình công – tư, kết nối viện trường – doanh nghiệp – thị trường, thúc đẩy thương mại hóa công nghệ và phát triển kinh tế số.
Deepfake bủa vây dịp Tết: Khi “mắt thấy, tai nghe” cũng không còn là sự thật

Deepfake bủa vây dịp Tết: Khi “mắt thấy, tai nghe” cũng không còn là sự thật

Deepfake và giả mạo giọng nói đang trở thành “vũ khí” mới của tội phạm mạng dịp Tết. Chuyên gia cảnh báo hình ảnh, giọng nói không còn đáng tin, người dân cần kiểm chứng đa kênh để tránh bẫy lừa đảo AI.
Thương mại điện tử Việt Nam tăng trưởng 25%/năm, 60% dân số mua sắm trực tuyến

Thương mại điện tử Việt Nam tăng trưởng 25%/năm, 60% dân số mua sắm trực tuyến

Với tốc độ tăng trưởng bình quân khoảng 25% mỗi năm, thương mại điện tử Việt Nam đang phát triển mạnh, trở thành động lực quan trọng của kinh tế số, đồng thời đặt ra yêu cầu cấp thiết về hoàn thiện chính sách, nâng cao hiệu quả quản lý và định hướng phát triển bền vững.
Thanh toán không tiền mặt gấp 28 lần GDP

Thanh toán không tiền mặt gấp 28 lần GDP

Thanh toán không dùng tiền mặt tại Việt Nam tăng trưởng bùng nổ, giá trị giao dịch gấp 28 lần GDP; ngành ngân hàng đẩy mạnh chuyển đổi số, kết nối dữ liệu dân cư theo Đề án 06, mở rộng dịch vụ công và xác thực sinh trắc học.
Người dùng được quyền tắt quảng cáo trên mạng chỉ với một lần thao tác

Người dùng được quyền tắt quảng cáo trên mạng chỉ với một lần thao tác

Nghị định số 342/2025/NĐ-CP, có hiệu lực từ ngày 15/2/2026, bổ sung nhiều quy định mới nhằm quản lý chặt chẽ hoạt động quảng cáo trên mạng, đặc biệt là các hình thức quảng cáo gây gián đoạn trải nghiệm người dùng.
Google Maps chấm dứt cảnh “vừa đi vừa bấm” với trợ lý AI Gemini

Google Maps chấm dứt cảnh “vừa đi vừa bấm” với trợ lý AI Gemini

Sự tích hợp sâu của AI Gemini giúp người đi bộ và đạp xe có thể điều hướng, tìm kiếm và xử lý tác vụ chỉ bằng giọng nói, hạn chế rủi ro mất tập trung khi di chuyển.
Việt Nam nổi lên như “thỏi nam châm” hút dòng vốn AI toàn cầu

Việt Nam nổi lên như “thỏi nam châm” hút dòng vốn AI toàn cầu

Những ngày đầu năm 2026, Việt Nam liên tiếp đón các đoàn doanh nghiệp công nghệ quốc tế đến tìm kiếm cơ hội hợp tác trong lĩnh vực trí tuệ nhân tạo (AI), hạ tầng số và an ninh mạng. Diễn biến này cho thấy Việt Nam đang nổi lên như một “thỏi nam châm” mới, thu hút mạnh dòng vốn đầu tư AI từ hạ tầng, nền tảng đến ứng dụng.
Ngân hàng buộc dành 15% ngân sách công nghệ để bảo vệ dữ liệu và khách hàng

Ngân hàng buộc dành 15% ngân sách công nghệ để bảo vệ dữ liệu và khách hàng

Thống đốc Ngân hàng Nhà nước ban hành Chỉ thị 02, yêu cầu toàn ngành chuyển từ phòng vệ thụ động sang chủ động phát hiện sớm rủi ro, dành tối thiểu 15% kinh phí công nghệ cho an ninh, an toàn thông tin.
Apple dự kiến tích hợp AI Gemini của Google vào Siri từ tháng 2

Apple dự kiến tích hợp AI Gemini của Google vào Siri từ tháng 2

Theo Bloomberg, Apple có thể giới thiệu phiên bản Siri mới tích hợp AI Gemini ngay trong nửa cuối tháng 2. Trợ lý ảo được nâng cấp này hứa hẹn hiểu ngữ cảnh tốt hơn, tương tác tự nhiên hơn và hoàn thành những cam kết Apple từng đưa ra tại WWDC 2024.
Truy xuất nguồn gốc sản phẩm: Thúc đẩy ứng dụng công nghệ số theo quy định mới

Truy xuất nguồn gốc sản phẩm: Thúc đẩy ứng dụng công nghệ số theo quy định mới

Nghị định số 37/2026/NĐ-CP vừa được Chính phủ ban hành mở đường cho việc chuẩn hóa truy xuất nguồn gốc bằng công nghệ số, góp phần nâng cao minh bạch thị trường và năng lực cạnh tranh của hàng hóa Việt Nam.
Microsoft khuyến cáo hoàn tác bản vá Windows 11 tháng 1/2026 do lỗi nghiêm trọng

Microsoft khuyến cáo hoàn tác bản vá Windows 11 tháng 1/2026 do lỗi nghiêm trọng

Sau khi ghi nhận hàng loạt phản ánh về sự cố hệ thống và ứng dụng, Microsoft đã phát đi cảnh báo khẩn, đề nghị người dùng Windows 11 cân nhắc gỡ bỏ bản cập nhật bảo mật tháng 1/2026 (KB5074109) để tránh ảnh hưởng đến quá trình sử dụng, đặc biệt với ứng dụng Outlook Classic.
Samsung vô tình hé lộ tính năng đáng giá nhất trên Galaxy S26 Ultra

Samsung vô tình hé lộ tính năng đáng giá nhất trên Galaxy S26 Ultra

Samsung dường như đã vô tình xác nhận tính năng “Privacy Display” trên Galaxy S26 Ultra thông qua One UI 8.5, mở ra hướng tiếp cận mới về bảo mật màn hình trên smartphone cao cấp.
Từ truy xuất nguồn gốc đến mục tiêu 10 tỷ USD của ngành rau quả

Từ truy xuất nguồn gốc đến mục tiêu 10 tỷ USD của ngành rau quả

Kim ngạch xuất khẩu rau quả Việt Nam liên tiếp lập đỉnh, song để chinh phục mốc 10 tỷ USD và giữ vững thị phần, truy xuất nguồn gốc và chuẩn hóa chuỗi sản xuất đang trở thành yêu cầu then chốt.