Thứ năm 23/04/2026 21:58
Hotline: 024.355.63.010
Kinh tế số

ByteDance tăng tốc trong cuộc đua AI với công cụ thu thập dữ liệu mới

Nghiên cứu cho thấy, tốc độ thu thập của Bytespider - công cụ thu thập dữ liệu web mà ByteDance mới ra mắt nhanh gấp 25 lần so với GPTbot của OpenAI.
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI.

Công ty mẹ của TikTok là ByteDance, đã ra mắt công cụ thu thập dữ liệu web mang tên Bytespider vào tháng 4 năm nay. Theo Kasada, một công ty chuyên về quản lý bot (phần mềm tự động), Bytespider nhanh chóng nổi lên như một trong những công cụ thu thập dữ liệu mạnh nhất trên internet, vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI. Nghiên cứu cho thấy, tốc độ thu thập dữ liệu của Bytespider nhanh gấp 25 lần so với GPTbot của OpenAI, công cụ thu thập dữ liệu phục vụ cho nền tảng ChatGPT.

Việc thu thập dữ liệu với tốc độ cao giúp ByteDance có thêm nhiều dữ liệu để đào tạo các mô hình ngôn ngữ lớn (LLM) và mô hình đa phương tiện (LMM), những thành phần cốt lõi trong việc phát triển các công cụ AI thế hệ mới. Trong bối cảnh các công ty công nghệ lớn đang chạy đua trong lĩnh vực AI, ByteDance cố gắng rút ngắn khoảng cách bằng cách thu thập một lượng dữ liệu khổng lồ từ các trang web toàn cầu.

Sam Crowther, CEO của Kasada, cho biết, kể từ khi Bytespider xuất hiện, nó đã thu thập dữ liệu với tốc độ nhanh hơn khoảng 25 lần so với GPTbot - công cụ thu thập dữ liệu cho nền tảng ChatGPT của OpenAI và các mô hình cơ bản. Bytespider cũng đã thu thập dữ liệu với tốc độ nhanh hơn 3.000 lần so với ClaudeBot của startup AI Anthropic.

Theo Kasada, khi những tháng trôi qua, Bytespider thậm chí còn gấp rút hơn trong việc thu thập dữ liệu. Hoạt động thu thập dữ liệu từ Bytespider tăng đột biến trong 6 tuần qua.

Việc ByteDance thu thập dữ liệu một cách thần tốc diễn ra bất chấp khả năng TikTok bị cấm tại Mỹ trong những tháng tới. Trước đó, Tổng thống Joe Biden đã ký một đạo luật yêu cầu công ty Trung Quốc này phải bán hoặc đóng cửa TikTok do lo ngại về an ninh quốc gia.

Một nguồn tin nội bộ cho biết, ByteDance đang phát triển một mô hình ngôn ngữ lớn mới nhằm cải thiện khả năng tìm kiếm trên TikTok.

Ngoài ra, Bytespider được cho là không tuân thủ tập tin quy định về robots.txt, một tập tin mà các nhà xuất bản web sử dụng để ngăn các công cụ thu thập dữ liệu. Mặc dù điều này không vi phạm pháp luật, nhưng nó có thể dẫn đến các tranh chấp về quyền sở hữu trí tuệ. Nhiều tổ chức cho rằng, việc thu thập dữ liệu mà không được phép là hành vi vi phạm bản quyền, gây ra nhiều tranh cãi trong lĩnh vực này.

"Giống như họ đang cố gắng hết sức để bắt kịp", Crowther nói về hoạt động thu thập dữ liệu tích cực do Bytespider thực hiện. Chỉ riêng năm ngoái, ByteDance được cho là đã tụt hậu rất xa trong cuộc đua AI tạo sinh đến mức họ đã sử dụng OpenAI để giúp xây dựng LLM của riêng ByteDance, điều này trái với các điều khoản dịch vụ của OpenAI.

Gần đây nhất, ByteDance chính thức bước vào cuộc đua video AI với hai mô hình trí tuệ nhân tạo là PixelDance và Seaweed được ra mắt dưới tên thương hiệu Doubao trong Volcano Engine AI Innovation Tour tại Thâm Quyến ngày 24/9. Cả hai mô hình đều nhắm vào thị trường doanh nghiệp và hiện tại vẫn đang trong giai đoạn thử nghiệm với số lượng người được mời tham gia hạn chế.

Việc ra mắt diễn ra mà không có bất kỳ thông báo trước nào. Mặc dù triển khai lặng lẽ, nhưng sự mong đợi trong ngành vẫn tăng nhờ vào những tiến bộ trước đó từ các đối thủ cạnh tranh như Open AI và Kuaishou.

Việc ByteDance ra mắt hai mô hình trên cũng cho thấy tham vọng lớn của công ty trong việc phát triển các công nghệ AI tiên tiến, bất chấp những thách thức pháp lý và sự cạnh tranh khốc liệt trong ngành.

Tin bài khác
Zalo chặn chụp màn hình ảnh đại diện, tăng lớp bảo vệ quyền riêng tư người dùng

Zalo chặn chụp màn hình ảnh đại diện, tăng lớp bảo vệ quyền riêng tư người dùng

Zalo vừa bổ sung tính năng ngăn chụp hoặc quay màn hình ảnh đại diện của người dùng trên ứng dụng di động, tiếp tục đẩy mạnh định vị “riêng tư là cốt lõi” trong bối cảnh bảo mật dữ liệu cá nhân ngày càng được quan tâm. Tuy vậy, khả năng bảo vệ hiện vẫn chưa đồng bộ trên mọi nền tảng, đặt ra yêu cầu tiếp tục hoàn thiện trải nghiệm và độ an toàn cho người dùng.
Bộ Khoa học và Công nghệ kêu gọi doanh nghiệp coi đổi mới sáng tạo là năng lực cốt lõi

Bộ Khoa học và Công nghệ kêu gọi doanh nghiệp coi đổi mới sáng tạo là năng lực cốt lõi

Tại lễ hưởng ứng Ngày Sáng tạo và Đổi mới sáng tạo thế giới 2026 sáng 21/4, Bộ Khoa học và Công nghệ nhấn mạnh đổi mới sáng tạo phải trở thành động lực phát triển thực chất của nền kinh tế, trong đó doanh nghiệp giữ vai trò đưa công nghệ, ý tưởng và kết quả nghiên cứu ra thị trường.
Đẩy mạnh chuyển đổi số gắn với an ninh kinh tế số cho doanh nghiệp nhỏ và vừa

Đẩy mạnh chuyển đổi số gắn với an ninh kinh tế số cho doanh nghiệp nhỏ và vừa

Trước làn sóng chuyển đổi số ngày càng mạnh mẽ, cộng đồng doanh nghiệp nhỏ và vừa đang đứng trước yêu cầu cấp thiết phải vừa tăng tốc ứng dụng công nghệ, vừa chủ động bảo vệ mình trước những rủi ro an ninh mạng ngày càng tinh vi. Chương trình đào tạo “Giải pháp chuyển đổi số – An ninh kinh tế số” diễn ra sáng 18/4 đã mang đến nhiều góc nhìn thực tiễn, giúp doanh nghiệp nhận diện rõ thách thức và tìm hướng đi an toàn trong môi trường số.
Hà Nội triển khai tiếp nhận hồ sơ trực tuyến 12 thủ tục hành chính

Hà Nội triển khai tiếp nhận hồ sơ trực tuyến 12 thủ tục hành chính

Hà Nội chính thức triển khai tiếp nhận hồ sơ trực tuyến đối với 12 thủ tục hành chính, dịch vụ công tại các điểm hỗ trợ dịch vụ công số. Đây được xem là bước đi quan trọng trong lộ trình cải cách thủ tục hành chính, hướng tới chính quyền số, nâng cao chất lượng phục vụ người dân và doanh nghiệp.
Không xác thực SIM ngay, thuê bao có thể bị khóa từ hôm nay

Không xác thực SIM ngay, thuê bao có thể bị khóa từ hôm nay

Từ ngày 15/4/2026, quy định mới về xác thực thông tin thuê bao di động bằng dữ liệu định danh và ảnh khuôn mặt chính thức có hiệu lực. Với những thuê bao chưa chuẩn hóa, nhất là số đăng ký bằng CMND 9 số, nguy cơ bị tạm dừng một chiều, khóa hai chiều rồi chấm dứt hợp đồng là hoàn toàn có thể xảy ra nếu không sớm thực hiện.
Australia muốn hợp tác phát triển Fintech tại Việt Nam

Australia muốn hợp tác phát triển Fintech tại Việt Nam

Việt Nam đang tăng trưởng mạnh mẽ về thanh toán số, tài chính di động và xu hướng ứng dụng trí tuệ nhân tạo (AI) trong lĩnh vực ngân hàng. Điều này tạo ra nhu cầu lớn về các giải pháp công nghệ nhằm nâng cao quản trị rủi ro, bảo mật dữ liệu và tuân thủ pháp lý.
Siết nhiều lớp bảo vệ để giữ an toàn tài khoản khách hàng

Siết nhiều lớp bảo vệ để giữ an toàn tài khoản khách hàng

Trước diễn biến phức tạp của tội phạm sử dụng công nghệ cao để lừa đảo, chiếm đoạt tiền trong tài khoản ngân hàng, ông Lê Văn Tuyên, Phó Vụ trưởng Vụ Thanh toán (Ngân hàng Nhà nước) đã chia sẻ với phóng viên về các chính sách và giải pháp mà ngành ngân hàng đã, đang và sẽ triển khai nhằm tăng cường bảo vệ khách hàng trong các giao dịch thanh toán.
TP. Hồ Chí Minh xây dựng “hàng rào dữ liệu” toàn cầu: Chặn sớm sản phẩm rủi ro vào hệ thống bán lẻ

TP. Hồ Chí Minh xây dựng “hàng rào dữ liệu” toàn cầu: Chặn sớm sản phẩm rủi ro vào hệ thống bán lẻ

TP. Hồ Chí Minh đang triển khai cổng dữ liệu sản phẩm bị thu hồi trên phạm vi toàn cầu, nhằm giúp doanh nghiệp và cơ quan quản lý nhận diện sớm hàng hóa rủi ro, kiểm soát ngay từ đầu vào chuỗi phân phối.
MacBook Neo ra mắt tại Việt Nam: Giá từ 16,5 triệu, “cú đánh” thẳng vào phân khúc laptop phổ thông

MacBook Neo ra mắt tại Việt Nam: Giá từ 16,5 triệu, “cú đánh” thẳng vào phân khúc laptop phổ thông

MacBook Neo chính thức bán tại Việt Nam từ 9/4 với giá từ 16,5 triệu đồng. Laptop Apple giá rẻ hướng tới sinh viên, thiết kế mỏng nhẹ, pin dài và hiệu năng đủ dùng.
iPhone màn hình gập đối mặt nguy cơ trễ hẹn vì rào cản kỹ thuật

iPhone màn hình gập đối mặt nguy cơ trễ hẹn vì rào cản kỹ thuật

Dự án iPhone màn hình gập của Apple đang bước vào giai đoạn quan trọng nhưng liên tiếp xuất hiện tín hiệu không thuận lợi. Những thách thức về công nghệ, đặc biệt liên quan đến bản lề và màn hình, có thể khiến thời điểm ra mắt sản phẩm bị lùi lại so với kỳ vọng ban đầu.
An ninh mạng trong kỷ nguyên AI: Việt Nam tăng cường giải pháp bảo vệ dữ liệu

An ninh mạng trong kỷ nguyên AI: Việt Nam tăng cường giải pháp bảo vệ dữ liệu

Trí tuệ nhân tạo (AI) đang làm thay đổi sâu sắc bức tranh an ninh mạng toàn cầu, kéo theo nhiều rủi ro mới về dữ liệu và tấn công mạng. Việt Nam đứng trước yêu cầu cấp thiết phải hoàn thiện thể chế, nâng cao năng lực bảo mật để bảo đảm an toàn trong kỷ nguyên số.
Kết nối 12 cơ sở dữ liệu mở ra bước ngoặt chuyển đổi số ngành nông nghiệp

Kết nối 12 cơ sở dữ liệu mở ra bước ngoặt chuyển đổi số ngành nông nghiệp

Việc kết nối 12 cơ sở dữ liệu với hệ thống quốc gia đánh dấu bước tiến quan trọng, giúp ngành nông nghiệp và môi trường nâng cao hiệu quả quản lý, thúc đẩy chuyển đổi số toàn diện và phục vụ tốt hơn người dân.
Tại sao Việt Nam là điểm đến mới của trung tâm dữ liệu châu Á - Thái Bình Dương?

Tại sao Việt Nam là điểm đến mới của trung tâm dữ liệu châu Á - Thái Bình Dương?

Việt Nam nổi lên như điểm đến mới của trung tâm dữ liệu châu Á - Thái Bình Dương, nhờ chi phí cạnh tranh và nhu cầu AI tăng mạnh, dù vẫn đối mặt thách thức lớn về nguồn điện và hạ tầng.
Thí điểm cửa khẩu thông minh: Lạng Sơn kiến tạo “hạ tầng mềm” cho xuất nhập khẩu

Thí điểm cửa khẩu thông minh: Lạng Sơn kiến tạo “hạ tầng mềm” cho xuất nhập khẩu

Lạng Sơn đang đẩy nhanh triển khai Đề án thí điểm xây dựng cửa khẩu thông minh với tổng vốn gần 8.000 tỷ đồng, đồng thời kiến nghị hoàn thiện hành lang pháp lý, tăng cường kết nối quốc tế nhằm nâng cao năng lực thông quan, giảm tải áp lực cho các cửa khẩu truyền thống và thúc đẩy giao thương biên giới.
Bộ Công an đề xuất khung pháp lý cho sàn dữ liệu

Bộ Công an đề xuất khung pháp lý cho sàn dữ liệu

Lần đầu tiên, khung vận hành cho “sàn dữ liệu” được đề xuất một cách hệ thống, mở đường hình thành thị trường dữ liệu minh bạch, có kiểm soát, qua đó thúc đẩy đổi mới sáng tạo và phát triển kinh tế dữ liệu tại Việt Nam.