Thứ hai 29/06/2026 10:51
Hotline: 024.355.63.010
Kinh tế số

ByteDance tăng tốc trong cuộc đua AI với công cụ thu thập dữ liệu mới

Nghiên cứu cho thấy, tốc độ thu thập của Bytespider - công cụ thu thập dữ liệu web mà ByteDance mới ra mắt nhanh gấp 25 lần so với GPTbot của OpenAI.
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI.

Công ty mẹ của TikTok là ByteDance, đã ra mắt công cụ thu thập dữ liệu web mang tên Bytespider vào tháng 4 năm nay. Theo Kasada, một công ty chuyên về quản lý bot (phần mềm tự động), Bytespider nhanh chóng nổi lên như một trong những công cụ thu thập dữ liệu mạnh nhất trên internet, vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI. Nghiên cứu cho thấy, tốc độ thu thập dữ liệu của Bytespider nhanh gấp 25 lần so với GPTbot của OpenAI, công cụ thu thập dữ liệu phục vụ cho nền tảng ChatGPT.

Việc thu thập dữ liệu với tốc độ cao giúp ByteDance có thêm nhiều dữ liệu để đào tạo các mô hình ngôn ngữ lớn (LLM) và mô hình đa phương tiện (LMM), những thành phần cốt lõi trong việc phát triển các công cụ AI thế hệ mới. Trong bối cảnh các công ty công nghệ lớn đang chạy đua trong lĩnh vực AI, ByteDance cố gắng rút ngắn khoảng cách bằng cách thu thập một lượng dữ liệu khổng lồ từ các trang web toàn cầu.

Sam Crowther, CEO của Kasada, cho biết, kể từ khi Bytespider xuất hiện, nó đã thu thập dữ liệu với tốc độ nhanh hơn khoảng 25 lần so với GPTbot - công cụ thu thập dữ liệu cho nền tảng ChatGPT của OpenAI và các mô hình cơ bản. Bytespider cũng đã thu thập dữ liệu với tốc độ nhanh hơn 3.000 lần so với ClaudeBot của startup AI Anthropic.

Theo Kasada, khi những tháng trôi qua, Bytespider thậm chí còn gấp rút hơn trong việc thu thập dữ liệu. Hoạt động thu thập dữ liệu từ Bytespider tăng đột biến trong 6 tuần qua.

Việc ByteDance thu thập dữ liệu một cách thần tốc diễn ra bất chấp khả năng TikTok bị cấm tại Mỹ trong những tháng tới. Trước đó, Tổng thống Joe Biden đã ký một đạo luật yêu cầu công ty Trung Quốc này phải bán hoặc đóng cửa TikTok do lo ngại về an ninh quốc gia.

Một nguồn tin nội bộ cho biết, ByteDance đang phát triển một mô hình ngôn ngữ lớn mới nhằm cải thiện khả năng tìm kiếm trên TikTok.

Ngoài ra, Bytespider được cho là không tuân thủ tập tin quy định về robots.txt, một tập tin mà các nhà xuất bản web sử dụng để ngăn các công cụ thu thập dữ liệu. Mặc dù điều này không vi phạm pháp luật, nhưng nó có thể dẫn đến các tranh chấp về quyền sở hữu trí tuệ. Nhiều tổ chức cho rằng, việc thu thập dữ liệu mà không được phép là hành vi vi phạm bản quyền, gây ra nhiều tranh cãi trong lĩnh vực này.

"Giống như họ đang cố gắng hết sức để bắt kịp", Crowther nói về hoạt động thu thập dữ liệu tích cực do Bytespider thực hiện. Chỉ riêng năm ngoái, ByteDance được cho là đã tụt hậu rất xa trong cuộc đua AI tạo sinh đến mức họ đã sử dụng OpenAI để giúp xây dựng LLM của riêng ByteDance, điều này trái với các điều khoản dịch vụ của OpenAI.

Gần đây nhất, ByteDance chính thức bước vào cuộc đua video AI với hai mô hình trí tuệ nhân tạo là PixelDance và Seaweed được ra mắt dưới tên thương hiệu Doubao trong Volcano Engine AI Innovation Tour tại Thâm Quyến ngày 24/9. Cả hai mô hình đều nhắm vào thị trường doanh nghiệp và hiện tại vẫn đang trong giai đoạn thử nghiệm với số lượng người được mời tham gia hạn chế.

Việc ra mắt diễn ra mà không có bất kỳ thông báo trước nào. Mặc dù triển khai lặng lẽ, nhưng sự mong đợi trong ngành vẫn tăng nhờ vào những tiến bộ trước đó từ các đối thủ cạnh tranh như Open AI và Kuaishou.

Việc ByteDance ra mắt hai mô hình trên cũng cho thấy tham vọng lớn của công ty trong việc phát triển các công nghệ AI tiên tiến, bất chấp những thách thức pháp lý và sự cạnh tranh khốc liệt trong ngành.

Tin bài khác
TP. Hồ Chí Minh khẳng định vị thế trung tâm đổi mới sáng tạo tại WEF 2026

TP. Hồ Chí Minh khẳng định vị thế trung tâm đổi mới sáng tạo tại WEF 2026

Hơn 1.000 lượt đại biểu quốc tế tham dự chuỗi hoạt động xúc tiến đầu tư, 9 nội dung hợp tác được công bố giữa các doanh nghiệp Việt Nam và Trung Quốc, cùng 12 cuộc tiếp xúc cấp cao bên lề và song phương với lãnh đạo nhiều quốc gia của Diễn đàn Kinh tế Thế giới (WEF).
Miko: Người bạn AI đầu tiên của trẻ em trong thế giới ngày càng cô đơn

Miko: Người bạn AI đầu tiên của trẻ em trong thế giới ngày càng cô đơn

Ít bậc phụ huynh nào dám thừa nhận thẳng thắn rằng con cái của họ đang lớn lên trong một thế giới kết nối hơn bao giờ hết nhưng cũng cô đơn hơn nhiều thế hệ trước. Cha mẹ đi làm từ sáng đến tối, ông bà sống xa, anh chị em mỗi người một màn hình điện thoại. Không có sự kết nối nào trong gia đình, thậm chí những giờ học trực tuyến khó có thể thay thế sự hiện diện của một người thực sự lắng nghe.
Nghệ An chỉ đạo triển khai Đề án hình thành các doanh nghiệp công nghệ chiến lược quy mô lớn

Nghệ An chỉ đạo triển khai Đề án hình thành các doanh nghiệp công nghệ chiến lược quy mô lớn

Nghệ An chỉ đạo triển khai Đề án hình thành các doanh nghiệp công nghệ chiến lược quy mô lớn trong nước để phát triển hạ tầng số, nhân lực số, dữ liệu số, công nghệ chiến lược, an ninh mạng giai đoạn 2026 - 2030 trên địa bàn tỉnh.
Mỹ tịch thu gần 400 tên miền phát lậu World Cup

Mỹ tịch thu gần 400 tên miền phát lậu World Cup

Trong bối cảnh FIFA World Cup thu hút sự quan tâm lớn của người hâm mộ toàn cầu, chính quyền Mỹ đã đồng loạt tịch thu gần 400 tên miền bị cáo buộc phát sóng trái phép các trận đấu, qua đó siết chặt cuộc chiến chống vi phạm bản quyền thể thao trên môi trường số.
Robot Atlas: Kỷ nguyên mới của robot ngành logistics toàn cầu

Robot Atlas: Kỷ nguyên mới của robot ngành logistics toàn cầu

Suốt hơn một thập kỷ, mỗi khi Boston Dynamics công bố video mới, thế giới lại trầm trồ trước những màn nhào lộn, chạy nhảy hay giữ thăng bằng gần như hoàn hảo của robot Atlas. Tuy nhiên, năm 2026 được xem là cột mốc quan trọng khi Atlas bắt đầu bước ra khỏi phòng thí nghiệm để tham gia thử nghiệm trong môi trường sản xuất thực tế tại các nhà máy của Hyundai. Đây được đánh giá là bước tiến đáng chú ý, mở ra triển vọng mới cho robot hình người trong ngành công nghiệp và logistics.
Google Finance trở lại Android sau hơn 10 năm, tích hợp AI Gemini hỗ trợ đầu tư

Google Finance trở lại Android sau hơn 10 năm, tích hợp AI Gemini hỗ trợ đầu tư

Sau hơn một thập kỷ vắng bóng trên Android, Google Finance chính thức trở lại với ứng dụng mới tích hợp AI Gemini, bổ sung nhiều công cụ hỗ trợ theo dõi thị trường, quản lý danh mục đầu tư và nghiên cứu tài chính.
Apple tăng giá MacBook và iPad do chi phí bộ nhớ phục vụ AI tăng mạnh

Apple tăng giá MacBook và iPad do chi phí bộ nhớ phục vụ AI tăng mạnh

Apple vừa điều chỉnh tăng giá một số mẫu MacBook và iPad sau khi chi phí bộ nhớ và thiết bị lưu trữ phục vụ AI tăng mạnh, buộc hãng phải chuyển một phần chi phí sang người tiêu dùng.
Meta đẩy mạnh ứng dụng AI trong kiểm duyệt nội dung, hướng tới tự động hóa phần lớn quy trình

Meta đẩy mạnh ứng dụng AI trong kiểm duyệt nội dung, hướng tới tự động hóa phần lớn quy trình

Meta đang đẩy nhanh việc sử dụng trí tuệ nhân tạo (AI) tạo sinh để thay thế một phần hoạt động kiểm duyệt nội dung và quảng cáo do con người thực hiện, trong bối cảnh tập đoàn tăng cường đầu tư vào AI và mở rộng tự động hóa nhiều quy trình vận hành.
Hà Nội ra mắt sa bàn số quy hoạch 100 năm, trình chiếu 3D Mapping từ ngày 29/6

Hà Nội ra mắt sa bàn số quy hoạch 100 năm, trình chiếu 3D Mapping từ ngày 29/6

Từ ngày 29/6, người dân có thể trải nghiệm mô hình sa bàn quy hoạch tổng thể Thủ đô Hà Nội tầm nhìn 100 năm tại Bảo tàng Hà Nội. Điểm nhấn của không gian trưng bày là hệ thống sa bàn quy mô lớn kết hợp công nghệ trình chiếu 3D Mapping, giúp trực quan hóa định hướng phát triển đô thị và không gian tương lai của Thủ đô.
World Cup 2026: AI góp sức cho đội tuyển Mỹ từ phân tích chiến thuật đến quyết định thay người theo thời gian thực

World Cup 2026: AI góp sức cho đội tuyển Mỹ từ phân tích chiến thuật đến quyết định thay người theo thời gian thực

AI không còn chỉ hỗ trợ phân tích sau trận đấu mà đã trở thành "trợ lý chiến thuật" ngay trên sân. Đội tuyển Mỹ đang là một trong những ví dụ rõ nét nhất khi tận dụng nền tảng AI Sportian Performance để tối ưu chiến thuật, quản lý thể lực và nâng cao hiệu quả thi đấu tại FIFA World Cup 2026.
Google biến Gemini thành nền tảng AI "tất cả trong một" cho người dùng

Google biến Gemini thành nền tảng AI "tất cả trong một" cho người dùng

Google đang phát triển Gemini từ một chatbot thành trợ lý AI đa năng, hỗ trợ người dùng nghiên cứu, học tập, làm việc và sáng tạo nội dung trên cùng một nền tảng.
Gần 60% video trên TikTok là nội dung tạo bằng AI

Gần 60% video trên TikTok là nội dung tạo bằng AI

Khảo sát mới của nền tảng chỉnh sửa video Kapwing cho thấy nội dung được tạo bằng trí tuệ nhân tạo (AI) đang xuất hiện ngày càng phổ biến trên TikTok, đặc biệt ở các nhóm nội dung dành cho trẻ em.
AI Smart Fire Detector: Khi AI bắt đầu làm việc của một lính cứu hỏa giỏi nhất thế giới

AI Smart Fire Detector: Khi AI bắt đầu làm việc của một lính cứu hỏa giỏi nhất thế giới

Có một sự thật đáng sợ mà hầu hết mọi người không nhận ra cho đến khi quá muộn, đó là phần lớn thiệt hại trong các vụ hỏa hoạn không xảy ra vào lúc đám cháy bùng phát dữ dội nhất, mà xảy ra vì con người phát hiện ra nguy hiểm quá chậm. Một tia lửa điện nhỏ trong phòng kỹ thuật, một thiết bị quá nhiệt trong trung tâm dữ liệu, một ổ cắm chập điện trong căn hộ lúc nửa đêm, một đám khói âm ỉ phía sau bức tường, tất cả những tín hiệu ấy đều có thể được ngăn chặn từ sớm, nhưng khi con người nhìn thấy ngọn lửa, mọi thứ thường đã qua thời điểm có thể kiểm soát được.
Claude gặp sự cố diện rộng, nhiều dịch vụ AI bị gián đoạn

Claude gặp sự cố diện rộng, nhiều dịch vụ AI bị gián đoạn

Chatbot Claude của Anthropic tối 23/6 ghi nhận sự cố trên diện rộng, khiến nhiều người dùng không thể truy cập hoặc nhận phản hồi từ hệ thống. Tình trạng này ảnh hưởng tới nhiều dịch vụ, bao gồm Claude.ai, Claude Code và nền tảng API dành cho nhà phát triển.
Meta tạm dừng chương trình theo dõi máy tính nhân viên sau lo ngại rò rỉ dữ liệu

Meta tạm dừng chương trình theo dõi máy tính nhân viên sau lo ngại rò rỉ dữ liệu

Meta tạm dừng chương trình theo dõi hoạt động trên máy tính nhân viên để điều tra các vấn đề liên quan đến bảo mật dữ liệu nội bộ.