Thứ ba 08/10/2024 21:14
Hotline: 024.355.63.010
Kinh tế số

ByteDance tăng tốc trong cuộc đua AI với công cụ thu thập dữ liệu mới

08/10/2024 17:14
Nghiên cứu cho thấy, tốc độ thu thập của Bytespider - công cụ thu thập dữ liệu web mà ByteDance mới ra mắt nhanh gấp 25 lần so với GPTbot của OpenAI.
aa
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI.

Công ty mẹ của TikTok là ByteDance, đã ra mắt công cụ thu thập dữ liệu web mang tên Bytespider vào tháng 4 năm nay. Theo Kasada, một công ty chuyên về quản lý bot (phần mềm tự động), Bytespider nhanh chóng nổi lên như một trong những công cụ thu thập dữ liệu mạnh nhất trên internet, vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI. Nghiên cứu cho thấy, tốc độ thu thập dữ liệu của Bytespider nhanh gấp 25 lần so với GPTbot của OpenAI, công cụ thu thập dữ liệu phục vụ cho nền tảng ChatGPT.

Việc thu thập dữ liệu với tốc độ cao giúp ByteDance có thêm nhiều dữ liệu để đào tạo các mô hình ngôn ngữ lớn (LLM) và mô hình đa phương tiện (LMM), những thành phần cốt lõi trong việc phát triển các công cụ AI thế hệ mới. Trong bối cảnh các công ty công nghệ lớn đang chạy đua trong lĩnh vực AI, ByteDance cố gắng rút ngắn khoảng cách bằng cách thu thập một lượng dữ liệu khổng lồ từ các trang web toàn cầu.

Sam Crowther, CEO của Kasada, cho biết, kể từ khi Bytespider xuất hiện, nó đã thu thập dữ liệu với tốc độ nhanh hơn khoảng 25 lần so với GPTbot - công cụ thu thập dữ liệu cho nền tảng ChatGPT của OpenAI và các mô hình cơ bản. Bytespider cũng đã thu thập dữ liệu với tốc độ nhanh hơn 3.000 lần so với ClaudeBot của startup AI Anthropic.

Theo Kasada, khi những tháng trôi qua, Bytespider thậm chí còn gấp rút hơn trong việc thu thập dữ liệu. Hoạt động thu thập dữ liệu từ Bytespider tăng đột biến trong 6 tuần qua.

Việc ByteDance thu thập dữ liệu một cách thần tốc diễn ra bất chấp khả năng TikTok bị cấm tại Mỹ trong những tháng tới. Trước đó, Tổng thống Joe Biden đã ký một đạo luật yêu cầu công ty Trung Quốc này phải bán hoặc đóng cửa TikTok do lo ngại về an ninh quốc gia.

Một nguồn tin nội bộ cho biết, ByteDance đang phát triển một mô hình ngôn ngữ lớn mới nhằm cải thiện khả năng tìm kiếm trên TikTok.

Ngoài ra, Bytespider được cho là không tuân thủ tập tin quy định về robots.txt, một tập tin mà các nhà xuất bản web sử dụng để ngăn các công cụ thu thập dữ liệu. Mặc dù điều này không vi phạm pháp luật, nhưng nó có thể dẫn đến các tranh chấp về quyền sở hữu trí tuệ. Nhiều tổ chức cho rằng, việc thu thập dữ liệu mà không được phép là hành vi vi phạm bản quyền, gây ra nhiều tranh cãi trong lĩnh vực này.

"Giống như họ đang cố gắng hết sức để bắt kịp", Crowther nói về hoạt động thu thập dữ liệu tích cực do Bytespider thực hiện. Chỉ riêng năm ngoái, ByteDance được cho là đã tụt hậu rất xa trong cuộc đua AI tạo sinh đến mức họ đã sử dụng OpenAI để giúp xây dựng LLM của riêng ByteDance, điều này trái với các điều khoản dịch vụ của OpenAI.

Gần đây nhất, ByteDance chính thức bước vào cuộc đua video AI với hai mô hình trí tuệ nhân tạo là PixelDance và Seaweed được ra mắt dưới tên thương hiệu Doubao trong Volcano Engine AI Innovation Tour tại Thâm Quyến ngày 24/9. Cả hai mô hình đều nhắm vào thị trường doanh nghiệp và hiện tại vẫn đang trong giai đoạn thử nghiệm với số lượng người được mời tham gia hạn chế.

Việc ra mắt diễn ra mà không có bất kỳ thông báo trước nào. Mặc dù triển khai lặng lẽ, nhưng sự mong đợi trong ngành vẫn tăng nhờ vào những tiến bộ trước đó từ các đối thủ cạnh tranh như Open AI và Kuaishou.

Việc ByteDance ra mắt hai mô hình trên cũng cho thấy tham vọng lớn của công ty trong việc phát triển các công nghệ AI tiên tiến, bất chấp những thách thức pháp lý và sự cạnh tranh khốc liệt trong ngành.

Tin bài khác
Động lực để phát triển nền kinh tế số ở Việt Nam

Động lực để phát triển nền kinh tế số ở Việt Nam

Trong bối cảnh bùng nổ về công nghệ, nước ta nhanh chóng trở thành một nền kinh tế số nổi bật ở Đông Nam Á.
Công bố 12 Giải thưởng Sáng tạo nội dung số Việt Nam 2024

Công bố 12 Giải thưởng Sáng tạo nội dung số Việt Nam 2024

Lễ trao Giải thưởng Sáng tạo nội dung số Việt Nam năm 2024 (Vietnam Digital Content Creation Awards - VCA 2024) ngày 27/9 đã vinh danh 12 tổ chức, cá nhân của 8 hạng mục giải thưởng là những cá nhân, đơn vị xuất sắc, có những sản phẩm nội dung số đóng góp tích cực cho cộng đồng.
Tập huấn về chuyển đổi số cho các tỉnh, thành phố khu vực phía Nam

Tập huấn về chuyển đổi số cho các tỉnh, thành phố khu vực phía Nam

Nhằm triển khai Kế hoạch bồi dưỡng, tập huấn về CĐS năm 2024, Bộ Thông tin và Truyền thông phối hợp với UBND tỉnh Bà Rịa - Vũng Tàu tổ chức Hội nghị tập huấn về chuyển đổi số cho các tỉnh, thành phố khu vực phía Nam.
Thị trường AI dự kiến đạt gần 1.000 tỷ USD năm 2027: Áp lực cho chuỗi cung ứng linh kiện

Thị trường AI dự kiến đạt gần 1.000 tỷ USD năm 2027: Áp lực cho chuỗi cung ứng linh kiện

Quy mô thị trường AI dự kiến đạt gần 1.000 tỷ USD vào năm 2027, điều này gây áp lực lên chuỗi cung ứng linh kiện, bao gồm những con chip cần thiết để vận hành.
Các đại lý ủy quyền của Apple ở Việt Nam kinh doanh ra sao trong ngày mở bán iPhone 16?

Các đại lý ủy quyền của Apple ở Việt Nam kinh doanh ra sao trong ngày mở bán iPhone 16?

Các đại lý ủy quyền của Apple ở Việt Nam thừa nhận tình trạng "rất khan hiếm" đối với phiên bản Pro và Pro Max và dự kiến đến tháng 10 mới có thể trả hết.