Thứ bảy 23/11/2024 15:13
Hotline: 024.355.63.010
Kinh tế số

ByteDance tăng tốc trong cuộc đua AI với công cụ thu thập dữ liệu mới

08/10/2024 17:14
Nghiên cứu cho thấy, tốc độ thu thập của Bytespider - công cụ thu thập dữ liệu web mà ByteDance mới ra mắt nhanh gấp 25 lần so với GPTbot của OpenAI.
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI.

Công ty mẹ của TikTok là ByteDance, đã ra mắt công cụ thu thập dữ liệu web mang tên Bytespider vào tháng 4 năm nay. Theo Kasada, một công ty chuyên về quản lý bot (phần mềm tự động), Bytespider nhanh chóng nổi lên như một trong những công cụ thu thập dữ liệu mạnh nhất trên internet, vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI. Nghiên cứu cho thấy, tốc độ thu thập dữ liệu của Bytespider nhanh gấp 25 lần so với GPTbot của OpenAI, công cụ thu thập dữ liệu phục vụ cho nền tảng ChatGPT.

Việc thu thập dữ liệu với tốc độ cao giúp ByteDance có thêm nhiều dữ liệu để đào tạo các mô hình ngôn ngữ lớn (LLM) và mô hình đa phương tiện (LMM), những thành phần cốt lõi trong việc phát triển các công cụ AI thế hệ mới. Trong bối cảnh các công ty công nghệ lớn đang chạy đua trong lĩnh vực AI, ByteDance cố gắng rút ngắn khoảng cách bằng cách thu thập một lượng dữ liệu khổng lồ từ các trang web toàn cầu.

Sam Crowther, CEO của Kasada, cho biết, kể từ khi Bytespider xuất hiện, nó đã thu thập dữ liệu với tốc độ nhanh hơn khoảng 25 lần so với GPTbot - công cụ thu thập dữ liệu cho nền tảng ChatGPT của OpenAI và các mô hình cơ bản. Bytespider cũng đã thu thập dữ liệu với tốc độ nhanh hơn 3.000 lần so với ClaudeBot của startup AI Anthropic.

Theo Kasada, khi những tháng trôi qua, Bytespider thậm chí còn gấp rút hơn trong việc thu thập dữ liệu. Hoạt động thu thập dữ liệu từ Bytespider tăng đột biến trong 6 tuần qua.

Việc ByteDance thu thập dữ liệu một cách thần tốc diễn ra bất chấp khả năng TikTok bị cấm tại Mỹ trong những tháng tới. Trước đó, Tổng thống Joe Biden đã ký một đạo luật yêu cầu công ty Trung Quốc này phải bán hoặc đóng cửa TikTok do lo ngại về an ninh quốc gia.

Một nguồn tin nội bộ cho biết, ByteDance đang phát triển một mô hình ngôn ngữ lớn mới nhằm cải thiện khả năng tìm kiếm trên TikTok.

Ngoài ra, Bytespider được cho là không tuân thủ tập tin quy định về robots.txt, một tập tin mà các nhà xuất bản web sử dụng để ngăn các công cụ thu thập dữ liệu. Mặc dù điều này không vi phạm pháp luật, nhưng nó có thể dẫn đến các tranh chấp về quyền sở hữu trí tuệ. Nhiều tổ chức cho rằng, việc thu thập dữ liệu mà không được phép là hành vi vi phạm bản quyền, gây ra nhiều tranh cãi trong lĩnh vực này.

"Giống như họ đang cố gắng hết sức để bắt kịp", Crowther nói về hoạt động thu thập dữ liệu tích cực do Bytespider thực hiện. Chỉ riêng năm ngoái, ByteDance được cho là đã tụt hậu rất xa trong cuộc đua AI tạo sinh đến mức họ đã sử dụng OpenAI để giúp xây dựng LLM của riêng ByteDance, điều này trái với các điều khoản dịch vụ của OpenAI.

Gần đây nhất, ByteDance chính thức bước vào cuộc đua video AI với hai mô hình trí tuệ nhân tạo là PixelDance và Seaweed được ra mắt dưới tên thương hiệu Doubao trong Volcano Engine AI Innovation Tour tại Thâm Quyến ngày 24/9. Cả hai mô hình đều nhắm vào thị trường doanh nghiệp và hiện tại vẫn đang trong giai đoạn thử nghiệm với số lượng người được mời tham gia hạn chế.

Việc ra mắt diễn ra mà không có bất kỳ thông báo trước nào. Mặc dù triển khai lặng lẽ, nhưng sự mong đợi trong ngành vẫn tăng nhờ vào những tiến bộ trước đó từ các đối thủ cạnh tranh như Open AI và Kuaishou.

Việc ByteDance ra mắt hai mô hình trên cũng cho thấy tham vọng lớn của công ty trong việc phát triển các công nghệ AI tiên tiến, bất chấp những thách thức pháp lý và sự cạnh tranh khốc liệt trong ngành.

Tin bài khác
Chính phủ đề xuất khung pháp lý quản lý tài sản số để ngăn ngừa rủi ro

Chính phủ đề xuất khung pháp lý quản lý tài sản số để ngăn ngừa rủi ro

Theo Phó Thủ tướng Lê Thành Long, quản lý tài sản số đòi hỏi sự kết hợp giữa các quy trình quản lý, công nghệ và con người; bảo đảm an ninh thông tin;...
Messenger ra mắt tính năng video HD và phông nền AI sáng tạo

Messenger ra mắt tính năng video HD và phông nền AI sáng tạo

Meta vừa công bố bản cập nhật mới cho Facebook Messenger, tập trung vào cải tiến trải nghiệm người dùng với hàng loạt tính năng hấp dẫn.
Huawei đặt kế hoạch thương mại hóa chip AI tiên tiến vào 2025

Huawei đặt kế hoạch thương mại hóa chip AI tiên tiến vào 2025

Đây được xem là nỗ lực của gã khổng lồ công nghệ Trung Quốc nhằm cạnh tranh với các đối thủ như Nvidia, đồng thời giảm sự phụ thuộc vào công nghệ phương Tây.
Oppo Find X8 ra mắt: Sự kết hợp hoàn hảo giữa AI, nhiếp ảnh và hiệu suất vượt trội

Oppo Find X8 ra mắt: Sự kết hợp hoàn hảo giữa AI, nhiếp ảnh và hiệu suất vượt trội

Việc phát hành toàn cầu dòng OPPO Find X8 nhấn mạnh đến cam kết toàn cầu hóa của OPPO và sự tận tâm trong cung cấp các sản phẩm và dịch vụ chất lượng hàng đầu.
Vingroup ra mắt VinRobotics, công ty tiên phong trong công nghệ robot tại Việt Nam

Vingroup ra mắt VinRobotics, công ty tiên phong trong công nghệ robot tại Việt Nam

Theo Vingroup, việc thành lập VinRobotics góp phần hoàn thiện hệ sinh thái công nghiệp - công nghệ cao, một trong ba trụ cột chính của tập đoàn.
Apple phát hành iOS 18.1.1: Bảo mật mạnh mẽ và cải thiện trải nghiệm người dùng

Apple phát hành iOS 18.1.1: Bảo mật mạnh mẽ và cải thiện trải nghiệm người dùng

Bản cập nhật iOS 18.1.1 đánh dấu sự khởi đầu cho các tính năng mới của Apple Intelligence - bộ công cụ AI của Apple dành cho iPhone 15 Pro và iPhone 16 series.
Google đầu tư 20 triệu USD thúc đẩy sáng kiến khoa học sử dụng trí tuệ nhân tạo

Google đầu tư 20 triệu USD thúc đẩy sáng kiến khoa học sử dụng trí tuệ nhân tạo

Thông tin này được Demis Hassabis, người sáng lập và CEO của Google DeepMind, công bố trong một cuộc trò chuyện tại Diễn đàn AI for Science Forum ở London.
Huawei Mate 70: Chưa ra mắt đã gây sốt với hàng dài người đặt trước

Huawei Mate 70: Chưa ra mắt đã gây sốt với hàng dài người đặt trước

Huawei ghi nhận hơn 130.000 lượt đặt hàng chỉ sau 10 giờ mở cổng, cho thấy sức hút lớn của dòng Mate 70. Con số này dự kiến sẽ tăng nữa khi chính thức ra mắt.
Google có thể phải bán Chrome: Đòn giáng từ cáo buộc độc quyền

Google có thể phải bán Chrome: Đòn giáng từ cáo buộc độc quyền

Nhà phân tích Mandeep Singh cho rằng, nếu Google phải bán Chrome, khó tìm được người mua tiềm năng vì các ứng viên như Amazon cũng đối mặt cáo buộc độc quyền.
iPad mini 7 lên kệ ở Việt Nam: Giá từ 13,9 triệu đồng, hỗ trợ Apple Intelligence

iPad mini 7 lên kệ ở Việt Nam: Giá từ 13,9 triệu đồng, hỗ trợ Apple Intelligence

iPad mini 7 đã chính thức có mặt tại thị trường Việt Nam với giá khởi điểm từ 13,9 triệu đồng. Sản phẩm được trang bị chip A17 Pro và hỗ trợ Apple Intelligence.
YouTube lên tiếng giải thích về việc người dùng trả phí nhưng vẫn thấy quảng cáo

YouTube lên tiếng giải thích về việc người dùng trả phí nhưng vẫn thấy quảng cáo

Một số người dùng YouTube tại Đức đã phản ánh về việc quảng cáo vẫn xuất hiện trên nền tảng, mặc dù họ đã đăng ký gói Premium đầy đủ.
Người dùng iPhone tại Việt Nam phàn nàn về sự cố chậm, giật sau khi nâng cấp lên iOS 18.1

Người dùng iPhone tại Việt Nam phàn nàn về sự cố chậm, giật sau khi nâng cấp lên iOS 18.1

Người dùng cho biết, tình trạng này chỉ mới xuất hiện trong khoảng 2-3 ngày qua, mặc dù họ đã thực hiện nâng cấp iPhone của mình lên iOS 18.1 từ cuối tháng 10.
Hãy tư duy như người không biết gì về công nghệ số để sử dụng công nghệ số tốt nhất

Hãy tư duy như người không biết gì về công nghệ số để sử dụng công nghệ số tốt nhất

"Hãy tập trung vào các ý tưởng sáng tạo hơn là tập trung vào công nghệ số (CNS). Hãy để câu chuyện CNS cho các doanh nghiệp CNS", theo Bộ trưởng Bộ TT&TT Nguyễn Mạnh Hùng.
Meta bị phạt 840 triệu USD vì lạm dụng dịch vụ Facebook Marketplace

Meta bị phạt 840 triệu USD vì lạm dụng dịch vụ Facebook Marketplace

Meta chỉ ra “quyết định của Ủy ban châu Âu không cung cấp bằng chứng về tác hại cạnh tranh đối với các đối thủ hoặc bất kỳ tác hại nào đối với người tiêu dùng".
Bí kíp khi tham gia du lịch trưc tuyến: Những điều cần biết để phòng tránh rủi ro

Bí kíp khi tham gia du lịch trưc tuyến: Những điều cần biết để phòng tránh rủi ro

Du lịch trực tuyến gần đây có mức tăng trưởng mạnh. Khi nền kinh tế số Việt Nam công bố chạm mốc 36 tỷ USD/năm, ghi nhận sự đóng góp lớn từ du lịch trực tuyến.