Thứ sáu 04/04/2025 17:12
Hotline: 024.355.63.010
Kinh tế số

ByteDance tăng tốc trong cuộc đua AI với công cụ thu thập dữ liệu mới

08/10/2024 17:14
Nghiên cứu cho thấy, tốc độ thu thập của Bytespider - công cụ thu thập dữ liệu web mà ByteDance mới ra mắt nhanh gấp 25 lần so với GPTbot của OpenAI.
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI.

Công ty mẹ của TikTok là ByteDance, đã ra mắt công cụ thu thập dữ liệu web mang tên Bytespider vào tháng 4 năm nay. Theo Kasada, một công ty chuyên về quản lý bot (phần mềm tự động), Bytespider nhanh chóng nổi lên như một trong những công cụ thu thập dữ liệu mạnh nhất trên internet, vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI. Nghiên cứu cho thấy, tốc độ thu thập dữ liệu của Bytespider nhanh gấp 25 lần so với GPTbot của OpenAI, công cụ thu thập dữ liệu phục vụ cho nền tảng ChatGPT.

Việc thu thập dữ liệu với tốc độ cao giúp ByteDance có thêm nhiều dữ liệu để đào tạo các mô hình ngôn ngữ lớn (LLM) và mô hình đa phương tiện (LMM), những thành phần cốt lõi trong việc phát triển các công cụ AI thế hệ mới. Trong bối cảnh các công ty công nghệ lớn đang chạy đua trong lĩnh vực AI, ByteDance cố gắng rút ngắn khoảng cách bằng cách thu thập một lượng dữ liệu khổng lồ từ các trang web toàn cầu.

Sam Crowther, CEO của Kasada, cho biết, kể từ khi Bytespider xuất hiện, nó đã thu thập dữ liệu với tốc độ nhanh hơn khoảng 25 lần so với GPTbot - công cụ thu thập dữ liệu cho nền tảng ChatGPT của OpenAI và các mô hình cơ bản. Bytespider cũng đã thu thập dữ liệu với tốc độ nhanh hơn 3.000 lần so với ClaudeBot của startup AI Anthropic.

Theo Kasada, khi những tháng trôi qua, Bytespider thậm chí còn gấp rút hơn trong việc thu thập dữ liệu. Hoạt động thu thập dữ liệu từ Bytespider tăng đột biến trong 6 tuần qua.

Việc ByteDance thu thập dữ liệu một cách thần tốc diễn ra bất chấp khả năng TikTok bị cấm tại Mỹ trong những tháng tới. Trước đó, Tổng thống Joe Biden đã ký một đạo luật yêu cầu công ty Trung Quốc này phải bán hoặc đóng cửa TikTok do lo ngại về an ninh quốc gia.

Một nguồn tin nội bộ cho biết, ByteDance đang phát triển một mô hình ngôn ngữ lớn mới nhằm cải thiện khả năng tìm kiếm trên TikTok.

Ngoài ra, Bytespider được cho là không tuân thủ tập tin quy định về robots.txt, một tập tin mà các nhà xuất bản web sử dụng để ngăn các công cụ thu thập dữ liệu. Mặc dù điều này không vi phạm pháp luật, nhưng nó có thể dẫn đến các tranh chấp về quyền sở hữu trí tuệ. Nhiều tổ chức cho rằng, việc thu thập dữ liệu mà không được phép là hành vi vi phạm bản quyền, gây ra nhiều tranh cãi trong lĩnh vực này.

"Giống như họ đang cố gắng hết sức để bắt kịp", Crowther nói về hoạt động thu thập dữ liệu tích cực do Bytespider thực hiện. Chỉ riêng năm ngoái, ByteDance được cho là đã tụt hậu rất xa trong cuộc đua AI tạo sinh đến mức họ đã sử dụng OpenAI để giúp xây dựng LLM của riêng ByteDance, điều này trái với các điều khoản dịch vụ của OpenAI.

Gần đây nhất, ByteDance chính thức bước vào cuộc đua video AI với hai mô hình trí tuệ nhân tạo là PixelDance và Seaweed được ra mắt dưới tên thương hiệu Doubao trong Volcano Engine AI Innovation Tour tại Thâm Quyến ngày 24/9. Cả hai mô hình đều nhắm vào thị trường doanh nghiệp và hiện tại vẫn đang trong giai đoạn thử nghiệm với số lượng người được mời tham gia hạn chế.

Việc ra mắt diễn ra mà không có bất kỳ thông báo trước nào. Mặc dù triển khai lặng lẽ, nhưng sự mong đợi trong ngành vẫn tăng nhờ vào những tiến bộ trước đó từ các đối thủ cạnh tranh như Open AI và Kuaishou.

Việc ByteDance ra mắt hai mô hình trên cũng cho thấy tham vọng lớn của công ty trong việc phát triển các công nghệ AI tiên tiến, bất chấp những thách thức pháp lý và sự cạnh tranh khốc liệt trong ngành.

Tin bài khác
Vivo Y29: Đối thủ đáng gờm trong phân khúc 6-7 triệu với pin siêu bền

Vivo Y29: Đối thủ đáng gờm trong phân khúc 6-7 triệu với pin siêu bền

Không chỉ dừng lại ở thời lượng pin ấn tượng, vivo Y29 còn được tích hợp loạt tính năng AI thông minh nhằm nâng cao trải nghiệm người dùng.
POCO M7 Pro 5G ra mắt: Smartphone tầm trung với hiệu năng mạnh mẽ

POCO M7 Pro 5G ra mắt: Smartphone tầm trung với hiệu năng mạnh mẽ

Với loạt nâng cấp về hiệu năng, màn hình, camera và pin, POCO M7 Pro 5G hứa hẹn trở thành lựa chọn hàng đầu trong phân khúc giá dưới 6 triệu đồng.
Lý do gì khiến Samsung hoãn ra mắt Galaxy S25 Edge ?

Lý do gì khiến Samsung hoãn ra mắt Galaxy S25 Edge ?

Galaxy S25 Edge là mẫu smartphone cao cấp được Samsung giới thiệu tại sự kiện Unpacked đầu năm nay, hướng đến phân khúc cao cấp với thiết kế siêu mỏng.
Huawei bứt phá doanh thu bất chấp các lệnh trừng phạt từ Mỹ

Huawei bứt phá doanh thu bất chấp các lệnh trừng phạt từ Mỹ

Một trong những động lực quan trọng giúp Huawei đạt mức tăng trưởng doanh thu ấn tượng là sự hồi sinh của mảng kinh doanh tiêu dùng, đặc biệt là smartphone.
Ứng dụng công nghệ Robot và trí tuệ nhân tạo AI vào ngành công nghệ thực phẩm

Ứng dụng công nghệ Robot và trí tuệ nhân tạo AI vào ngành công nghệ thực phẩm

Hội chợ Thương mại Quốc tế Việt Nam (Vietnam Expo 2025) chính thức khai mạc, quy tụ hơn 400 doanh nghiệp từ 18 quốc gia và vùng lãnh thổ với quy mô trên 500 gian hàng.
Lava Bold 5G ra mắt: Smartphone giá rẻ với màn hình cong 120Hz đầu tiên trong phân khúc

Lava Bold 5G ra mắt: Smartphone giá rẻ với màn hình cong 120Hz đầu tiên trong phân khúc

Lava Bold 5G sở hữu màn hình AMOLED cong 3D 6,67 inch với tần số quét 120Hz, được hãng khẳng định là sản phẩm đầu tiên trong phân khúc sở hữu công nghệ này.
Bảng giá iPhone tháng 4: iPhone 15 giảm mạnh gây áp lực lớn cho Galaxy S24

Bảng giá iPhone tháng 4: iPhone 15 giảm mạnh gây áp lực lớn cho Galaxy S24

Thị trường iPhone tháng 4 sôi động với nhiều ưu đãi hấp dẫn. Bảng giá iPhone mới nhất ghi nhận mức giảm mạnh, giúp người dùng dễ dàng sở hữu sản phẩm cao cấp.
Các mẫu smartphone đáng chú ý dự kiến ra mắt tháng 4

Các mẫu smartphone đáng chú ý dự kiến ra mắt tháng 4

Tháng 4/2025, thị trường smartphone bùng nổ với loạt siêu phẩm từ Samsung, Xiaomi, Vivo, OnePlus hứa hẹn sẽ cạnh tranh gay cấn với nhiều công nghệ đột phá.
Trào lưu tạo ảnh AI phong cách Ghibli giúp lượng người dùng ChatGPT tăng kỷ lục

Trào lưu tạo ảnh AI phong cách Ghibli giúp lượng người dùng ChatGPT tăng kỷ lục

Xu hướng tạo ảnh AI theo phong cách Ghibli đã nhanh chóng thu hút sự chú ý trên toàn cầu và gây ra tình trạng quá tải nghiêm trọng trên hệ thống của OpenAI.
HCACS, Tridge và TopVN hợp tác đẩy mạnh xuất khẩu nông sản Việt Nam qua nền tảng dữ liệu số

HCACS, Tridge và TopVN hợp tác đẩy mạnh xuất khẩu nông sản Việt Nam qua nền tảng dữ liệu số

HCACS, TRIDGETOPVN ký kết Biên bản ghi nhớ hợp tác, mở ra cánh cửa giao thương mới cho xuất nhập khẩu sản phẩm Nông nghiệp & Thực phẩm Việt Nam qua nền tảng dữ liệu số và chuỗi cung ứng B2B toàn cầu.
Qualcomm toan tính gì khi mua công ty trí tuệ nhân tạo của Vingroup?

Qualcomm toan tính gì khi mua công ty trí tuệ nhân tạo của Vingroup?

Trong bối cảnh các công ty công nghệ ngày càng chú trọng đến AI, việc Vingroup bán Movian AI cho Qualcomm là bước đi chiến lược nhằm tối ưu hóa nguồn lực.
Starlink tiến gần đến việc cung cấp Internet vệ tinh tại Việt Nam

Starlink tiến gần đến việc cung cấp Internet vệ tinh tại Việt Nam

Reuters tiết lộ rằng SpaceX đang chuẩn bị xây dựng một trạm mặt đất Starlink tại Đà Nẵng, dự kiến có thể đi vào hoạt động từ tháng 5 hoặc tháng 6/2025.
Cảnh báo xu hướng tấn công mạng năm 2025

Cảnh báo xu hướng tấn công mạng năm 2025

Dựa trên các dữ liệu thu thập được, báo cáo của Công ty An ninh mạng Viettel dự báo một số xu hướng tấn công mạng sẽ phát triển mạnh trong năm 2025.
Những mẫu iPhone nào sẽ được cập nhật iOS 19 vào 9/6 tới ?

Những mẫu iPhone nào sẽ được cập nhật iOS 19 vào 9/6 tới ?

Apple dự kiến sẽ chính thức công bố iOS 19 tại sự kiện WWDC 2025 vào ngày 9/6 tới. Khi đó, danh sách thiết bị được hỗ trợ sẽ được xác nhận một cách chính thức.
Người dùng đã có thể gọi xe, đặt báo thức bằng Siri tiếng Việt trên iPhone

Người dùng đã có thể gọi xe, đặt báo thức bằng Siri tiếng Việt trên iPhone

Dù vậy, Siri tiếng Việt vẫn còn một số giới hạn khi các câu lệnh phải được đọc chính xác, chưa thể nhận diện linh hoạt theo cách nói tự nhiên của người dùng.