Thứ ba 16/09/2025 23:05
Hotline: 024.355.63.010
Kinh tế số

ByteDance tăng tốc trong cuộc đua AI với công cụ thu thập dữ liệu mới

Nghiên cứu cho thấy, tốc độ thu thập của Bytespider - công cụ thu thập dữ liệu web mà ByteDance mới ra mắt nhanh gấp 25 lần so với GPTbot của OpenAI.
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI.

Công ty mẹ của TikTok là ByteDance, đã ra mắt công cụ thu thập dữ liệu web mang tên Bytespider vào tháng 4 năm nay. Theo Kasada, một công ty chuyên về quản lý bot (phần mềm tự động), Bytespider nhanh chóng nổi lên như một trong những công cụ thu thập dữ liệu mạnh nhất trên internet, vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI. Nghiên cứu cho thấy, tốc độ thu thập dữ liệu của Bytespider nhanh gấp 25 lần so với GPTbot của OpenAI, công cụ thu thập dữ liệu phục vụ cho nền tảng ChatGPT.

Việc thu thập dữ liệu với tốc độ cao giúp ByteDance có thêm nhiều dữ liệu để đào tạo các mô hình ngôn ngữ lớn (LLM) và mô hình đa phương tiện (LMM), những thành phần cốt lõi trong việc phát triển các công cụ AI thế hệ mới. Trong bối cảnh các công ty công nghệ lớn đang chạy đua trong lĩnh vực AI, ByteDance cố gắng rút ngắn khoảng cách bằng cách thu thập một lượng dữ liệu khổng lồ từ các trang web toàn cầu.

Sam Crowther, CEO của Kasada, cho biết, kể từ khi Bytespider xuất hiện, nó đã thu thập dữ liệu với tốc độ nhanh hơn khoảng 25 lần so với GPTbot - công cụ thu thập dữ liệu cho nền tảng ChatGPT của OpenAI và các mô hình cơ bản. Bytespider cũng đã thu thập dữ liệu với tốc độ nhanh hơn 3.000 lần so với ClaudeBot của startup AI Anthropic.

Theo Kasada, khi những tháng trôi qua, Bytespider thậm chí còn gấp rút hơn trong việc thu thập dữ liệu. Hoạt động thu thập dữ liệu từ Bytespider tăng đột biến trong 6 tuần qua.

Việc ByteDance thu thập dữ liệu một cách thần tốc diễn ra bất chấp khả năng TikTok bị cấm tại Mỹ trong những tháng tới. Trước đó, Tổng thống Joe Biden đã ký một đạo luật yêu cầu công ty Trung Quốc này phải bán hoặc đóng cửa TikTok do lo ngại về an ninh quốc gia.

Một nguồn tin nội bộ cho biết, ByteDance đang phát triển một mô hình ngôn ngữ lớn mới nhằm cải thiện khả năng tìm kiếm trên TikTok.

Ngoài ra, Bytespider được cho là không tuân thủ tập tin quy định về robots.txt, một tập tin mà các nhà xuất bản web sử dụng để ngăn các công cụ thu thập dữ liệu. Mặc dù điều này không vi phạm pháp luật, nhưng nó có thể dẫn đến các tranh chấp về quyền sở hữu trí tuệ. Nhiều tổ chức cho rằng, việc thu thập dữ liệu mà không được phép là hành vi vi phạm bản quyền, gây ra nhiều tranh cãi trong lĩnh vực này.

"Giống như họ đang cố gắng hết sức để bắt kịp", Crowther nói về hoạt động thu thập dữ liệu tích cực do Bytespider thực hiện. Chỉ riêng năm ngoái, ByteDance được cho là đã tụt hậu rất xa trong cuộc đua AI tạo sinh đến mức họ đã sử dụng OpenAI để giúp xây dựng LLM của riêng ByteDance, điều này trái với các điều khoản dịch vụ của OpenAI.

Gần đây nhất, ByteDance chính thức bước vào cuộc đua video AI với hai mô hình trí tuệ nhân tạo là PixelDance và Seaweed được ra mắt dưới tên thương hiệu Doubao trong Volcano Engine AI Innovation Tour tại Thâm Quyến ngày 24/9. Cả hai mô hình đều nhắm vào thị trường doanh nghiệp và hiện tại vẫn đang trong giai đoạn thử nghiệm với số lượng người được mời tham gia hạn chế.

Việc ra mắt diễn ra mà không có bất kỳ thông báo trước nào. Mặc dù triển khai lặng lẽ, nhưng sự mong đợi trong ngành vẫn tăng nhờ vào những tiến bộ trước đó từ các đối thủ cạnh tranh như Open AI và Kuaishou.

Việc ByteDance ra mắt hai mô hình trên cũng cho thấy tham vọng lớn của công ty trong việc phát triển các công nghệ AI tiên tiến, bất chấp những thách thức pháp lý và sự cạnh tranh khốc liệt trong ngành.

Tin bài khác
Hải quan đẩy mạnh cải cách, gần 66% tờ khai được phân luồng xanh trong 8 tháng

Hải quan đẩy mạnh cải cách, gần 66% tờ khai được phân luồng xanh trong 8 tháng

Trong 8 tháng đầu năm 2025, toàn ngành Hải quan đã xử lý hơn 12,17 triệu tờ khai hải quan, tăng hơn 1,5 triệu tờ khai so với cùng kỳ năm 2024. Đáng chú ý, gần 66% số tờ khai được phân vào luồng xanh – nhóm hàng hóa được thông quan nhanh nhờ mức độ rủi ro thấp.
Đồng Nai đẩy mạnh xây dựng chính quyền điện tử, hướng tới chính quyền số

Đồng Nai đẩy mạnh xây dựng chính quyền điện tử, hướng tới chính quyền số

Hiện Đồng Nai có 2 trung tâm tích hợp dữ liệu đặt tại phường Trấn Biên và phường Bình Phước, được đầu tư nâng cấp nhằm bảo đảm hệ thống công nghệ thông tin vận hành ổn định.
Vị Phó Giáo sư bỏ “xứ sở giàu nhất thế giới” sang Việt Nam bồi dưỡng tài năng công nghệ

Vị Phó Giáo sư bỏ “xứ sở giàu nhất thế giới” sang Việt Nam bồi dưỡng tài năng công nghệ

“Chúng tôi không chỉ đào tạo kỹ sư mà còn đào tạo người dẫn dắt”, là tôn chỉ mà Phó Giáo sư Ali Al-Dulaimi mang theo trong hành trình giáo dục tại Việt Nam. Với vai trò Trưởng khoa Khoa học Máy tính & Công nghệ tại Trường Đại học Anh Quốc Việt Nam (BUV), ông đang từng bước hiện thực hóa triết lý giáo dục gắn với thực tiễn, đổi mới sáng tạo và phát triển bền vững cho thế hệ công nghệ trẻ.
PCI 2.0: Công cụ mới thúc đẩy năng lực cạnh tranh và phát triển kinh tế tư nhân

PCI 2.0: Công cụ mới thúc đẩy năng lực cạnh tranh và phát triển kinh tế tư nhân

PCI 2.0 được coi là bước tiến quan trọng trong nghiên cứu, phản ánh thực trạng kinh tế tư nhân và góp phần cải thiện năng lực điều hành kinh tế địa phương.
Phát triển hệ sinh thái AI tại Việt Nam: Cần hợp tác công – tư

Phát triển hệ sinh thái AI tại Việt Nam: Cần hợp tác công – tư

Chia sẻ với Tạp chí Doanh nghiệp và Hội nhập, ông Nguyễn Tử Quảng - Chủ tịch Tập đoàn công nghệ Bkav cho rằng, để khai thác dữ liệu và phát triển hệ sinh thái trí tuệ nhân tạo (AI) tại Việt Nam, chỉ có hợp tác công - tư mới mang lại hiệu quả.
Cảnh báo rò rỉ dữ liệu khách hàng bị rao bán bởi tin tặc quốc tế - Người dân và Doanh nghiệp cần hành động ngay

Cảnh báo rò rỉ dữ liệu khách hàng bị rao bán bởi tin tặc quốc tế - Người dân và Doanh nghiệp cần hành động ngay

Ngày 11/9/2025, Trung tâm Thông tin Tín dụng Quốc gia Việt Nam (CIC) thuộc Ngân hàng Nhà nước đã phát đi công văn khẩn gửi tới toàn bộ hệ thống tổ chức tín dụng, cảnh báo nguy cơ dữ liệu khách hàng bị rao bán trên các diễn đàn tin tặc quốc tế. Dù hệ thống vận hành hiện tại vẫn bình thường và chưa ghi nhận thiệt hại cụ thể, sự kiện này lập tức trở thành tâm điểm quan ngại khi xuất hiện thông tin nhóm hacker khét tiếng ShinyHunters có thể đứng sau.
Doanh nghiệp Việt trước “thời khắc vàng” thương mại điện tử xuyên biên giới

Doanh nghiệp Việt trước “thời khắc vàng” thương mại điện tử xuyên biên giới

Với quy mô đã vượt 25 tỷ USD và tốc độ tăng trưởng 18 – 25%/năm, thương mại điện tử đang trở thành một trong những điểm sáng của kinh tế số Việt Nam. Luật Thương mại điện tử mới mở ra kỳ vọng xóa bỏ rào cản, củng cố niềm tin và bảo vệ doanh nghiệp, tạo thế vững bền cho chặng đường tiếp theo.
Trí tuệ nhân tạo và dữ liệu: Nhân tố cốt lõi quyết định sức cạnh tranh

Trí tuệ nhân tạo và dữ liệu: Nhân tố cốt lõi quyết định sức cạnh tranh

Chia sẻ tại Hội thảo “Chiến lược AI và Kiến trúc dữ liệu quốc gia, tổ chức và doanh nghiệp” (ASDA 1), các diễn giả đều có chung quan điểm: Trí tuệ nhân tạo (AI) và dữ liệu không còn là lĩnh vực công nghệ thuần túy, mà là nhân tố cốt lõi quyết định chủ quyền, sức cạnh tranh và vị thế quốc gia trong kỷ nguyên mới.
Đà Nẵng tổ chức hội nghị thành viên thông tin Internet Châu Á – Thái Bình Dương lần thứ 60

Đà Nẵng tổ chức hội nghị thành viên thông tin Internet Châu Á – Thái Bình Dương lần thứ 60

Trung tâm Internet Việt Nam (VNNIC) phối hợp Bộ Khoa học và Công nghệ và Thành phố Đà Nẵng khai mạc hội nghị Trung tâm thông tin mạng Châu Á – Thái Bình Dương lần thứ 60, tại khách sạn Furama (Đà Nẵng), ngày 9/9/2025.
Vĩnh Long hướng tới địa phương tiên phong về chuyển đổi số trong khu vực Đồng bằng sông Cửu Long

Vĩnh Long hướng tới địa phương tiên phong về chuyển đổi số trong khu vực Đồng bằng sông Cửu Long

Chuyển đổi số là một trong những trọng tâm then chốt được tỉnh xác định gắn với tăng cường hợp tác nhằm nâng cao hiệu quả quản lý nhà nước, cải thiện môi trường đầu tư, phục vụ tốt hơn cho người dân và doanh nghiệp. Sau khi thực hiện việc sáp nhập đơn vị hành chính theo Nghị quyết của Quốc hội, tỉnh Vĩnh Long đang đứng trước thời cơ và thách thức mới trong công cuộc phát triển kinh tế - xã hội.
Nvidia củng cố ngôi đầu GPU, chiếm 94% thị phần toàn cầu quý II/2025

Nvidia củng cố ngôi đầu GPU, chiếm 94% thị phần toàn cầu quý II/2025

Theo Jon Peddie Research (JPR), Nvidia chiếm 94% thị phần GPU toàn cầu trong quý II/2025, nhờ làn sóng mua sắm sớm của người dùng nhằm tránh thuế nhập khẩu.
Lần đầu tiên khí tài công nghệ cao của Viettel xuất hiện tại lễ diễu binh kỷ niệm Quốc khánh 2/9

Lần đầu tiên khí tài công nghệ cao của Viettel xuất hiện tại lễ diễu binh kỷ niệm Quốc khánh 2/9

Các khí tài công nghệ cao do Tập đoàn Công nghiệp - Viễn thông Quân đội (Viettel) nghiên cứu, thiết kế và sản xuất đã lần đầu tiên xuất hiện đầy ấn tượng tại Quảng trường Ba Đình lịch sử trong khuôn khổ Lễ diễu binh, diễu hành kỷ niệm 80 năm Cách mạng Tháng Tám và Quốc khánh 2/9.
Bộ đôi thiết giáp hiện đại XTC-02 và XCB-01 do Việt Nam chế tạo, gây ấn tượng mạnh tại A80

Bộ đôi thiết giáp hiện đại XTC-02 và XCB-01 do Việt Nam chế tạo, gây ấn tượng mạnh tại A80

Liên tục xuất hiện trong các buổi hợp luyện, sơ duyệt và tổng duyệt lễ diễu binh, diễu hành kỷ niệm 80 năm Cách mạng Tháng Tám thành công và Quốc khánh 2.9 (A80), hai dòng xe thiết giáp hiện đại do Việt Nam tự nghiên cứu và chế tạo – XTC-02 và XCB-01 – đã trở thành tâm điểm chú ý, đặc biệt đối với giới trẻ yêu công nghệ và quốc phòng.
Đà Nẵng thu hút 25 doanh nghiệp hoạt động trong lĩnh vực vi mạch, bán dẫn

Đà Nẵng thu hút 25 doanh nghiệp hoạt động trong lĩnh vực vi mạch, bán dẫn

Ngày 30/8, tại Đà Nẵng diễn ra Ngày Vi mạch bán dẫn Đà Nẵng năm 2025. Chương trình do UBND TP. Đà Nẵng và Ban Chính sách, Chiến lược Trung ương chủ trì, thể hiện tầm nhìn chiến lược của địa phương trong phát triển công nghiệp công nghệ cao.
Việt Nam cần gì để trở thành "hub blockchain toàn cầu"?

Việt Nam cần gì để trở thành "hub blockchain toàn cầu"?

Với lợi thế top 10 toàn cầu về sở hữu, top 3 về quan tâm tiền mã hóa cùng đội ngũ developer trẻ, Việt Nam có thể thành điểm đến hấp dẫn của thị trường tiền mã hóa toàn cầu.