Thứ năm 02/04/2026 19:37
Hotline: 024.355.63.010
Kinh tế số

ByteDance tăng tốc trong cuộc đua AI với công cụ thu thập dữ liệu mới

Nghiên cứu cho thấy, tốc độ thu thập của Bytespider - công cụ thu thập dữ liệu web mà ByteDance mới ra mắt nhanh gấp 25 lần so với GPTbot của OpenAI.
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn
Công cụ thu thập dữ liệu web mới của ByteDance vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI.

Công ty mẹ của TikTok là ByteDance, đã ra mắt công cụ thu thập dữ liệu web mang tên Bytespider vào tháng 4 năm nay. Theo Kasada, một công ty chuyên về quản lý bot (phần mềm tự động), Bytespider nhanh chóng nổi lên như một trong những công cụ thu thập dữ liệu mạnh nhất trên internet, vượt qua các đối thủ lớn như Google, Meta, Amazon và OpenAI. Nghiên cứu cho thấy, tốc độ thu thập dữ liệu của Bytespider nhanh gấp 25 lần so với GPTbot của OpenAI, công cụ thu thập dữ liệu phục vụ cho nền tảng ChatGPT.

Việc thu thập dữ liệu với tốc độ cao giúp ByteDance có thêm nhiều dữ liệu để đào tạo các mô hình ngôn ngữ lớn (LLM) và mô hình đa phương tiện (LMM), những thành phần cốt lõi trong việc phát triển các công cụ AI thế hệ mới. Trong bối cảnh các công ty công nghệ lớn đang chạy đua trong lĩnh vực AI, ByteDance cố gắng rút ngắn khoảng cách bằng cách thu thập một lượng dữ liệu khổng lồ từ các trang web toàn cầu.

Sam Crowther, CEO của Kasada, cho biết, kể từ khi Bytespider xuất hiện, nó đã thu thập dữ liệu với tốc độ nhanh hơn khoảng 25 lần so với GPTbot - công cụ thu thập dữ liệu cho nền tảng ChatGPT của OpenAI và các mô hình cơ bản. Bytespider cũng đã thu thập dữ liệu với tốc độ nhanh hơn 3.000 lần so với ClaudeBot của startup AI Anthropic.

Theo Kasada, khi những tháng trôi qua, Bytespider thậm chí còn gấp rút hơn trong việc thu thập dữ liệu. Hoạt động thu thập dữ liệu từ Bytespider tăng đột biến trong 6 tuần qua.

Việc ByteDance thu thập dữ liệu một cách thần tốc diễn ra bất chấp khả năng TikTok bị cấm tại Mỹ trong những tháng tới. Trước đó, Tổng thống Joe Biden đã ký một đạo luật yêu cầu công ty Trung Quốc này phải bán hoặc đóng cửa TikTok do lo ngại về an ninh quốc gia.

Một nguồn tin nội bộ cho biết, ByteDance đang phát triển một mô hình ngôn ngữ lớn mới nhằm cải thiện khả năng tìm kiếm trên TikTok.

Ngoài ra, Bytespider được cho là không tuân thủ tập tin quy định về robots.txt, một tập tin mà các nhà xuất bản web sử dụng để ngăn các công cụ thu thập dữ liệu. Mặc dù điều này không vi phạm pháp luật, nhưng nó có thể dẫn đến các tranh chấp về quyền sở hữu trí tuệ. Nhiều tổ chức cho rằng, việc thu thập dữ liệu mà không được phép là hành vi vi phạm bản quyền, gây ra nhiều tranh cãi trong lĩnh vực này.

"Giống như họ đang cố gắng hết sức để bắt kịp", Crowther nói về hoạt động thu thập dữ liệu tích cực do Bytespider thực hiện. Chỉ riêng năm ngoái, ByteDance được cho là đã tụt hậu rất xa trong cuộc đua AI tạo sinh đến mức họ đã sử dụng OpenAI để giúp xây dựng LLM của riêng ByteDance, điều này trái với các điều khoản dịch vụ của OpenAI.

Gần đây nhất, ByteDance chính thức bước vào cuộc đua video AI với hai mô hình trí tuệ nhân tạo là PixelDance và Seaweed được ra mắt dưới tên thương hiệu Doubao trong Volcano Engine AI Innovation Tour tại Thâm Quyến ngày 24/9. Cả hai mô hình đều nhắm vào thị trường doanh nghiệp và hiện tại vẫn đang trong giai đoạn thử nghiệm với số lượng người được mời tham gia hạn chế.

Việc ra mắt diễn ra mà không có bất kỳ thông báo trước nào. Mặc dù triển khai lặng lẽ, nhưng sự mong đợi trong ngành vẫn tăng nhờ vào những tiến bộ trước đó từ các đối thủ cạnh tranh như Open AI và Kuaishou.

Việc ByteDance ra mắt hai mô hình trên cũng cho thấy tham vọng lớn của công ty trong việc phát triển các công nghệ AI tiên tiến, bất chấp những thách thức pháp lý và sự cạnh tranh khốc liệt trong ngành.

Tin bài khác
MG IM5 ra mắt Đông Nam Á: Sedan điện tầm xa 860 km, sạc nhanh 18 phút, cạnh tranh Toyota Camry

MG IM5 ra mắt Đông Nam Á: Sedan điện tầm xa 860 km, sạc nhanh 18 phút, cạnh tranh Toyota Camry

MG IM5 vừa ra mắt tại Đông Nam Á với tầm hoạt động tới 860 km, sạc nhanh 18 phút, giá từ khoảng 1,16 tỷ đồng, hứa hẹn tạo sức ép lớn lên sedan hạng D truyền thống
Thanh toán không tiền mặt tăng hơn 40%

Thanh toán không tiền mặt tăng hơn 40%

Thanh toán không dùng tiền mặt đang duy trì đà tăng trưởng mạnh trong những tháng đầu năm 2026, không chỉ ở đô thị mà còn lan rộng về nông thôn, miền núi, biên giới và hải đảo. Cùng với đó, việc kết nối dữ liệu dân cư, xác thực sinh trắc học và làm sạch dữ liệu khách hàng theo Đề án 06 đang tạo thêm nền tảng để ngành ngân hàng mở rộng dịch vụ số an toàn hơn, sâu hơn và thuận tiện hơn cho người dân, doanh nghiệp.
Thương mại điện tử bước vào “cuộc đua năng lực” khi thị trường chạm ngưỡng tỷ đô

Thương mại điện tử bước vào “cuộc đua năng lực” khi thị trường chạm ngưỡng tỷ đô

Khi quy mô thị trường thương mại điện tử Việt Nam ước tính đạt mức tỷ đô mỗi tháng, doanh nghiệp buộc phải chuyển từ chạy theo doanh số sang cạnh tranh bằng năng lực vận hành dài hạn.
Tái cấu trúc nông nghiệp Việt Nam trong kỷ nguyên số: Từ yêu cầu cấp bách đến hành động chiến lược của doanh nghiệp

Tái cấu trúc nông nghiệp Việt Nam trong kỷ nguyên số: Từ yêu cầu cấp bách đến hành động chiến lược của doanh nghiệp

Sáng 31/3/2026, tại TP.HCM, Hội Cơ khí Nông nghiệp Việt Nam phối hợp cùng Hội Bảo vệ Thiên nhiên và Môi trường TP.HCM và Công ty TNHH MTV Dịch vụ Quảng cáo và Triển lãm Minh Vi tổ chức tọa đàm với chủ đề “Nông nghiệp Việt Nam trong kỷ nguyên số: Tái cấu trúc để bứt phá bền vững”.
Chuyển đổi số du lịch: Hỗ trợ địa phương xây dựng hệ sinh thái thông minh

Chuyển đổi số du lịch: Hỗ trợ địa phương xây dựng hệ sinh thái thông minh

Cục Du lịch Quốc gia Việt Nam triển khai kế hoạch chuyển đổi số năm 2026 với trọng tâm hỗ trợ địa phương, doanh nghiệp ứng dụng nền tảng số, từng bước hình thành hệ sinh thái du lịch thông minh, kết nối đồng bộ từ Trung ương đến cơ sở.
Chuyển đổi số và trí tuệ nhân tạo mở đường cho nuôi trồng thủy sản phát triển bền vững

Chuyển đổi số và trí tuệ nhân tạo mở đường cho nuôi trồng thủy sản phát triển bền vững

Ngành nuôi trồng thủy sản Việt Nam đang bước vào giai đoạn chuyển đổi mạnh mẽ, với công nghệ cao và trí tuệ nhân tạo (AI) trở thành “đòn bẩy” quan trọng giúp nâng cao năng suất, kiểm soát rủi ro và đáp ứng các tiêu chuẩn ngày càng khắt khe của thị trường toàn cầu.
Không còn đầu tư dàn trải: Đâu là những ngành công nghệ chiến lược tạo động lực tăng trưởng mới cho Việt Nam?

Không còn đầu tư dàn trải: Đâu là những ngành công nghệ chiến lược tạo động lực tăng trưởng mới cho Việt Nam?

Bộ KH&CN yêu cầu rà soát, cập nhật danh mục công nghệ chiến lược nhằm nâng cao năng lực cạnh tranh, phát triển ngành công nghiệp mới và đảm bảo tự chủ.
Kinh tế AI mở dư địa 150–250 tỷ USD cho Việt Nam

Kinh tế AI mở dư địa 150–250 tỷ USD cho Việt Nam

Trong bối cảnh các động lực tăng trưởng truyền thống dần chạm ngưỡng, kinh tế AI đang được nhìn nhận như một không gian phát triển mới của Việt Nam. Từ nền tảng dữ liệu, hạ tầng số đến thể chế và nhân lực, bài toán đặt ra không còn là “có ứng dụng AI hay không”, mà là làm thế nào để AI trở thành hạ tầng sản xuất cốt lõi, tạo ra năng suất, ngành nghề mới và lợi thế cạnh tranh quốc gia.
Quảng Ninh hợp tác với MobiFone phát triển chính quyền số, dữ liệu số và dịch vụ số

Quảng Ninh hợp tác với MobiFone phát triển chính quyền số, dữ liệu số và dịch vụ số

UBND tỉnh Quảng Ninh và Tổng Công ty Viễn thông MobiFone vừa ký thỏa thuận hợp tác về chuyển đổi số giai đoạn 2026-2030, mở ra thêm một bước đi mới trong chiến lược hiện đại hóa quản trị, phát triển hạ tầng số và thúc đẩy kinh tế số tại địa phương.
Đà Nẵng thúc đẩy ứng dụng blockchain, tạo nền tảng cho đô thị số và kinh tế số

Đà Nẵng thúc đẩy ứng dụng blockchain, tạo nền tảng cho đô thị số và kinh tế số

Đà Nẵng đang từng bước xây dựng chiến lược ứng dụng blockchain để phát triển hạ tầng dữ liệu tin cậy, triển khai các ứng dụng thiết thực, hoàn thiện cơ chế, nguồn lực nhằm nâng cao hiệu quả quản trị, thúc đẩy kinh tế số và hướng tới đô thị thông minh, minh bạch, bền vững.
Melania Trump chọn robot Figure 03 để truyền thông điệp mới về AI và tương lai trẻ em

Melania Trump chọn robot Figure 03 để truyền thông điệp mới về AI và tương lai trẻ em

Đệ nhất phu nhân Mỹ Melania Trump đã xuất hiện cùng robot hình người Figure 03 tại Nhà Trắng trong khuôn khổ hội nghị thượng đỉnh toàn cầu về giáo dục và công nghệ cho trẻ em. Sự kiện quy tụ đại diện từ 45 quốc gia và 28 tổ chức công nghệ, cho thấy AI đang được đưa vào trung tâm các cuộc thảo luận về giáo dục tương lai.
Doanh nghiệp phải vượt “bài kiểm tra” vốn và công nghệ để vận hành sàn giao dịch tài sản mã hóa

Doanh nghiệp phải vượt “bài kiểm tra” vốn và công nghệ để vận hành sàn giao dịch tài sản mã hóa

Thị trường tài sản mã hóa tại Việt Nam đang bước vào giai đoạn chuẩn bị thực chất cho chương trình thí điểm, nhưng để vận hành một sàn giao dịch hợp pháp, doanh nghiệp không chỉ cần vốn lớn mà còn phải đáp ứng loạt tiêu chuẩn ngặt nghèo về công nghệ, an ninh hệ thống và bảo vệ nhà đầu tư.
Gia Lai đặt mục tiêu 100% thủ tục hành chính lên môi trường số vào năm 2030

Gia Lai đặt mục tiêu 100% thủ tục hành chính lên môi trường số vào năm 2030

Gia Lai đẩy mạnh chuyển đổi số, đặt mục tiêu số hóa 100% thủ tục hành chính, phát triển kinh tế số và lọt top 10 địa phương dẫn đầu cả nước vào năm 2030.
Trạm thu phát sóng BTS có thực sự nguy hiểm? Khoa học nói gì và cơ quan chức năng kiểm soát ra sao?

Trạm thu phát sóng BTS có thực sự nguy hiểm? Khoa học nói gì và cơ quan chức năng kiểm soát ra sao?

Ngày càng nhiều trạm thu phát sóng BTS xuất hiện trong khu dân cư khiến không ít người lo lắng về ảnh hưởng sức khỏe. Khoa học quốc tế và cơ quan chức năng Việt Nam - trong đó có Sở Khoa học và Công nghệ Khánh Hòa - nói gì về vấn đề này?
OpenAI thâu tóm Astral, tăng tốc Codex trong cuộc đua AI viết code

OpenAI thâu tóm Astral, tăng tốc Codex trong cuộc đua AI viết code

OpenAI vừa ký thỏa thuận mua lại Astral - startup đứng sau các công cụ Python mã nguồn mở phổ biến như uv, Ruff và ty - trong bước đi được đánh giá là mang tính chiến lược để tăng tốc Codex. Thương vụ cho thấy cuộc đua AI viết code đang chuyển từ mô hình “trợ lý sinh mã” sang giai đoạn mới, nơi các hãng công nghệ tìm cách kiểm soát sâu hơn các lớp công cụ cốt lõi trong hệ sinh thái phát triển phần mềm.