Thứ hai 01/06/2026 05:03
Hotline: 024.355.63.010
Kinh tế số

Apple, Nvidia và Anthropic bị chỉ trích vì sử dụng trái phép dữ liệu YouTube để đào tạo AI

18/07/2024 12:14
Trước đó, CEO YouTube Neal Mohan khẳng định, việc các công ty sử dụng dữ liệu của YouTube để đào tạo các mô hình AI là vi phạm các điều khoản và dịch vụ của nền tảng này.
Ảnh minh họa
Ảnh minh họa.

Wall Street Journal dẫn kết quả mới đây của cuộc điều tra từ Proof News cho thấy, Apple, Nvidia và Anthropic đã sử dụng bộ dữ liệu tạo bởi công ty phi lợi nhuận có tên EleutherAI, chứa hơn 173.000 các bản ghi lại nội dung video YouTube của hơn 48.000 kênh mà không hề có sự xin phép chủ sở hữu hay nhà sáng tạo nội dung.

Mặc dù tập dữ liệu không chứa hình ảnh hay video, song các nội dung được lấy lại từ những nhà sáng tạo nội dung hàng đầu trên nền tảng như Marques Brownlee và MrBeast, cũng như các nhà xuất bản tin tức lớn như The New York Times, BBC và ABC News. Ngoài ra, còn có phụ đề từ các video thuộc về Engadget.

“Apple sử dụng dữ liệu từ một số công ty để huấn luyện cho AI của họ. Một trong số đó là các dữ liệu, bản ghi từ các video trên YouTube, bao gồm cả của tôi”, Brownlee, một người có sức ảnh hưởng trên YouTube đăng bài trên X.

Trước đó, CEO YouTube Neal Mohan khẳng định, việc các công ty sử dụng dữ liệu của YouTube để đào tạo các mô hình AI là vi phạm các điều khoản và dịch vụ của nền tảng này.

Apple, NVIDIA, Anthropic và EleutherAI đã không trả lời yêu cầu bình luận từ Engadget.

Người đứng đầu bộ phận AI và học máy tại Apple, ông John Giannandrea, cũng từng phát biểu rằng, "lượng lớn dữ liệu đào tạo thực sự được tạo ra bởi chính Apple" nhưng không đi vào chi tiết.

Gã khổng lồ công nghệ Thung lũng Silicon cũng được cho là đã ký thỏa thuận với Shutterstock và Photobucket nhằm cấp phép cho hình ảnh đào tạo dữ liệu AI, nhưng chưa xác nhận công khai mối quan hệ hợp tác. Trong khi Apple Intelligence cố gắng luôn cố gắng nhấn mạnh cách tiếp cận tập trung nhiều hơn vào quyền riêng tư thông qua bộ xử lý trên thiết bị và điện toán đám mây tùy chỉnh, thì dường như nguyên tắc cơ bản khi thu thập dữ liệu nền tảng cho mô hình AI của công ty không khác gì so với đa số đối thủ cạnh tranh.

Đầu tháng này, các nghệ sĩ và nhiếp ảnh gia đã chỉ trích Apple vì đã không tiết lộ nguồn dữ liệu đào tạo cho Apple Intelligence, công ty sở hữu công nghệ AI sắp ra mắt trên hàng triệu thiết bị Apple trong năm nay.

YouTube, kho lưu trữ video lớn nhất thế giới, là một kho vàng không chỉ có bản ghi mà còn cả âm thanh, video và hình ảnh, khiến nó trở thành một bộ dữ liệu hấp dẫn để đào tạo các mô hình AI. Đầu năm nay, Giám đốc công nghệ của OpenAI, Mira Murati, đã né tránh các câu hỏi từ The Wall Street Journal về việc liệu công ty có sử dụng video YouTube để đào tạo Sora, công cụ tạo video AI sắp ra mắt của OpenAI hay không. Murati cho biết vào thời điểm đó: “Tôi sẽ không đi sâu vào chi tiết về dữ liệu đã được sử dụng, nhưng đó là dữ liệu được cấp phép hoặc có sẵn công khai.

Giám đốc điều hành Alphabet Sundar Pichai cũng cho biết, các công ty sử dụng dữ liệu từ YouTube để đào tạo các mô hình AI của họ sẽ vi phạm điều khoản dịch vụ của nền tảng này.

Mới đây, Apple đã phải nộp phạt 210 triệu won (hơn 4 tỷ đồng) sau khi bị Ủy ban Truyền thông Hàn Quốc KCC cáo buộc thu thập dữ liệu vị trí mà không có sự đồng ý của người dùng. Hành vi của Apple vi phạm điều khoản liên quan dữ liệu vị trí và các chính sách khác của Hàn Quốc. Ngoài Apple, KCC cũng phạt Google, nhưng ở mức 3 triệu won (60 triệu đồng).

Thu Trà (t/h)

TAGS:

Tin bài khác
Đốt trăm tỷ USD vào xe tự lái: "Cú lừa" công nghệ hay bức tường 1% tử huyệt?

Đốt trăm tỷ USD vào xe tự lái: "Cú lừa" công nghệ hay bức tường 1% tử huyệt?

Cuộc đua xe tự lái toàn cầu, từ các thung lũng công nghệ Mỹ đến những đại bản doanh xe điện Trung Quốc, đang rơi vào một nghịch lý: Phần cứng mạnh cấp số nhân, dữ liệu gom hàng trăm triệu dặm, nhưng kịch bản thương mại hóa hoàn toàn (L4/L5) vẫn là dấu hỏi lớn. Đằng sau những lời quảng cáo hào nhoáng về trí tuệ nhân tạo là "tử huyệt" mang tên lỗi hệ thống và những rủi ro ngoài công nghệ mà dòng tiền tỷ USD chưa thể san phẳng.
Meta bắt tay NIC: Đưa 2.000 kỹ sư Việt lên "đoàn tàu AI" hướng về Đà Nẵng

Meta bắt tay NIC: Đưa 2.000 kỹ sư Việt lên "đoàn tàu AI" hướng về Đà Nẵng

Từ ngày 17 đến 19/7/2026, Đà Nẵng sẽ trở thành tâm điểm của giới công nghệ khi chương trình Thách thức đổi mới sáng tạo trí tuệ nhân tạo Việt Nam (Vietnam AI Innovation Challenge 2026) chính thức diễn ra. Đây không chỉ là một giải đấu học thuật, mà là chiến dịch kéo dài 6 tháng nhằm giải các "bài toán hóc búa" về chi phí, vận hành cho doanh nghiệp nội địa dưới sự bảo trợ của Meta.
Microsoft và Nvidia chuẩn bị ra mắt PC Windows dùng chip Nvidia

Microsoft và Nvidia chuẩn bị ra mắt PC Windows dùng chip Nvidia

Theo Axios, Microsoft và Nvidia có thể giới thiệu vào tuần tới những mẫu PC Windows đầu tiên sử dụng chip Nvidia làm bộ xử lý trung tâm. Động thái này được xem là bước đi mới trong nỗ lực mở rộng hệ sinh thái máy tính cá nhân chạy Windows trên nền tảng kiến trúc Arm và các công nghệ AI cục bộ.
Xăng sinh học E10 thay thế RON95 từ ngày 1/6 trên toàn quốc

Xăng sinh học E10 thay thế RON95 từ ngày 1/6 trên toàn quốc

Quy định khai tử hoàn toàn xăng RON95 truyền thống để thay bằng xăng sinh học E10 đang khiến nhiều chủ phương tiện lo ngại về nguy cơ mòn gioăng cao su, xe kém "bốc" hoặc khó khởi động do hút ẩm. Tuy nhiên, các kết quả thực nghiệm từ chuyên gia động lực học và lộ trình kỹ thuật mới của Bộ Khoa học và Công nghệ sẽ giải mã toàn bộ các hoài nghi này.
Facebook, Instagram và WhatsApp ra mắt gói trả phí, Meta mở rộng nguồn thu ngoài quảng cáo

Facebook, Instagram và WhatsApp ra mắt gói trả phí, Meta mở rộng nguồn thu ngoài quảng cáo

Meta vừa công bố triển khai các gói thuê bao trả phí dành cho Facebook, Instagram và WhatsApp trên phạm vi toàn cầu, đồng thời thử nghiệm loạt dịch vụ mới cho người dùng Meta AI, doanh nghiệp và nhà sáng tạo nội dung.
Vì sao Anthropic vượt OpenAI để trở thành startup AI giá trị nhất thế giới?

Vì sao Anthropic vượt OpenAI để trở thành startup AI giá trị nhất thế giới?

Anthropic vừa hoàn tất vòng gọi vốn Series H trị giá 65 tỷ USD, qua đó được định giá cao hơn OpenAI trên thị trường AI toàn cầu.
Bắt tay công nghệ Việt - Nhật: Giải bài toán "thông minh hóa" y tế bằng AI và Big Data

Bắt tay công nghệ Việt - Nhật: Giải bài toán "thông minh hóa" y tế bằng AI và Big Data

Không dừng lại ở những thỏa thuận thương mại thông thường, liên minh giữa "ông lớn" công nghệ Việt Nam FPT và Tập đoàn Y tế Tokushukai Nhật Bản là một bước đi chiến lược. Sự kết hợp giữa năng lực AI, dữ liệu lớn (Big Data) của Việt Nam với kho di sản quản trị y khoa chuẩn mực của Nhật Bản kỳ vọng sẽ tái định hình hệ thống chăm sóc sức khỏe thông minh, lan tỏa giá trị ra toàn khu vực ASEAN.
Cà Mau thúc đẩy khoa học công nghệ tạo đột phá tăng trưởng

Cà Mau thúc đẩy khoa học công nghệ tạo đột phá tăng trưởng

Trong chiến lược phát triển khoa học công nghệ, tỉnh Cà Mau không chỉ tập trung hoàn thiện cơ chế, tỉnh Cà Mau còn hướng tới xây dựng hệ sinh thái khởi nghiệp, phát triển doanh nghiệp công nghệ và nâng cao chất lượng nguồn nhân lực, từng bước tạo động lực mới cho kinh tế vùng cực Nam Tổ quốc.
Singapore gắn phát triển AI với trách nhiệm bảo vệ người lao động

Singapore gắn phát triển AI với trách nhiệm bảo vệ người lao động

Bộ trưởng Phát triển Kỹ thuật số và Thông tin Singapore Jasmin Lau cho biết chính phủ nước này có thể can thiệp nếu doanh nghiệp liên tục nhận trợ cấp công để phát triển AI nhưng lại đối xử bất công với người lao động. Singapore đồng thời thúc đẩy chiến lược phát triển AI gắn với nâng cao kỹ năng, hỗ trợ chuyển đổi nghề nghiệp và chia sẻ thành quả năng suất công bằng hơn.
Google nâng cấp Google Health, đưa AI vào chăm sóc sức khỏe

Google nâng cấp Google Health, đưa AI vào chăm sóc sức khỏe

Google ra mắt loạt nền tảng và công cụ AI mới nhằm cá nhân hóa trải nghiệm quản lý và theo dõi sức khỏe cho người dùng.
ByteDance đẩy mạnh tự chủ CPU, cuộc đua hạ tầng AI bước vào giai đoạn mới

ByteDance đẩy mạnh tự chủ CPU, cuộc đua hạ tầng AI bước vào giai đoạn mới

Trong bối cảnh giá chip tăng cao, nguồn cung khan hiếm và nhu cầu hạ tầng trí tuệ nhân tạo bùng nổ, ByteDance được cho là đang xúc tiến phát triển CPU riêng. Động thái này không chỉ phản ánh sức ép ngày càng lớn trong cuộc đua công nghệ, mà còn cho thấy xu hướng các tập đoàn lớn tăng tốc tự chủ bán dẫn để giảm phụ thuộc vào các nhà cung cấp truyền thống.
YouTube tự động gắn nhãn video AI, tăng kiểm soát nội dung giả

YouTube tự động gắn nhãn video AI, tăng kiểm soát nội dung giả

YouTube vừa công bố loạt thay đổi mới trong chính sách quản lý nội dung do trí tuệ nhân tạo (AI) tạo ra, đánh dấu bước đi mạnh tay hơn của nền tảng này trong việc kiểm soát các video có mức độ chân thực cao được tạo bằng AI.
Meta mở rộng mô hình thuê bao trả phí, tìm động lực tăng trưởng ngoài quảng cáo

Meta mở rộng mô hình thuê bao trả phí, tìm động lực tăng trưởng ngoài quảng cáo

Meta bắt đầu triển khai các gói thuê bao trả phí cho Facebook, Instagram và WhatsApp trên quy mô toàn cầu, trong bước đi nhằm đa dạng hóa nguồn thu giữa lúc chi tiêu cho hạ tầng AI tăng mạnh. Động thái này cho thấy tập đoàn công nghệ Mỹ đang tìm kiếm thêm dư địa tăng trưởng bên cạnh mảng quảng cáo truyền thống.
Phát hiện gian lận bằng AI bảo vệ dòng tiền cho startup

Phát hiện gian lận bằng AI bảo vệ dòng tiền cho startup

Việc ứng dụng các mô hình học máy để phát hiện gian lận bằng AI giúp các startup giám sát dòng tiền 24/7, nhận diện sớm các giao dịch bất thường và bảo vệ quỹ vốn mạo hiểm trước các chiêu trò lừa đảo tinh vi.
Bước ngoặt trong cuộc chiến chống Deepfake và lừa đảo số

Bước ngoặt trong cuộc chiến chống Deepfake và lừa đảo số

Trước làn sóng lừa đảo định danh tinh vi bằng công nghệ AI tạo sinh, việc các giải pháp nội địa vượt qua các bài kiểm thử khắt khe theo tiêu chuẩn ISO trở thành bệ phóng quan trọng, giúp các doanh nghiệp số thiết lập hàng rào phòng thủ vững chắc.