Wall Street Journal dẫn kết quả mới đây của cuộc điều tra từ Proof News cho thấy, Apple, Nvidia và Anthropic đã sử dụng bộ dữ liệu tạo bởi công ty phi lợi nhuận có tên EleutherAI, chứa hơn 173.000 các bản ghi lại nội dung video YouTube của hơn 48.000 kênh mà không hề có sự xin phép chủ sở hữu hay nhà sáng tạo nội dung.
Mặc dù tập dữ liệu không chứa hình ảnh hay video, song các nội dung được lấy lại từ những nhà sáng tạo nội dung hàng đầu trên nền tảng như Marques Brownlee và MrBeast, cũng như các nhà xuất bản tin tức lớn như The New York Times, BBC và ABC News. Ngoài ra, còn có phụ đề từ các video thuộc về Engadget.
“Apple sử dụng dữ liệu từ một số công ty để huấn luyện cho AI của họ. Một trong số đó là các dữ liệu, bản ghi từ các video trên YouTube, bao gồm cả của tôi”, Brownlee, một người có sức ảnh hưởng trên YouTube đăng bài trên X.
Trước đó, CEO YouTube Neal Mohan khẳng định, việc các công ty sử dụng dữ liệu của YouTube để đào tạo các mô hình AI là vi phạm các điều khoản và dịch vụ của nền tảng này.
Apple, NVIDIA, Anthropic và EleutherAI đã không trả lời yêu cầu bình luận từ Engadget.
Người đứng đầu bộ phận AI và học máy tại Apple, ông John Giannandrea, cũng từng phát biểu rằng, "lượng lớn dữ liệu đào tạo thực sự được tạo ra bởi chính Apple" nhưng không đi vào chi tiết.
Gã khổng lồ công nghệ Thung lũng Silicon cũng được cho là đã ký thỏa thuận với Shutterstock và Photobucket nhằm cấp phép cho hình ảnh đào tạo dữ liệu AI, nhưng chưa xác nhận công khai mối quan hệ hợp tác. Trong khi Apple Intelligence cố gắng luôn cố gắng nhấn mạnh cách tiếp cận tập trung nhiều hơn vào quyền riêng tư thông qua bộ xử lý trên thiết bị và điện toán đám mây tùy chỉnh, thì dường như nguyên tắc cơ bản khi thu thập dữ liệu nền tảng cho mô hình AI của công ty không khác gì so với đa số đối thủ cạnh tranh.
Đầu tháng này, các nghệ sĩ và nhiếp ảnh gia đã chỉ trích Apple vì đã không tiết lộ nguồn dữ liệu đào tạo cho Apple Intelligence, công ty sở hữu công nghệ AI sắp ra mắt trên hàng triệu thiết bị Apple trong năm nay.
YouTube, kho lưu trữ video lớn nhất thế giới, là một kho vàng không chỉ có bản ghi mà còn cả âm thanh, video và hình ảnh, khiến nó trở thành một bộ dữ liệu hấp dẫn để đào tạo các mô hình AI. Đầu năm nay, Giám đốc công nghệ của OpenAI, Mira Murati, đã né tránh các câu hỏi từ The Wall Street Journal về việc liệu công ty có sử dụng video YouTube để đào tạo Sora, công cụ tạo video AI sắp ra mắt của OpenAI hay không. Murati cho biết vào thời điểm đó: “Tôi sẽ không đi sâu vào chi tiết về dữ liệu đã được sử dụng, nhưng đó là dữ liệu được cấp phép hoặc có sẵn công khai.
Giám đốc điều hành Alphabet Sundar Pichai cũng cho biết, các công ty sử dụng dữ liệu từ YouTube để đào tạo các mô hình AI của họ sẽ vi phạm điều khoản dịch vụ của nền tảng này.
Mới đây, Apple đã phải nộp phạt 210 triệu won (hơn 4 tỷ đồng) sau khi bị Ủy ban Truyền thông Hàn Quốc KCC cáo buộc thu thập dữ liệu vị trí mà không có sự đồng ý của người dùng. Hành vi của Apple vi phạm điều khoản liên quan dữ liệu vị trí và các chính sách khác của Hàn Quốc. Ngoài Apple, KCC cũng phạt Google, nhưng ở mức 3 triệu won (60 triệu đồng).
Thu Trà (t/h)