Quá trình đào tạo AI của OpenAI và Meta bị kiện vì vấn đề bản quyền

18:57 10/07/2023

Các vụ kiện này đã nhấn mạnh những rủi ro pháp lý mà nhà phát triển chatbot AI gặp phải khi sử dụng kho tài liệu có bản quyền để tạo ứng dụng.

Ảnh minh họa
Ảnh minh họa.

Diễn viên hài Sarah Silverman và hai tác giả đã đệ đơn kiện Meta Platforms và OpenAI vi phạm bản quyền với cáo buộc sử dụng nội dung của họ mà không được phép để đào tạo các mô hình ngôn ngữ trí tuệ nhân tạo (AI).

Các vụ kiện tập thể được Sarah Silverman, Richard Kadrey, Christopher Golden đệ trình tại tòa án liên bang San Francisco (Mỹ), cáo buộc công ty mẹ Facebook và nhà sản xuất ChatGPT đã sử dụng tài liệu có bản quyền của họ để huấn luyện các bot trò chuyện mà không được phép.

Cụ thể, Silverman, Kadrey và Golden cáo buộc Meta và OpenAI đã sử dụng sách của họ mà không được phép để phát triển mô hình ngôn ngữ lớn, thứ mà các nhà sản xuất quảng cáo là công cụ mạnh mẽ để tự động hóa các tác vụ bằng cách sao chép cuộc trò chuyện của con người.

Trong vụ kiện chống lại Meta, các nguyên đơn cáo buộc rằng thông tin rò rỉ về hoạt động kinh doanh trí tuệ nhân tạo của công ty cho thấy tác phẩm của họ đã bị sử dụng trái phép. Trong khi vụ kiện chống lại OpenAI cáo buộc rằng, bản tóm tắt công việc của nguyên đơn do ChatGPT tạo ra cho thấy bot đã được đào tạo về nội dung có bản quyền của họ.

“Các bản tóm tắt có một số chi tiết sai” nhưng vẫn cho thấy rằng ChatGPT “giữ lại kiến thức về các tác phẩm cụ thể trong tập dữ liệu đào tạo”, hồ sơ vụ kiện cho biết.

Meta Platforms và OpenAI (công ty khởi nghiệp được Microsoft đầu tư hàng tỉ USD) không trả lời ngay lập tức khi được đề nghị bình luận về chuyện này.

Các vụ kiện này đã nhấn mạnh những rủi ro pháp lý mà nhà phát triển chatbot AI gặp phải khi sử dụng kho tài liệu có bản quyền để tạo ứng dụng mang lại phản hồi thực tế cho truy vấn của người dùng.

Trước đó, hãng luật Clarkson (ở bang California, Mỹ) đã tiến hành vụ kiện tập thể chống lại OpenAI, cáo buộc công ty này vi phạm nghiêm trọng bản quyền và quyền riêng tư của vô số người khi sử dụng dữ liệu thu thập được từ internet để huấn luyện công nghệ của mình.

Theo vụ kiện dài 157 trang từ Clarkson, OpenAI đã vi phạm các luật về quyền riêng tư bằng cách thu thập bí mật 300 tỉ từ trên internet, bao gồm "sách, bài viết, trang web, bài đăng, thông tin cá nhân mà không có sự cho phép", để huấn luyện mô hình ngôn ngữ lớn.

Clarkson muốn đại diện cho “những người thực sự có thông tin bị đánh cắp và sử dụng sai mục đích thương mại để tạo ra công nghệ rất mạnh mẽ này”, theo Ryan Clarkson - thành viên quản lý của công ty luật.

Clarkson đệ trình vụ kiện lên tòa án liên bang ở quận phía bắc California hôm 28.6.

Đầu tháng 5, ba học giả Kent Chang, Mackenzie Cramer, Sandeep Soni và David Bamman tại Đại học California ở thành phố Berkeley (Mỹ) cũng đã phát hiện ChatGPT cùng mô hình ngôn ngữ lớn GPT-4 của OpenAI ghi nhớ nội dung hàng trăm cuốn sách có bản quyền.

Các học giả này mô tả về khả năng ghi nhớ của ChatGPT/GPT-4 với các tài liệu có bản quyền trong bài viết Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4.

“Chúng tôi thấy rằng các mô hình OpenAI đã ghi nhớ một bộ sưu tập lớn các tài liệu có bản quyền và mức độ ghi nhớ này liên quan đến tần suất xuất hiện của các đoạn văn trong những cuốn sách đó”, các nhà nghiên cứu này giải thích.

Có thể thấy, các chương trình AI sáng tạo như chatbot ChatGPT của OpenAI và trình tạo hình ảnh DALL-E 2, cũng như các trình tạo hình ảnh khác như: Stable Diffusion và Midjourney của Stability AI đều không ngừng phát triển. Tất cả thể hiện khả năng sáng tạo vô tận và sản xuất nội dung ngày càng tinh vi, phức tạp hơn của AI. Để làm được điều đó, trí tuệ nhân tạo AI cần thu thập lượng lớn dữ liệu bao gồm: văn bản, hình ảnh, video,…

Mặt khác, thật không dễ để kiểm soát data đầu vào mà AI tổng hợp thu thập và học tập, bởi hầu hết mọi thứ mô hình này có được đều là dữ liệu trên Internet. Vì thế, sẽ rất khó phân biệt đúng sai nếu những AI “lấy nhầm” nội dung lậu.

Thu Phương (t/h)