Meta bị cáo buộc sử dụng sách có bản quyền trái phép để huấn luyện AI |
Meta, công ty mẹ của Facebook, bị cáo buộc đã sử dụng trái phép những cuốn sách có bản quyền để huấn luyện trí tuệ nhân tạo của mình. Điều đáng ngạc nhiên hơn nữa là việc làm này được chính tỷ phú Mark Zuckerberg, CEO của Meta, cho phép.
Các tác giả nổi tiếng như ông Ta-Nehisi Coates và bà Sarah Silverman đã đứng lên tố cáo Meta về hành vi vi phạm bản quyền nghiêm trọng. Theo đơn kiện được đệ trình lên tòa án liên bang California công khai hôm 9/1 , Meta đã lợi dụng các tác phẩm văn học của họ để phát triển công nghệ trí tuệ nhân tạo mà không hề xin phép. Thậm chí, các tài liệu nội bộ của Meta còn cho thấy công ty này đã cố tình che giấu hành vi sai trái của mình.
Meta vẫn chưa đưa ra bất kỳ phản hồi nào trước những cáo buộc nghiêm trọng này. Ông Ta-Nehisi Coates và bà Sarah Silverman, đã từng quyết định đưa vụ việc ra tòa vào năm 2023. Họ cho rằng Meta đã lạm dụng các tác phẩm văn học của họ để phát triển mô hình ngôn ngữ lớn Llama mà không được sự đồng ý.
Hôm 9/1, các tác giả đã yêu cầu tòa án cho phép họ nộp đơn khiếu nại cập nhật, chỉ ra bằng chứng mới cho thấy Meta Platforms đã sử dụng tập dữ liệu huấn luyện AI LibGen, được cho gồm hàng triệu tác phẩm lậu.
Họ nói rằng thông tin liên lạc nội bộ của Meta Platforms cho thấy tỷ phú Mark Zuckerberg đã "phê duyệt việc Meta sử dụng tập dữ liệu LibGen bất chấp lo ngại trong nhóm điều hành AI và những người khác tại Meta rằng LibGen là ‘tập dữ liệu mà chúng ta biết là bị sao chép lậu’".
Thẩm phán Vince Chhabria năm ngoái đã bác bỏ các tuyên bố rằng văn bản do chatbot Meta AI tạo ra vi phạm bản quyền của các tác giả và rằng Meta Platforms gỡ bỏ trái phép thông tin quản lý bản quyền (CMI) từ sách của họ.
Tuy nhiên, các tác giả vẫn kiên quyết cho rằng bằng chứng mới. Điều này khiến thẩm phán Vince Chhabria nói trong một phiên điều trần hôm 9/1 rằng ông sẽ cho phép các tác giả nộp đơn khiếu nại sửa đổi, nhưng bày tỏ sự hoài nghi về giá trị của các tuyên bố về gian lận máy tính và CMI.
Theo phân tích, các công ty công nghệ đã phải đối mặt với hàng loạt vụ kiện trong năm nay từ những nhà sáng tạo nội dung, cáo buộc các nền tảng sao chép các tác phẩm được bảo vệ bản quyền của họ để xây dựng các mô hình AI vốn đang tạo ra cơn sốt toàn cầu.
Khi chất lượng của các mô hình ngôn ngữ lớn phụ thuộc rất nhiều đến nguồn dữ liệu đầu vào mà nó được đào tạo, nếu các vụ kiện của các nhà sáng tạo tương tự như trên được ủng hộ, làn sóng AI rất có thể sẽ đối mặt với nhiều trở ngại, ít nhất là phía sở hữu các mô hình AI sẽ phải chi trả thêm một khoản tiền không hề nhỏ phí bản quyền cho các tác giả.
Ngoài ra, các quy định tạm thời mới ở châu Âu về việc quản lý trí tuệ nhân tạo có thể buộc các nền tảng phải tiết lộ nguồn dữ liệu mà họ sử dụng để đào tạo mô hình của mình, điều này một lần nữa có khả năng khiến các nền tảng sẽ gặp nhiều rủi ro pháp lý hơn.