Tỷ phú Elon Musk khẳng định, các công ty AI đối mặt với tình trạng cạn kiệt nguồn dữ liệu. |
Tỷ phú giàu nhất thế giới Elon Musk vừa gây chú ý khi tuyên bố rằng các công ty trí tuệ nhân tạo (AI) đã cạn kiệt nguồn dữ liệu để huấn luyện các mô hình của mình, đồng thời sử dụng hết tổng lượng tri thức của nhân loại. Theo ông Musk, các hãng công nghệ sẽ phải dựa vào "dữ liệu tổng hợp" – những thông tin được tạo ra bởi chính các mô hình AI – để tiếp tục phát triển và tinh chỉnh các hệ thống mới, một xu hướng đang nhanh chóng lan rộng trong ngành công nghệ.
Các mô hình AI như GPT-4, nền tảng công nghệ của chatbot ChatGPT, được “huấn luyện” trên một lượng lớn dữ liệu từ internet. Từ đó, chúng học cách nhận biết các mẫu thông tin, giúp dự đoán như từ tiếp theo trong một câu hoặc xây dựng một nội dung hoàn chỉnh.
Trong cuộc phỏng vấn trực tiếp được phát trên nền tảng mạng xã hội X, ông Elon Musk nói rằng: “Cách duy nhất để giải quyết vấn đề thiếu hụt nguồn dữ liệu cho các mô hình mới là chuyển sang sử dụng dữ liệu tổng hợp do AI tự tạo ra. Với dữ liệu tổng hợp, AI sẽ tự đánh giá, tự học hỏi và phát triển qua chính dữ liệu của mình”.
Meta, công ty mẹ của Facebook và Instagram, đã áp dụng dữ liệu tổng hợp để cải tiến mô hình AI lớn nhất của mình là Llama. Microsoft cũng đã sử dụng nội dung do AI tạo ra cho mô hình Phi-4, trong khi Google và OpenAI, công ty đứng sau ChatGPT, cũng đang triển khai cách tiếp cận này trong các dự án AI của họ.
Ngoài ra, startup AI Writer cũng từng khẳng định mô hình Palmyra X 004 của họ được phát triển gần như hoàn toàn từ dữ liệu tổng hợp và chỉ tốn khoảng 700.000 USD. Còn chi phí ước tính để phát triển một mô hình có kích thước tương đương của OpenAI lên đến 4,6 triệu USD.
Tuy nhiên, tỷ phú Elon Musk cũng cảnh báo rằng thói quen “ảo giác” của các mô hình AI – thuật ngữ chỉ các kết quả đầu ra không chính xác hoặc vô nghĩa – là một mối nguy lớn đối với quá trình sử dụng dữ liệu tổng hợp.
Ông Andrew Duncan, chuyên gia nghiên cứu tại Viện Alan Turing, Vương quốc Anh, nhận định rằng ý kiến của ông Elon Musk trùng khớp với một nghiên cứu học thuật gần đây. Nghiên cứu này dự đoán dữ liệu công khai để huấn luyện AI có thể cạn kiệt sớm nhất vào năm 2026.
Ông cũng cảnh báo rằng việc lạm dụng dữ liệu tổng hợp – dữ liệu do AI tự tạo ra – có thể dẫn đến hiện tượng “sụp đổ mô hình,” nghĩa là chất lượng kết quả đầu ra của AI sẽ suy giảm theo thời gian.
“Khi bạn sử dụng dữ liệu tổng hợp để huấn luyện, chất lượng mô hình bắt đầu giảm sút. Kết quả đầu ra dễ bị thiên lệch và thiếu tính sáng tạo,” Duncan giải thích.
Ông cũng cảnh báo rằng sự gia tăng nội dung do AI tạo ra trên internet có thể khiến những nội dung này vô tình quay lại và được sử dụng trong các tập dữ liệu huấn luyện. Điều này không chỉ làm trầm trọng thêm vấn đề mà còn gây nguy cơ “vòng lặp dữ liệu,” nơi chất lượng đầu ra ngày càng không đảm bảo.
Dữ liệu chất lượng cao và quyền kiểm soát chúng đang trở thành chiến trường pháp lý quan trọng trong thời kỳ bùng nổ AI. OpenAI từng thừa nhận rằng không thể tạo ra các công cụ như ChatGPT nếu không sử dụng tài liệu có bản quyền. Tuy nhiên, điều này đã gây ra làn sóng phản đối từ các ngành công nghiệp sáng tạo và các nhà xuất bản, khi họ yêu cầu được bồi thường vì dữ liệu của mình bị khai thác mà không có sự đồng thuận. |