OpenAI triển khai GPTbot để thu thập dữ liệu từ các trang web

Chia sẻ Facebook

Theo OpenAI, việc cho phép GPTBot truy cập website giúp các mô hình AI trở nên chính xác hơn, đồng thời cải thiện khả năng và độ an toàn của chúng.

OpenAI, nhà phát triển ChatGPT mới đây đã xác nhận sự tồn tại của GPTbot - trình thu thập dữ liệu web để huấn luyện AI. Mô hình GPT-5 dự kiến được đào tạo bằng nguồn dữ liệu này.

"Việc cho phép GPTBot truy cập website của bạn giúp các mô hình AI trở nên chính xác hơn, đồng thời cải thiện khả năng và độ an toàn của chúng", OpenAI cho biết.

Được biết, GPTBot sẽ tuân thủ nghiêm ngặt các quy tắc, không thu thập thông tin trả phí và sẽ không thu thập dữ liệu có thể theo dõi danh tính cá nhân.

Trước đó, người dùng đã quen với Googlebot, có nhiệm vụ lọc thông tin, ưu tiên hiển thị và xếp hạng trang web trong các kết quả tìm kiếm. Dù cũng thu thập dữ liệu, Business Insider đánh giá Goolgebot hữu ích vì website có thêm lưu lượng truy cập nếu được đề xuất. Tuy nhiên, sự trỗi dậy của AI tạo sinh và mô hình ngôn ngữ lớn đang phá vỡ sự cộng tác này.

Các công cụ như GPTbot sẽ giúp ChatGPT và GPT-4 có thể tổng hợp và trả lời câu hỏi, người dùng không cần truy cập các đường link. Điều này khiến nhiều trang web mất lượng truy cập lớn. Có nghĩa, các nhà sáng tạo nội dung cung cấp dữ liệu để GPTbot thu thập và phát triển lớn mạnh, sau đó quay lại cạnh tranh với chính họ. Stack Overflow, web cộng đồng của những lập trình viên chuyên nghiệp, ghi nhận sụt giảm người tham gia khi ChatGPT đủ khả năng giải quyết các lỗi lập trình khó.

Nỗi lo về GPTbot đang lan truyền mạnh. “Để GPTbot của OpenAI thu thập dữ liệu trang web của bạn là hành động tự hủy”. Nhận thức này đang lan truyền khá nhanh trong các cộng đồng trực tuyến. The Verge, ấn phẩm tin tức kỹ thuật số cạnh tranh với trang Insider, có vẻ đã thực hiện các bước để chặn GPTbot.

Không rõ GPTbot của OpenAI đã ẩn nấp trên mạng trong bao lâu. OpenAI gần đây đã công bố một cách để chặn GPTbot, sử dụng giao thức phổ biến có tên là robots.txt. Hoặc người dùng có thể ngăn GPTBot thu thập dữ liệu từ trang web của mình bằng cách chặn địa chỉ IP của nó. Một số người sáng tạo đã triển khai điều này, song có người thắc mắc GPTbot đã bí mật thu thập dữ liệu trực tuyến của mọi người trong bao nhiêu lâu.

Trước đây, việc OpenAI thu thập dữ liệu công khai để đào tạo các mô hình AI được cấp bằng sáng chế đã gây tranh cãi. Các trang web như Reddit và Twitter đã thực hiện các bước để chống lại việc các công ty AI sử dụng miễn phí bài viết của người dùng của họ, trong khi một số tác giả và những người sáng tạo khác đã bị truy tố vì nghi ngờ sử dụng trái phép tác phẩm của họ.

Minh Tú (T/h)