Trước đây, việc OpenAI thu thập dữ liệu công khai để đào tạo các mô hình AI được cấp bằng sáng chế đã gây tranh cãi. Các trang web như Reddit và Twitter đã thực hiện các bước để chống lại việc các công ty AI sử dụng miễn phí bài viết của người dùng của họ, trong khi một số tác giả và những người sáng tạo khác đã bị truy tố vì nghi ngờ sử dụng trái phép tác phẩm của họ.
OpenAI triển khai GPTbot để thu thập dữ liệu từ các trang web
Theo OpenAI, việc cho phép GPTBot truy cập website giúp các mô hình AI trở nên chính xác hơn, đồng thời cải thiện khả năng và độ an toàn của chúng.
OpenAI, nhà phát triển ChatGPT mới đây đã xác nhận sự tồn tại của GPTbot - trình thu thập dữ liệu web để huấn luyện AI. Mô hình GPT-5 dự kiến được đào tạo bằng nguồn dữ liệu này.
"Việc cho phép GPTBot truy cập website của bạn giúp các mô hình AI trở nên chính xác hơn, đồng thời cải thiện khả năng và độ an toàn của chúng", OpenAI cho biết.
Được biết, GPTBot sẽ tuân thủ nghiêm ngặt các quy tắc, không thu thập thông tin trả phí và sẽ không thu thập dữ liệu có thể theo dõi danh tính cá nhân.
Trước đó, người dùng đã quen với Googlebot, có nhiệm vụ lọc thông tin, ưu tiên hiển thị và xếp hạng trang web trong các kết quả tìm kiếm. Dù cũng thu thập dữ liệu, Business Insider đánh giá Goolgebot hữu ích vì website có thêm lưu lượng truy cập nếu được đề xuất. Tuy nhiên, sự trỗi dậy của AI tạo sinh và mô hình ngôn ngữ lớn đang phá vỡ sự cộng tác này.
Các công cụ như GPTbot sẽ giúp ChatGPT và GPT-4 có thể tổng hợp và trả lời câu hỏi, người dùng không cần truy cập các đường link. Điều này khiến nhiều trang web mất lượng truy cập lớn. Có nghĩa, các nhà sáng tạo nội dung cung cấp dữ liệu để GPTbot thu thập và phát triển lớn mạnh, sau đó quay lại cạnh tranh với chính họ. Stack Overflow, web cộng đồng của những lập trình viên chuyên nghiệp, ghi nhận sụt giảm người tham gia khi ChatGPT đủ khả năng giải quyết các lỗi lập trình khó.
Nỗi lo về GPTbot đang lan truyền mạnh. “Để GPTbot của OpenAI thu thập dữ liệu trang web của bạn là hành động tự hủy”. Nhận thức này đang lan truyền khá nhanh trong các cộng đồng trực tuyến. The Verge, ấn phẩm tin tức kỹ thuật số cạnh tranh với trang Insider, có vẻ đã thực hiện các bước để chặn GPTbot.
Không rõ GPTbot của OpenAI đã ẩn nấp trên mạng trong bao lâu. OpenAI gần đây đã công bố một cách để chặn GPTbot, sử dụng giao thức phổ biến có tên là robots.txt. Hoặc người dùng có thể ngăn GPTBot thu thập dữ liệu từ trang web của mình bằng cách chặn địa chỉ IP của nó. Một số người sáng tạo đã triển khai điều này, song có người thắc mắc GPTbot đã bí mật thu thập dữ liệu trực tuyến của mọi người trong bao nhiêu lâu.
Cùng chuyên mục
Apple tuyển hàng loạt chuyên gia AI tại công ty đối thủ Google
Quy định mới của EU sẽ buộc Apple phải mở cửa hệ điều hành iPadOS
Công ty mẹ TikTok tuyên bố sẽ đóng cửa ở Mỹ thay vì bán lại
Thị trường livestream Việt Nam chứng kiến sự gia tăng mạnh mẽ
TSMC ra mắt công nghệ sản xuất chip mới thách thức đối thủ lâu năm Intel
-
Vay ngân hàng mua bất động sản trong giai đoạn lãi suất thấp: Nên hay không?
-
Chuyên gia ‘hiến kế’ để phiên đấu thầu vàng thành công
-
TS. Trần Xuân Lượng: Hành vi người mua nhà đã thay đổi theo phân khúc căn hộ chung cư
-
Hoàn thiện thể chế để mở đường cho doanh nghiệp vượt khó, phát triển
-
Tập trung vào giá trị cốt lõi, doanh nghiệp Việt có thể nâng tầm thương hiệu