Theo The Verge, Google đã công bố một dự án mới đầy tham vọng nhằm phát triển mô hình AI độc quyền hỗ trợ tới "1.000 ngôn ngữ được sử dụng nhiều nhất trên thế giới". Bước đầu hướng tới mục tiêu, công ty đã công bố mô hình AI được đào tạo trên hơn 400 ngôn ngữ, được cho là "phạm vi ngôn ngữ lớn nhất được áp dụng trong mô hình AI giọng nói ngày nay". Rõ ràng, ngôn ngữ và AI luôn là trọng tâm trong các sản phẩm Google.
Quyết định này được đưa ra trong hoàn cảnh các gã khổng lồ công nghệ đang cạnh tranh khốc liệt để nắm quyền thống trị internet.
Dữ liệu rất quan trọng đối với những tiến bộ trong AI và Google cũng như các đối thủ công nghệ lớn của họ đều muốn khai thác thông tin để giúp sản phẩm hoạt động tốt hơn và khả dụng hơn cho nhiều đối tượng.
Google đã bắt đầu tích hợp mô hình này vào các sản phẩm như Google Search, đồng thời phản bác lại những lời chỉ trích về chức năng của hệ thống. Các mô hình ngôn ngữ tự động thường đi kèm với một số sai sót, bao gồm xu hướng làm dấy lên những thành kiến xã hội tiêu cực như phân biệt chủng tộc và không có khả năng phân tích ngôn ngữ với sự nhạy cảm của con người.
Tuy nhiên, các mô hình này có khả năng thực hiện nhiều tác vụ, từ tạo ngôn ngữ (như GPT-3 của OpenAI) đến dịch thuật (với tiêu chí “không để ngôn ngữ nào bị bỏ lại phía sau” của Meta). "Sáng kiến 1.000 ngôn ngữ" của Google không tập trung vào bất kỳ chức năng cụ thể nào, mà thay vào đó tạo ra một hệ thống duy nhất với bề rộng kiến thức khổng lồ về các ngôn ngữ trên thế giới.
Johan Schalkwyk, một nhà nghiên cứu tại Google dẫn chứng tình huống của một người ở châu Phi nói tiếng Wolof, khi anh ta mới bắt đầu sử dụng Internet và có thể gặp khó khăn khi muốn dùng điện thoại để hỏi địa chỉ hiệu thuốc gần nhất.
Schalkwyk nói với các phóng viên rằng những tình huống như vậy là không thể tránh được và nói thêm rằng ngôn ngữ là thứ mà “không phải ai cũng có” trên thế giới.
Theo Schalkwyk, có hơn 7.000 ngôn ngữ trên toàn cầu. Tuy nhiên, Google chỉ cung cấp các bản dịch của mình cho hơn 130 ngôn ngữ trong số đó.
Vì thế, ông hoàng công cụ tìm kiếm đang nhắm đến việc mở rộng lĩnh vực này và muốn khai thác dữ liệu bằng các ngôn ngữ mới không chỉ từ các văn bản có sẵn trên internet mà còn từ video, hình ảnh và bài phát biểu.
Ông Zoubin Ghahramani, Phó Chủ tịch nghiên cứu tại Google AI, cho biết công ty tin rằng việc tạo ra một mô hình có quy mô lớn sẽ giúp dễ dàng đưa các chức năng AI khác nhau vào các ngôn ngữ được thể hiện kém trong không gian trực tuyến và bộ dữ liệu đào tạo AI.
Nghiên cứu trước đây đã cho thấy hiệu quả và quy mô lợi ích mà Google có thể mang lại. Một dự án khác có sức cạnh tranh là nỗ lực của Meta nhằm xây dựng một "dịch giả với giọng nói phổ thông".
Tuy nhiên, quyền truy cập vào dữ liệu là một vấn đề khi đào tạo trên rất nhiều ngôn ngữ và Google cho biết để hỗ trợ công việc trên quy mô 1.000 ngôn ngữ, công ty sẽ tài trợ cho việc thu thập dữ liệu các ngôn ngữ có tài nguyên thấp, bao gồm cả bản ghi âm và văn bản viết.
Công ty chưa có kế hoạch trực tiếp về cách áp dụng chức năng của mô hình này, tuy nhiên họ hy vọng sẽ mang lại lợi ích trên các sản phẩm từ Google Dịch đến phụ đề YouTube và hơn thế nữa.
Google ước tính sẽ mất vài năm để dự án đi vào tiến độ nhất định và có kế hoạch tích hợp những thành tựu và tiến bộ về AI trước đó của mình vào YouTube và Google Dịch.
Meta, công ty mẹ của Facebook vào đầu năm nay cũng đã công bố một kế hoạch tương tự có tên No Language Left Behind (Không ngôn ngữ nào bị bỏ lại phía sau) được thiết kế để tạo ra các hệ thống dịch thuật bao gồm hàng trăm ngôn ngữ trên thế giới.
TH