Dịch giọng nói thời gian thực bằng hơn 70 ngôn ngữ
Ngày 10/6, Google công bố mô hình trí tuệ nhân tạo (AI) mới mang tên Gemini 3.5 Live Translate, cho phép dịch hội thoại trực tiếp giữa hơn 70 ngôn ngữ theo thời gian thực.
![]() |
| Google tung AI dịch giọng nói thời gian thực bằng hơn 70 ngôn ngữ |
Theo Google, hệ thống có khả năng tự động nhận diện hơn 70 ngôn ngữ và thực hiện dịch giọng nói gần như ngay lập tức. Công nghệ này đồng thời giữ được ngữ điệu, tốc độ nói và cao độ giọng nói của người dùng trong quá trình chuyển ngữ. Đây được xem là bước tiến đáng kể so với các hệ thống dịch truyền thống vốn thường phải chờ người nói kết thúc câu hoặc đoạn hội thoại trước khi bắt đầu dịch.
Điểm nổi bật của Gemini 3.5 Live Translate là khả năng tạo bản dịch liên tục trong khi người dùng đang nói, giúp cuộc trò chuyện diễn ra tự nhiên và liền mạch hơn.
Google đã trình diễn công nghệ mới trong nhiều tình huống thực tế như lồng tiếng video theo thời gian thực, dịch các bài giảng đa ngôn ngữ và hỗ trợ giao tiếp trực tiếp giữa những người sử dụng các ngôn ngữ khác nhau.
Mở rộng lên Google Meet và Google Translate
Google cho biết Gemini 3.5 Live Translate sẽ được tích hợp vào nền tảng họp trực tuyến Google Meet trong năm nay. Khi được triển khai, số lượng ngôn ngữ hỗ trợ dịch trực tiếp trên Google Meet sẽ tăng từ 5 lên hơn 70 ngôn ngữ, cho phép tạo ra hơn 2.000 tổ hợp dịch khác nhau trong cùng một cuộc họp.
Đáng chú ý, hệ thống mới không còn phụ thuộc vào tiếng Anh như ngôn ngữ trung gian trong quá trình dịch thuật. Theo Google, điều này giúp nâng cao độ chính xác và giảm độ trễ khi chuyển đổi giữa các ngôn ngữ.
Bên cạnh Google Meet, Gemini 3.5 Live Translate cũng đã được phát hành trên toàn cầu thông qua ứng dụng Google Translate dành cho Android và iOS.
Trong bản cập nhật mới, Google bổ sung chế độ Listening Mode trên Android, cho phép người dùng nghe phụ đề dịch trực tiếp thông qua tai nghe hoặc loa điện thoại. Để hạn chế nguy cơ lạm dụng công nghệ AI, Google cho biết mọi đoạn âm thanh do Gemini 3.5 Live Translate tạo ra đều được gắn watermark kỹ thuật số vô hình bằng công nghệ SynthID.
Theo Google, giải pháp này giúp xác thực nội dung được tạo bởi AI, đồng thời hỗ trợ ngăn chặn việc sử dụng sai mục đích trong bối cảnh các lo ngại liên quan đến nội dung giả mạo ngày càng gia tăng. Việc ra mắt Gemini 3.5 Live Translate đánh dấu nỗ lực mới của Google trong việc mở rộng ứng dụng AI vào lĩnh vực dịch thuật và giao tiếp đa ngôn ngữ trên phạm vi toàn cầu.