Tại sự kiện Google I/O 2026, Google giới thiệu Gemini Omni như một bước tiến mới trong cuộc đua AI đa phương thức. Điều khiến giới công nghệ chú ý không nằm ở khả năng tạo video, mà ở tham vọng phía sau mô hình này: phát triển AI có thể hiểu cách thế giới vận hành, thay vì chỉ xử lý ngôn ngữ hay tạo phản hồi theo xác suất.
Trong nhiều năm qua, phần lớn mô hình AI hiện đại hoạt động dựa trên dữ liệu văn bản khổng lồ để dự đoán câu trả lời hợp lý tiếp theo. Chúng có thể viết nội dung, dịch thuật, lập trình hay trả lời câu hỏi với độ chính xác ngày càng cao, nhưng vẫn chủ yếu xử lý thông tin theo mô hình xác suất.
![]() |
| Gemini Omni và tham vọng tạo ra AI “hiểu thế giới” của Google |
Theo các tài liệu được Google DeepMind công bố, Gemini Omni được phát triển theo hướng “omni-modal”, tức có thể xử lý đồng thời văn bản, hình ảnh, âm thanh và video trong cùng một hệ thống AI thống nhất.
Tuy nhiên, điều Google nhấn mạnh không chỉ là khả năng tạo nội dung đa phương thức. Hãng liên tục đề cập tới các khái niệm như “simulation”, “physics” và “multimodal reasoning”, cho thấy mục tiêu lớn hơn là giúp AI hiểu được các quy luật vận hành của thế giới thực.
Điểm đáng chú ý của Gemini Omni nằm ở khả năng mô phỏng các yếu tố vật lý như trọng lực, chuyển động, ánh sáng hay tính liên tục giữa các cảnh quay. Theo Google, người dùng chỉ cần cung cấp hình ảnh, âm thanh hoặc mô tả văn bản, hệ thống có thể tạo ra video hoàn chỉnh với chuyển động và lời thoại phù hợp với ngữ cảnh.
Các đoạn demo ban đầu cũng cho thấy AI có thể duy trì sự nhất quán của nhân vật và bối cảnh khi người dùng chỉnh sửa video bằng hội thoại tự nhiên. Người dùng có thể yêu cầu thay đổi thời tiết, góc máy hay phong cách hình ảnh mà không làm đứt gãy logic của cảnh quay.
Đây được xem là hướng phát triển mới của ngành AI, thường được gọi là “world model” - mô hình có khả năng mô phỏng và suy luận về thế giới thực.
Khác với chatbot truyền thống chỉ học từ dữ liệu văn bản, world model được kỳ vọng có thể hiểu sâu hơn mối liên hệ giữa các hiện tượng vật lý, chẳng hạn ánh sáng thay đổi theo góc quay, vật thể chịu tác động của trọng lực hay chuyển động phải diễn ra liên tục theo thời gian.
Theo TechCrunch, Google đang định vị Gemini Omni như một nền tảng có thể tạo nội dung từ gần như mọi loại dữ liệu đầu vào. Hướng đi này tương đồng với tham vọng mà OpenAI từng mô tả với Sora - mô hình video AI được xem như công cụ mô phỏng thế giới.
Đằng sau Gemini Omni cũng là sự thay đổi trong chiến lược AI của Google. Thay vì phát triển riêng lẻ chatbot, AI hình ảnh hay AI video, công ty đang hướng tới một hệ thống thống nhất có khả năng nhìn, nghe, suy luận và tạo nội dung trong cùng môi trường.
Dù vậy, khoảng cách giữa tham vọng và thực tế vẫn còn khá lớn. Các bản thử nghiệm hiện tại vẫn xuất hiện lỗi chuyển động, nhân vật thiếu nhất quán hoặc một số chi tiết vật lý chưa hoàn toàn tự nhiên. Google cũng chưa công bố đầy đủ các benchmark kỹ thuật để giới nghiên cứu đánh giá chính xác năng lực của Gemini Omni.
Dẫu còn trong giai đoạn đầu, Gemini Omni cho thấy AI đang bước sang một hướng phát triển mới, nơi mục tiêu không chỉ là tạo chatbot thông minh hơn mà còn là xây dựng các hệ thống có khả năng quan sát, suy luận và tương tác với thế giới thực theo cách ngày càng gần với trí tuệ con người.