Dự án ViGen nằm trong khuôn khổ Chương trình Thách thức Đổi mới sáng tạo Việt Nam 2025 (Vietnam Innovation Challenge - VIC) do NIC phối hợp với Tập đoàn Meta, Tổ chức AI for Vietnam và các đối tác liên quan triển khai.
Trong bối cảnh cách mạng công nghiệp 4.0 đang diễn ra mạnh mẽ, Trí tuệ Nhân tạo (AI) không chỉ là một xu hướng công nghệ mà đã trở thành một trụ cột, một động lực then chốt cho sự phát triển kinh tế - xã hội, nâng cao năng lực cạnh tranh quốc gia. Đảng và Nhà nước đã xác định AI là một trong những công nghệ ưu tiên, có vai trò quyết định đến sự thịnh vượng của đất nước.
Thực hiện Nghị quyết 57-NQ/TW ngày 22/12/2024 của Bộ Chính trị về đột phá phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số, Bộ Tài chính đã có công văn số 8343/BTC-KHTC ngày 13/6/2025 về việc công bố danh mục các bài toán lớn về khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số của Bộ Tài chính năm 2025. Theo đó, NIC được giao chủ trì, giải quyết bài toán lớn về Xây dựng bộ dữ liệu tiếng Việt mã nguồn mở phục vụ nghiên cứu, phát triển và ứng dụng AI (ViGen). Dự án ViGen được triển khai nhằm hỗ trợ việc phát triển Mô hình ngôn ngữ lớn tiếng Việt trong Danh mục công nghệ chiến lược và sản phẩm công nghệ chiến lược quốc gia đến năm 2030 theo Quyết định số 1131/QĐ-TTg ngày 12/6/2025 của Thủ tướng Chính phủ.
![]() |
Toàn cảnh cuộc họp tham vấn chuyên gia về việc xây dựng bộ dữ liệu tiếng Việt mã nguồn mở ViGen phục vụ nghiên cứu, ứng dụng và phát triển AI (Dự án ViGen) - Ảnh: Hà Hương |
Để hiện thực hóa tầm nhìn này, việc xây dựng một hệ sinh thái AI vững mạnh là điều tối cần thiết. Và trong hệ sinh thái đó, dữ liệu chính là "nguồn dầu mỏ" quý giá nhất. Đặc biệt, đối với một quốc gia có ngôn ngữ và văn hóa độc đáo như Việt Nam, việc sở hữu một bộ dữ liệu tiếng Việt chất lượng cao, đa dạng và dễ tiếp cận là yếu tố then chốt để các mô hình AI có thể "hiểu" và "phục vụ" tốt nhất cho người Việt. Do vậy, sáng kiến này được kỳ vọng sẽ đóng vai trò then chốt trong việc thúc đẩy nghiên cứu, phát triển và ứng dụng AI tại Việt Nam. Cuộc họp thu hút sự tham gia của đại diện các bộ, ngành trung ương, các viện nghiên cứu, trường đại học hàng đầu, các doanh nghiệp công nghệ tiên phong, tổ chức quốc tế cùng đông đảo các chuyên gia, nhà khoa học đầu ngành trong lĩnh vực AI.
Mục tiêu cốt lõi của buổi tham vấn là xây dựng một nền tảng dữ liệu tiếng Việt chất lượng cao, toàn diện và có thể truy cập rộng rãi, nhằm cung cấp tài nguyên thiết yếu cho cộng đồng AI Việt Nam. Bộ dữ liệu mã nguồn mở ViGen hứa hẹn sẽ là xương sống để các nhà nghiên cứu, phát triển và doanh nghiệp Việt Nam có thể tạo ra các giải pháp AI vượt trội, đặc biệt là các ứng dụng hiểu và xử lý tiếng Việt sâu sắc hơn, từ đó góp phần vào công cuộc chuyển đổi số quốc gia và nâng cao năng lực cạnh tranh của Việt Nam trên bản đồ AI thế giới.
Phát biểu khai mạc, ông Vũ Quốc Huy, Giám đốc NIC cho biết: “Với vai trò là cầu nối giữa chính phủ, cộng đồng nghiên cứu và doanh nghiệp, NIC là đơn vị chủ trì, phối hợp với đa dạng các thành tố trong hệ sinh thái để tập hợp và xây dựng Dự án ViGen. Chúng tôi tin tưởng rằng, với trí tuệ tập thể, sự đóng góp đa chiều từ quý vị đại diện các Bộ Khoa học và Công nghệ, Bộ Công an, các viện nghiên cứu uy tín như Viện Hàn lâm Khoa học và Công nghệ Việt Nam, các trường đại học hàng đầu như Đại học Bách khoa Hà Nội, Đại học Quốc gia TP. HCM, Đại học Quốc gia Hà Nội, cùng các tập đoàn công nghệ hàng đầu thế giới và Việt Nam như Meta, NVIDIA, Viettel, VNPT, MISA, SotaTek, DopikAI, DeepTensor, HyraTek, Gotit và tổ chức AI for Vietnam – chúng ta sẽ cùng nhau xây dựng một lộ trình rõ ràng, một kế hoạch hành động hiệu quả để hiện thực hóa dự án ViGen một cách nhanh chóng và bền vững nhất. Chúng tôi kỳ vọng buổi tham vấn hôm nay sẽ là diễn đàn cởi mở để cùng nhau thảo luận về mọi góc nhìn từ chính sách, công nghệ, học thuật đến ứng dụng thực tiễn sẽ góp phần hoàn thiện đề án ViGen, đảm bảo tính khả thi và hiệu quả cao nhất.”
Là một tập đoàn công nghệ hàng đầu thế giới, Meta có bề dày kinh nghiệm trong việc nghiên cứu và phát triển AI, cũng như trong việc xây dựng và đóng góp vào các sáng kiến mã nguồn mở toàn cầu. Đại diện Tập đoàn Meta bà Thảo Griffiths, Giám đốc Chính sách công Việt Nam, Lào, Campuchia chia sẻ: “Chúng tôi nhận thấy rằng, để AI thực sự phát triển bền vững và mang lại lợi ích rộng rãi, việc xây dựng một hệ sinh thái dữ liệu đa dạng, phong phú và đặc biệt là mã nguồn mở như LLAMA là vô cùng cần thiết. Meta luôn coi Việt Nam là một thị trường chiến lược với nguồn nhân lực trẻ, năng động và khát khao học hỏi. Việc đồng hành cùng Dự án ViGen là một phần trong cam kết dài hạn của chúng tôi nhằm góp phần vào sự phát triển chung của hệ sinh thái AI mã nguồn mở tại Việt Nam. Tập đoàn Meta sẵn sàng chia sẻ kinh nghiệm, kiến thức chuyên môn, và có thể là cả công nghệ để hỗ trợ quá trình thu thập, xử lý và chuẩn hóa dữ liệu, đảm bảo ViGen đạt được chất lượng tốt nhất, đáp ứng được các tiêu chuẩn quốc tế.”
Ông Hùng Trần, nhà sáng lập và CEO tổ chức AI for Vietnam, trình bày tiến độ triển khai của Dự án và định hướng phát triển dự án ViGen. Hiện nay, Dự án đang hoàn thiện cơ sở hạ tầng thu thập dữ liệu, bao gồm việc định hình các tiêu chuẩn dữ liệu và xây dựng các nền tảng kỹ thuật nhằm đảm bảo chất lượng, an toàn thông tin và quy mô của bộ dữ liệu tiếng Việt, và dự kiến sẽ ra mắt bản thử nghiệm vào tháng 10/2025.
Tại cuộc họp, các đối tác như Viện Công nghệ Thông tin thuộc Viện Hàn lâm Khoa học và Công nghệ Việt Nam, Tập Viettel và các chuyên gia người Việt trong lĩnh vực AI đang làm việc tại các tập đoàn công nghệ hàng đầu thế giới như Google, Sotatek, ByteDance,... cũng có phần chia sẻ và cam kết đồng hành cùng Dự án. Các bên đều chia sẻ chủ trương ủng hộ sự cần thiết của Dự án để tạo lập một mô hình ngôn ngữ thuần Việt, cho người Việt và khẳng định sẵn sàng chia sẻ kinh nghiệm, kiến thức chuyên môn và đóng góp dữ liệu vào Dự án.
Phiên thảo luận mở đã diễn ra sôi nổi, thu hút sự tham gia tích cực từ đại diện các bộ, ngành, viện nghiên cứu và trường đại học lớn như Đài Tiếng nói Việt Nam, Đại học Quốc gia TP. HCM, Đại học Quốc gia Hà Nội; Viện Công nghệ và Trí tuệ mới tạo sinh; cùng các doanh nghiệp công nghệ như Tập đoàn FPT và startup AI như Fossasia, Meticworks… Các ý kiến tập trung vào các khía cạnh như tiêu chuẩn kỹ thuật, tiêu chuẩn hóa dữ liệu, cơ chế thu thập, quản lý và duy trì bộ dữ liệu, cách thức huy động cộng đồng tham gia đóng góp dữ liệu, nguồn lực và các chính sách hỗ trợ phát triển AI dựa trên dữ liệu mở.
Dự án ViGen không chỉ là một kho dữ liệu đơn thuần. Đó là biểu tượng của tinh thần hợp tác, của tư duy mở và khát vọng vươn lên. Một bộ dữ liệu mã nguồn mở sẽ là chất xúc tác mạnh mẽ, loại bỏ rào cản về chi phí và quyền truy cập, giúp hàng ngàn lập trình viên, nhà nghiên cứu, startup và doanh nghiệp nhỏ có thể tiếp cận nguồn tài nguyên quý giá này để đổi mới sáng tạo. Điều này không chỉ thúc đẩy nghiên cứu khoa học cơ bản mà còn đẩy nhanh quá trình thương mại hóa các sản phẩm AI “Make in Vietnam”, giải quyết các bài toán thực tiễn của đất nước.
Ngôn ngữ là chìa khóa để AI thực sự tương tác và phục vụ con người một cách hiệu quả. Với tiếng Việt, một ngôn ngữ có cấu trúc và ngữ điệu độc đáo, việc xây dựng một bộ dữ liệu chất lượng cao không chỉ là nhiệm vụ kỹ thuật mà còn là bảo tồn và phát huy giá trị văn hóa. Bộ dữ liệu ViGen không chỉ hỗ trợ các ứng dụng dịch thuật, xử lý ngôn ngữ tự nhiên, mà còn mở ra cánh cửa cho việc phát triển các mô hình AI sáng tạo khác, phục vụ đa dạng các ngành nghề, từ giáo dục, y tế đến tài chính, thương mại điện tử, phù hợp với đặc thù của thị trường Việt Nam.
Việc xây dựng bộ dữ liệu tiếng Việt mã nguồn mở ViGen không chỉ là một dự án công nghệ, mà còn là một minh chứng cho tinh thần hợp tác, đổi mới sáng tạo của Việt Nam trong kỷ nguyên số, mở ra cánh cửa cho hàng triệu cơ hội mới và khẳng định vị thế của Việt Nam trên bản đồ AI toàn cầu.