Việt Nam phát triển bộ dữ liệu tiếng Việt dùng cho AI, trợ lý ảo

Dữ liệu tiếng Việt để đào tạo các mô hình AI hiện chỉ chiếm tỷ lệ rất nhỏ. Dự án ViGen tạo ra những bộ dữ liệu chất lượng cao để nâng cao khả năng sử dụng tiếng Việt của AI, trợ lý ảo.

Sáng 14/3, Trung tâm Đổi mới sáng tạo Quốc gia (NIC) đã khởi động Chương trình Thách thức Đổi mới sáng tạo 2025 với mục tiêu thúc đẩy phát triển lĩnh vực trí tuệ nhân tạo (AI) tại Việt Nam.

Chương trình Thách thức Đổi mới sáng tạo 2025 tập trung vào Dự án ViGen với nỗ lực tạo ra bộ dữ liệu tiếng Việt mã nguồn mở chất lượng cao để đào tạo, đánh giá, từ đó nâng cao hiệu quả của các mô hình ngôn ngữ lớn (LLMs).

Sự xuất hiện của bộ dữ liệu tiếng Việt nhằm giúp các mô hình AI hiểu rõ hơn văn hóa, bối cảnh và cách diễn đạt trong tiếng Việt. Dự án được kỳ vọng sẽ nâng cao sự hiện diện của tiếng Việt trong quá trình phát triển AI, đồng thời góp phần thúc đẩy kinh tế số.

3.jpg
Khởi động Chương trình Thách thức Đổi mới sáng tạo 2025 với mục tiêu thúc đẩy phát triển lĩnh vực trí tuệ nhân tạo (AI) tại Việt Nam.

Dự án ViGen khởi nguồn từ hợp tác ba bên giữa Tập đoàn Meta, NIC và tổ chức “AI for Vietnam”. Trong đó, Trung tâm Đổi mới sáng tạo Quốc gia đóng vai trò là đơn vị chủ quản, điều phối, bảo đảm dự án phù hợp với các mục tiêu quốc gia của Việt Nam.

Sứ mệnh của dự án ViGen là làm cho các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi để mở khoá tiềm năng các ứng dụng AI tại Việt nam.

ViGen sẽ xây dựng các bộ dữ liệu tiếng Việt nguồn mở với quy mô lớn và chất lượng cao để đào tạo và đánh giá khả năng của các mô hình AI.

Dự án ViGen cũng đóng góp vào việc đảm bảo sự phát triển AI ở Việt Nam phù hợp với giá trị văn hoá và tiêu chuẩn đạo đức, hướng tới việc xây dựng một hệ sinh thái AI mã nguồn mở phù hợp với bối cách địa phương và có trách nhiệm.

Nhằm hỗ trợ dự án, Meta sẽ đóng góp các bộ dữ liệu mã nguồn mở của mình, bao gồm những thông tin chi tiết về di chuyển và kết nối xã hội, cũng như dữ liệu đào tạo từ các bản đồ dân số có sự hỗ trợ của AI.

Theo ông Võ Xuân Hoài, Phó Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia, AI đang chuyển đổi thế giới. Do đó, việc phát triển các tập dữ liệu Việt Nam quy mô lớn, chất lượng cao và mã nguồn mở để đào tạo và đánh giá AI đã trở thành ưu tiên cấp bách.

Dự án ViGen phù hợp với Nghị quyết 57 của Bộ Chính trị nhằm thúc đẩy đột phá trong khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia. Với nỗ lực chung từ các nhà hoạch định chính sách, nhà nghiên cứu, nhà phát triển, chuyên gia và người dùng, chúng ta sẽ biến AI thành một công cụ mạnh mẽ cho mọi người Việt Nam và đưa Việt Nam trở thành cường quốc AI toàn cầu”, Phó Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia nhận định.

4.jpg
Ông Trần Việt Hùng, nhà sáng lập & CEO Tổ chức AI for Vietnam.

Tiếng Việt được sử dụng bởi hơn 100 triệu người, tuy nhiên dữ liệu tiếng Việt dùng để đào tạo các mô hình AI hiện chỉ chiếm một tỷ lệ rất nhỏ, chưa đến 1%. Đó là lý do đầu ra của các mô hình AI có giá trị thông tin nhưng chưa tự nhiên, chưa truyền tải hết giá trị của tiếng Việt, dẫn đến độ hữu dụng chưa cao, chưa hiệu quả.

Ông Trần Việt Hùng, nhà sáng lập & CEO Tổ chức AI for Vietnam, chia sẻ: “Dự án ViGen sẽ đóng góp cho cộng đồng những bộ dữ liệu lớn và chất lượng cao bằng tiếng Việt nhằm cải thiện hiện trạng tiếng Việt đang bị coi là một ngôn ngữ còn hiện diện hết sức khiêm tốn trong AI”.

Theo ông Trần Việt Hùng, dự án ViGen cũng cho thấy sức mạnh và giá trị của những mô hình mã nguồn mở như Llama, cho phép phát triển các giải pháp sáng tạo có tính đến ngữ cảnh của tiếng Việt.

Trên thực tế, tại Việt Nam, đã xuất hiện các trợ lý ảo của người Việt được phát triển dựa trên mô hình ngôn ngữ lớn Llama như trợ lý ảo tự động hóa việc truy xuất thông tin của Misa và trợ lý ảo pháp lý của Viettel. Đây là những ví dụ bước đầu cho thấy ứng dụng của AI trong đời sống người Việt, đặc biệt là ở trong khu vực công.

Theo vietnamnet.vn

Có thể bạn quan tâm

Tin cùng chuyên mục

Trường Cao đẳng Lào Cai tổ chức hội thảo "Chuyển đổi số và trí tuệ nhân tạo"

Trường Cao đẳng Lào Cai tổ chức hội thảo "Chuyển đổi số và trí tuệ nhân tạo"

Sáng 26/11, Trường Cao đẳng Lào Cai tổ chức Hội thảo chuyên đề “Chuyển đổi số và trí tuệ nhân tạo”. Tham gia hội thảo có hơn 200 đại biểu là chuyên gia, lãnh đạo các sở, ngành có liên quan; Hiệp hội Giáo dục nghề nghiệp và Nghề công tác xã hội; lãnh đạo, nhà giáo và sinh viên ngành công nghệ thông tin của Trường Cao đẳng Lào Cai, Trường Cao đẳng Nghề Yên Bái, Trường Cao đẳng Lai Châu...

Khu vực Megalive tại Hội chợ Thương mại Quốc tế Việt – Trung (Lào Cai).

Mở rộng không gian số cho hội chợ truyền thống

Chỉ trong 3 ngày phát sóng, khu vực Megalive tại Hội chợ Thương mại Quốc tế Việt - Trung (Lào Cai) đã xử lý trên 2.000 đơn hàng và thu hút hơn 2 triệu lượt xem trên các nền tảng Shopee và TikTok. Từ một góc nhỏ trong không gian hội chợ truyền thống đã mở ra không gian rộng lớn cho các doanh nghiệp tham gia hội chợ.

Lào Cai: Hơn 100 báo cáo viên pháp luật được bồi dưỡng kiến thức chuyển đổi số và kỹ năng số

Lào Cai: Hơn 100 báo cáo viên pháp luật được bồi dưỡng kiến thức chuyển đổi số và kỹ năng số

Sáng 25/11, Sở Khoa học và Công nghệ tỉnh Lào Cai phối hợp với Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội tổ chức chương trình bồi dưỡng kiến thức cơ bản về chuyển đổi số, kỹ năng số và kỹ năng viết tin, bài cho báo cáo viên pháp luật cấp tỉnh năm 2025.

Công nghệ số "gõ cửa" trạm y tế

Công nghệ số "gõ cửa" trạm y tế

Thời gian qua, chất lượng khám chữa bệnh tại các trạm y tế cơ sở đã có nhiều đổi thay rõ nét nhờ chuyển đổi số. Công nghệ được ứng dụng vào quản lý, khám chữa bệnh và truyền thông sức khỏe, giúp nâng cao hiệu quả công việc của cán bộ y tế và chất lượng phục vụ người dân.

Tuổi trẻ Lương Thịnh tiên phong chuyển đổi số

Tuổi trẻ Lương Thịnh tiên phong chuyển đổi số

Về xã Lương Thịnh, tỉnh Lào Cai hình ảnh đầu tiên tôi bắt gặp đó là những đoàn viên, thanh niên trong sắc áo xanh tình nguyện, đến từng thôn, bản, hộ gia đình để hướng dẫn người dân cài đặt ứng dụng dịch vụ công, sử dụng thanh toán không tiền mặt, hay khai thác kho ứng dụng nông nghiệp thông minh…

Xã Lâm Giang ra mắt mô hình "Nhà văn hóa số"

Xã Lâm Giang ra mắt mô hình "Nhà văn hóa số"

Ngày 20/11/2025, tại thôn Nghĩa Dũng, UBND xã Lâm Giang tổ chức ra mắt mô hình “Nhà văn hóa số”. Đây là mô hình điểm quan trọng trong thực hiện Nghị quyết 57-NQ/TW của Bộ Chính trị về đột phá phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia; kế hoạch chuyển đổi số năm 2025 của xã.

Hạt nhân chuyển đổi số ở cơ sở

Hạt nhân chuyển đổi số ở cơ sở

Ở thôn Ngòi Cát, xã Bảo Ái, Bí thư Chi bộ Trịnh Xuân Lâm không chỉ gương mẫu, mà còn là hạt nhân tiên phong trong ứng dụng công nghệ thông tin, đưa chuyển đổi số vào hoạt động của chi bộ, đồng thời hướng dẫn người dân áp dụng công nghệ trong sản xuất. Nhờ đó, diện mạo nông thôn vùng cao ngày càng khởi sắc, Ngòi Cát từng bước trở thành điểm sáng trong phong trào chuyển đổi số ở cơ sở.

"Trợ lý ảo" đồng hành "ươm mầm xanh"

"Trợ lý ảo" đồng hành "ươm mầm xanh"

Tại Lào Cai, nhiều trường mầm non đã chủ động ứng dụng trí tuệ nhân tạo (AI) trong giảng dạy và chăm sóc trẻ, giúp giáo viên tiết kiệm thời gian, làm mới bài giảng. Nhờ đó, hành trình “ươm mầm xanh” trở nên sinh động, giàu trải nghiệm và hiệu quả.

Lan tỏa kỹ năng phòng tránh lừa đảo trực tuyến trong cộng đồng

Lan tỏa kỹ năng phòng tránh lừa đảo trực tuyến trong cộng đồng

Triển khai chiến dịch “Chống lừa đảo trực tuyến 2025” cùng với Cục An ninh mạng và Phòng, chống tội phạm sử dụng công nghệ cao (A05 - Bộ Công an) và Hiệp hội An ninh mạng quốc gia (NCA), nhằm giúp cộng đồng nhận biết và phòng tránh các hình thức lừa đảo trực tuyến ngày càng tinh vi, nền tảng TikTok thực hiện các cảnh báo lừa đảo trực tiếp trong ứng dụng (in-app warning) đến người dùng trên toàn quốc.

Tạo bước chuyển đổi số tới nhóm hộ kinh doanh khi bỏ thuế khoán

Tạo bước chuyển đổi số tới nhóm hộ kinh doanh khi bỏ thuế khoán

Các hộ kinh doanh trên toàn quốc đang chuẩn bị chuyển từ hình thức thuế khoán sang kê khai thuế điện tử. Chương trình chuyển đổi số được ngành Thuế đẩy nhanh với sự đồng hành của doanh nghiệp công nghệ, nhằm giúp hộ kinh doanh vận hành minh bạch, dễ tiếp cận chính sách và nâng cao năng lực số trước ngày 1/1/2026.

Khởi nghiệp tại quê hương từ công nghệ số

Khởi nghiệp tại quê hương từ công nghệ số

Nếu nhiều bạn trẻ ở thành phố khởi nghiệp với những mô hình kinh doanh hiện đại, thì không ít bạn trẻ dân tộc thiểu số lại chọn hành trình khởi nghiệp ngay tại bản làng của mình. Họ tận dụng sức mạnh của công nghệ số để lan tỏa nét văn hóa bản địa, đồng thời đưa những sản vật vùng cao đến với thị trường và người tiêu dùng ở khắp mọi nơi.

fb yt zl tw