Việt Nam phát triển bộ dữ liệu tiếng Việt dùng cho AI, trợ lý ảo

Dữ liệu tiếng Việt để đào tạo các mô hình AI hiện chỉ chiếm tỷ lệ rất nhỏ. Dự án ViGen tạo ra những bộ dữ liệu chất lượng cao để nâng cao khả năng sử dụng tiếng Việt của AI, trợ lý ảo.

Sáng 14/3, Trung tâm Đổi mới sáng tạo Quốc gia (NIC) đã khởi động Chương trình Thách thức Đổi mới sáng tạo 2025 với mục tiêu thúc đẩy phát triển lĩnh vực trí tuệ nhân tạo (AI) tại Việt Nam.

Chương trình Thách thức Đổi mới sáng tạo 2025 tập trung vào Dự án ViGen với nỗ lực tạo ra bộ dữ liệu tiếng Việt mã nguồn mở chất lượng cao để đào tạo, đánh giá, từ đó nâng cao hiệu quả của các mô hình ngôn ngữ lớn (LLMs).

Sự xuất hiện của bộ dữ liệu tiếng Việt nhằm giúp các mô hình AI hiểu rõ hơn văn hóa, bối cảnh và cách diễn đạt trong tiếng Việt. Dự án được kỳ vọng sẽ nâng cao sự hiện diện của tiếng Việt trong quá trình phát triển AI, đồng thời góp phần thúc đẩy kinh tế số.

3.jpg
Khởi động Chương trình Thách thức Đổi mới sáng tạo 2025 với mục tiêu thúc đẩy phát triển lĩnh vực trí tuệ nhân tạo (AI) tại Việt Nam.

Dự án ViGen khởi nguồn từ hợp tác ba bên giữa Tập đoàn Meta, NIC và tổ chức “AI for Vietnam”. Trong đó, Trung tâm Đổi mới sáng tạo Quốc gia đóng vai trò là đơn vị chủ quản, điều phối, bảo đảm dự án phù hợp với các mục tiêu quốc gia của Việt Nam.

Sứ mệnh của dự án ViGen là làm cho các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi để mở khoá tiềm năng các ứng dụng AI tại Việt nam.

ViGen sẽ xây dựng các bộ dữ liệu tiếng Việt nguồn mở với quy mô lớn và chất lượng cao để đào tạo và đánh giá khả năng của các mô hình AI.

Dự án ViGen cũng đóng góp vào việc đảm bảo sự phát triển AI ở Việt Nam phù hợp với giá trị văn hoá và tiêu chuẩn đạo đức, hướng tới việc xây dựng một hệ sinh thái AI mã nguồn mở phù hợp với bối cách địa phương và có trách nhiệm.

Nhằm hỗ trợ dự án, Meta sẽ đóng góp các bộ dữ liệu mã nguồn mở của mình, bao gồm những thông tin chi tiết về di chuyển và kết nối xã hội, cũng như dữ liệu đào tạo từ các bản đồ dân số có sự hỗ trợ của AI.

Theo ông Võ Xuân Hoài, Phó Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia, AI đang chuyển đổi thế giới. Do đó, việc phát triển các tập dữ liệu Việt Nam quy mô lớn, chất lượng cao và mã nguồn mở để đào tạo và đánh giá AI đã trở thành ưu tiên cấp bách.

Dự án ViGen phù hợp với Nghị quyết 57 của Bộ Chính trị nhằm thúc đẩy đột phá trong khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia. Với nỗ lực chung từ các nhà hoạch định chính sách, nhà nghiên cứu, nhà phát triển, chuyên gia và người dùng, chúng ta sẽ biến AI thành một công cụ mạnh mẽ cho mọi người Việt Nam và đưa Việt Nam trở thành cường quốc AI toàn cầu”, Phó Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia nhận định.

4.jpg
Ông Trần Việt Hùng, nhà sáng lập & CEO Tổ chức AI for Vietnam.

Tiếng Việt được sử dụng bởi hơn 100 triệu người, tuy nhiên dữ liệu tiếng Việt dùng để đào tạo các mô hình AI hiện chỉ chiếm một tỷ lệ rất nhỏ, chưa đến 1%. Đó là lý do đầu ra của các mô hình AI có giá trị thông tin nhưng chưa tự nhiên, chưa truyền tải hết giá trị của tiếng Việt, dẫn đến độ hữu dụng chưa cao, chưa hiệu quả.

Ông Trần Việt Hùng, nhà sáng lập & CEO Tổ chức AI for Vietnam, chia sẻ: “Dự án ViGen sẽ đóng góp cho cộng đồng những bộ dữ liệu lớn và chất lượng cao bằng tiếng Việt nhằm cải thiện hiện trạng tiếng Việt đang bị coi là một ngôn ngữ còn hiện diện hết sức khiêm tốn trong AI”.

Theo ông Trần Việt Hùng, dự án ViGen cũng cho thấy sức mạnh và giá trị của những mô hình mã nguồn mở như Llama, cho phép phát triển các giải pháp sáng tạo có tính đến ngữ cảnh của tiếng Việt.

Trên thực tế, tại Việt Nam, đã xuất hiện các trợ lý ảo của người Việt được phát triển dựa trên mô hình ngôn ngữ lớn Llama như trợ lý ảo tự động hóa việc truy xuất thông tin của Misa và trợ lý ảo pháp lý của Viettel. Đây là những ví dụ bước đầu cho thấy ứng dụng của AI trong đời sống người Việt, đặc biệt là ở trong khu vực công.

Theo vietnamnet.vn

Có thể bạn quan tâm

Tin cùng chuyên mục

Chuyển đổi số trong hoạt động của cơ quan tư pháp

Chuyển đổi số trong hoạt động của cơ quan tư pháp

Trong bối cảnh đẩy mạnh cải cách hành chính và xây dựng chính quyền số, các cơ quan tư pháp tỉnh Lào Cai đang từng bước ứng dụng công nghệ thông tin vào mọi hoạt động nghiệp vụ, từ tiếp nhận hồ sơ, giải quyết thủ tục đến quản lý dữ liệu và công khai thông tin pháp lý.

Hành động thực chất thực hiện mục tiêu chuyển đổi số

Hành động thực chất thực hiện mục tiêu chuyển đổi số

Năm 2026, tỉnh Lào Cai xác định chuyển đổi mạnh mẽ từ “nhận thức” sang “hành động thực chất” trong phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số. Những kết quả đạt được trong năm 2025 sẽ là nền tảng quan trọng để tỉnh phát triển đột phá trong giai đoạn 2026 - 2030. Với quyết tâm cao, hành động quyết liệt của tỉnh sẽ góp phần thúc đẩy phát triển kinh tế - xã hội, nâng cao chỉ số hài lòng cho người dân.

AI - Chìa khóa giúp doanh nghiệp tăng trưởng

AI - Chìa khóa giúp doanh nghiệp tăng trưởng

Trong bối cảnh chuyển đổi số đang diễn ra rộng khắp, trí tuệ nhân tạo (AI) đã và đang được ứng dụng mạnh mẽ trong hầu hết các khâu quan trọng của doanh nghiệp. AI được kỳ vọng là chìa khóa giúp doanh nghiệp tăng trưởng trong kỷ nguyên mới.

Cảnh báo lỗ hổng bảo mật trong Chromium của Google - nguy cơ mất an ninh mạng trên các trình duyệt web

Cảnh báo lỗ hổng bảo mật trong Chromium của Google - nguy cơ mất an ninh mạng trên các trình duyệt web

Khi người dùng vô tình truy cập vào trang web này, trình duyệt có thể bị lợi dụng để chạy các đoạn mã do tin tặc cài sẵn. Từ đó, tin tặc có thể âm thầm đánh cắp thông tin đăng nhập, theo dõi hoạt động duyệt web hoặc chiếm quyền các tài khoản đang đăng nhập của người dùng.

“Bình dân học vụ số”: Từ tri thức đến động lực chuyển đổi số ở Lào Cai

“Bình dân học vụ số”: Từ tri thức đến động lực chuyển đổi số ở Lào Cai

Chuyển đổi số đang khẳng định vai trò chiến lược của khoa học, công nghệ và đổi mới sáng tạo trong phát triển nhanh, bền vững. Sau một năm thực hiện Nghị quyết 57-NQ/TW, tinh thần “hành động đột phá, lan tỏa kết quả” dần đi vào thực tiễn. Tại Lào Cai, phong trào “Bình dân học vụ số” với cách tiếp cận từ cơ sở, thôn bản và từng người dân đã tạo chuyển động tích cực. Khi tri thức số được lan tỏa, khoa học - công nghệ và chuyển đổi số sẽ trở thành động lực thúc đẩy phát triển kinh tế - xã hội.

Cuộc “cách mạng số” ở Khánh Hòa

Cuộc “cách mạng số” ở Khánh Hòa

Sau hợp nhất, cấp ủy, chính quyền xã Khánh Hòa xác định lấy “số hóa” làm trung tâm xây dựng và vận hành đơn vị hành chính cấp xã. “Số hóa” đã và đang vào từng nếp nhà, từng thôn, bản, biến Khánh Hòa trở thành địa phương đi đầu trong thực hiện nhiệm vụ chuyển đổi số của toàn tỉnh.

Bài 2: Nền tảng dữ liệu số - Chiến lược tạo đột phá phát triển

“Bình dân học vụ số”: Từ tri thức đến động lực chuyển đổi số ở Lào Cai Bài 2: Nền tảng dữ liệu số - Chiến lược tạo đột phá phát triển

Nếu phong trào “Bình dân học vụ số” giúp người dân từng bước làm quen với môi trường số, thì hạ tầng viễn thông và hệ thống dữ liệu chính là nền tảng để những kỹ năng ấy được ứng dụng hiệu quả vào thực tiễn. Vì vậy, Lào Cai đang tập trung nguồn lực đầu tư hạ tầng số hiện đại, mở rộng mạng băng rộng và phát triển các nền tảng dữ liệu dùng chung, từng bước hình thành chính quyền số, kinh tế số và xã hội số bền vững.

Bài 1: Khi tri thức số bắt đầu từ cộng đồng

“Bình dân học vụ số”: Từ tri thức đến động lực chuyển đổi số ở Lào Cai Bài 1: Khi tri thức số bắt đầu từ cộng đồng

Sau hơn một năm triển khai Nghị quyết 57-NQ/TW của Bộ Chính trị, yêu cầu “hành động đột phá, lan tỏa kết quả” đang từng bước hiện hữu trong đời sống. Tại Lào Cai, trong tiến trình chuyển đổi số, con người được xác định là yếu tố nền tảng. Từ nhận thức đó, địa phương đã lựa chọn hướng đi mang tính căn cơ: phổ cập kỹ năng số cho người dân thông qua phong trào “Bình dân học vụ số”, đưa tri thức số lan tỏa tới cộng đồng.

Tăng “sức đề kháng số” cho thanh niên

Tăng “sức đề kháng số” cho thanh niên

Thông qua Dự án “Thanh niên trong công tác phòng ngừa rủi ro trên không gian mạng”, hàng nghìn đoàn viên, thanh niên đã được trang bị kiến thức và kỹ năng cần thiết để sử dụng internet an toàn, từng bước hình thành “sức đề kháng số”.

Tổng Bí thư chủ trì phiên họp về phát triển KHCN, đổi mới sáng tạo và chuyển đổi số

Tổng Bí thư chủ trì phiên họp về phát triển KHCN, đổi mới sáng tạo và chuyển đổi số

Chiều 12/3/2026, tại Trụ sở Trung ương Đảng, Tổng Bí thư Tô Lâm, Trưởng Ban Chỉ đạo Trung ương về phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số chủ trì phiên họp thứ nhất Thường trực Ban chỉ đạo về phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số năm 2026.

Chuyển đổi số góp phần nâng cao chất lượng bầu cử

Chuyển đổi số góp phần nâng cao chất lượng bầu cử

Lần đầu tiên, công nghệ được áp dụng vào nhiều khâu chuẩn bị từ xây dựng cơ sở dữ liệu cử tri, cung cấp thông tin qua robot hỗ trợ tra cứu, ứng dụng trí tuệ nhân tạo (AI) trong tuyên truyền đến các nền tảng số phục vụ quản lý. Chuyển đổi số đang tạo nên những chuyển biến rõ nét trong công tác tổ chức bầu cử, góp phần nâng cao tính minh bạch, chính xác và thuận tiện cho người dân.

fb yt zl tw