Việt Nam phát triển bộ dữ liệu tiếng Việt dùng cho AI, trợ lý ảo

Dữ liệu tiếng Việt để đào tạo các mô hình AI hiện chỉ chiếm tỷ lệ rất nhỏ. Dự án ViGen tạo ra những bộ dữ liệu chất lượng cao để nâng cao khả năng sử dụng tiếng Việt của AI, trợ lý ảo.

Sáng 14/3, Trung tâm Đổi mới sáng tạo Quốc gia (NIC) đã khởi động Chương trình Thách thức Đổi mới sáng tạo 2025 với mục tiêu thúc đẩy phát triển lĩnh vực trí tuệ nhân tạo (AI) tại Việt Nam.

Chương trình Thách thức Đổi mới sáng tạo 2025 tập trung vào Dự án ViGen với nỗ lực tạo ra bộ dữ liệu tiếng Việt mã nguồn mở chất lượng cao để đào tạo, đánh giá, từ đó nâng cao hiệu quả của các mô hình ngôn ngữ lớn (LLMs).

Sự xuất hiện của bộ dữ liệu tiếng Việt nhằm giúp các mô hình AI hiểu rõ hơn văn hóa, bối cảnh và cách diễn đạt trong tiếng Việt. Dự án được kỳ vọng sẽ nâng cao sự hiện diện của tiếng Việt trong quá trình phát triển AI, đồng thời góp phần thúc đẩy kinh tế số.

3.jpg
Khởi động Chương trình Thách thức Đổi mới sáng tạo 2025 với mục tiêu thúc đẩy phát triển lĩnh vực trí tuệ nhân tạo (AI) tại Việt Nam.

Dự án ViGen khởi nguồn từ hợp tác ba bên giữa Tập đoàn Meta, NIC và tổ chức “AI for Vietnam”. Trong đó, Trung tâm Đổi mới sáng tạo Quốc gia đóng vai trò là đơn vị chủ quản, điều phối, bảo đảm dự án phù hợp với các mục tiêu quốc gia của Việt Nam.

Sứ mệnh của dự án ViGen là làm cho các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi để mở khoá tiềm năng các ứng dụng AI tại Việt nam.

ViGen sẽ xây dựng các bộ dữ liệu tiếng Việt nguồn mở với quy mô lớn và chất lượng cao để đào tạo và đánh giá khả năng của các mô hình AI.

Dự án ViGen cũng đóng góp vào việc đảm bảo sự phát triển AI ở Việt Nam phù hợp với giá trị văn hoá và tiêu chuẩn đạo đức, hướng tới việc xây dựng một hệ sinh thái AI mã nguồn mở phù hợp với bối cách địa phương và có trách nhiệm.

Nhằm hỗ trợ dự án, Meta sẽ đóng góp các bộ dữ liệu mã nguồn mở của mình, bao gồm những thông tin chi tiết về di chuyển và kết nối xã hội, cũng như dữ liệu đào tạo từ các bản đồ dân số có sự hỗ trợ của AI.

Theo ông Võ Xuân Hoài, Phó Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia, AI đang chuyển đổi thế giới. Do đó, việc phát triển các tập dữ liệu Việt Nam quy mô lớn, chất lượng cao và mã nguồn mở để đào tạo và đánh giá AI đã trở thành ưu tiên cấp bách.

Dự án ViGen phù hợp với Nghị quyết 57 của Bộ Chính trị nhằm thúc đẩy đột phá trong khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia. Với nỗ lực chung từ các nhà hoạch định chính sách, nhà nghiên cứu, nhà phát triển, chuyên gia và người dùng, chúng ta sẽ biến AI thành một công cụ mạnh mẽ cho mọi người Việt Nam và đưa Việt Nam trở thành cường quốc AI toàn cầu”, Phó Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia nhận định.

4.jpg
Ông Trần Việt Hùng, nhà sáng lập & CEO Tổ chức AI for Vietnam.

Tiếng Việt được sử dụng bởi hơn 100 triệu người, tuy nhiên dữ liệu tiếng Việt dùng để đào tạo các mô hình AI hiện chỉ chiếm một tỷ lệ rất nhỏ, chưa đến 1%. Đó là lý do đầu ra của các mô hình AI có giá trị thông tin nhưng chưa tự nhiên, chưa truyền tải hết giá trị của tiếng Việt, dẫn đến độ hữu dụng chưa cao, chưa hiệu quả.

Ông Trần Việt Hùng, nhà sáng lập & CEO Tổ chức AI for Vietnam, chia sẻ: “Dự án ViGen sẽ đóng góp cho cộng đồng những bộ dữ liệu lớn và chất lượng cao bằng tiếng Việt nhằm cải thiện hiện trạng tiếng Việt đang bị coi là một ngôn ngữ còn hiện diện hết sức khiêm tốn trong AI”.

Theo ông Trần Việt Hùng, dự án ViGen cũng cho thấy sức mạnh và giá trị của những mô hình mã nguồn mở như Llama, cho phép phát triển các giải pháp sáng tạo có tính đến ngữ cảnh của tiếng Việt.

Trên thực tế, tại Việt Nam, đã xuất hiện các trợ lý ảo của người Việt được phát triển dựa trên mô hình ngôn ngữ lớn Llama như trợ lý ảo tự động hóa việc truy xuất thông tin của Misa và trợ lý ảo pháp lý của Viettel. Đây là những ví dụ bước đầu cho thấy ứng dụng của AI trong đời sống người Việt, đặc biệt là ở trong khu vực công.

Theo vietnamnet.vn

Có thể bạn quan tâm

Tin cùng chuyên mục

VNPT Yên Bái - VNPT Lào Cai đảm bảo vận hành thông suốt chính quyền 2 cấp

VNPT Yên Bái - VNPT Lào Cai đảm bảo vận hành thông suốt chính quyền 2 cấp

Để đảm bảo sự vận hành thông suốt của mô hình chính quyền địa phương 2 cấp, những ngày qua, VNPT Yên Bái – VNPT Lào Cai (tỉnh Lào Cai) không chỉ tập trung triển khai hạ tầng mà còn chú trọng đến công tác hỗ trợ người dân và cán bộ, góp phần xây dựng nền hành chính hiện đại, hiệu quả.

Chuyển đổi số - hệ thần kinh trung ương của chính quyền hai cấp

Chuyển đổi số - hệ thần kinh trung ương của chính quyền hai cấp

Tại Hội nghị sơ kết 6 tháng năm 2025 triển khai Nghị quyết 57 của Bộ Chính trị ngày 2/7 vừa qua, Tổng Bí thư Tô Lâm đã khẳng định: Chuyển đổi số chính là hệ thần kinh trung ương, là cầu nối sống còn giữa tỉnh và xã trong mô hình chính quyền hai cấp. Điều này không chỉ định vị chuyển đổi số như một trụ cột cốt lõi trong cải cách hành chính mà còn là kim chỉ nam cho việc xây dựng một hệ thống chính quyền hiện đại, hiệu năng, hiệu lực, hiệu quả và gần gũi với nhân dân.

Tuổi trẻ Lào Cai ra quân Ngày Cao điểm hỗ trợ vận hành chính quyền địa phương hai cấp và cung cấp dịch vụ công trực tuyến

Tuổi trẻ Lào Cai ra quân Ngày Cao điểm hỗ trợ vận hành chính quyền địa phương hai cấp và cung cấp dịch vụ công trực tuyến

Sáng 7/7, tuổi trẻ tỉnh Lào Cai đồng loạt ra quân hưởng ứng Ngày Cao điểm hỗ trợ vận hành mô hình chính quyền địa phương hai cấp và cung cấp dịch vụ công trực tuyến tại Trung tâm Hành chính công tỉnh và các xã, phường trên địa bàn toàn tỉnh.

Bảng xếp hạng của RRC trong hạng mục DocVQA 6/2025.

CMC đạt tốp 12 thế giới về nhận dạng văn bản

Mô hình CATI-VLM (Visual Document Understanding) do Viện Ứng dụng công nghệ CMC(CMC ATI) phát triển đã vượt qua nhiều đối thủ quốc tế đạt tốp 12 thế giới và tốp 1 Việt Nam trong bảng xếp hạng vừa được Robust Reading Competition (RRC) công bố tháng 6/2025 tại hạng mục Document Visual Question Answering (DocVQA)

Tổng Bí thư Tô Lâm và các đồng chí trong Ban Chỉ đạo ấn nút khai trương ra mắt hệ thống 3 nền tảng số phục vụ giám sát triển khai Nghị quyết 57-NQ/TW.

Tập trung cao độ, hành động quyết liệt 8 vấn đề về phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia

Sáng 2-7, tại Hà Nội, Ban Chỉ đạo Trung ương về phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số (Ban Chỉ đạo) tổ chức hội nghị sơ kết 6 tháng đầu năm và triển khai nhiệm vụ trọng tâm 6 tháng cuối năm 2025 theo hình thức trực tiếp kết hợp với trực tuyến với các địa phương. Tổng Bí thư Tô Lâm, Trưởng ban Chỉ đạo Trung ương chủ trì hội nghị.

96,5% dân số Lào Cai được quản lý sức khỏe điện tử

96,5% dân số Lào Cai được quản lý sức khỏe điện tử

Theo thông tin từ Sở Y tế tỉnh, đến thời điểm hiện tại, 96,5% dân số trên địa bàn tỉnh đã được quản lý sức khỏe điện tử, vượt xa mục tiêu đề ra trong Kế hoạch 220/KH-UBND ngày 26/4/2023 về chuyển đổi số ngành y tế giai đoạn 2023 - 2025, định hướng đến năm 2030.

Yên Bái chuyển đổi số để vững bước vào kỷ nguyên mới

Yên Bái chuyển đổi số để vững bước vào kỷ nguyên mới

Xác định chuyển đổi số (CĐS) là xu thế, thời cơ, động lực tạo đột phá trong phát triển, tỉnh Yên Bái đã nỗ lực thúc đẩy CĐS trên nhiều lĩnh vực. Từ đó, làm thay đổi căn bản, toàn diện hoạt động chỉ đạo, điều hành, quản lý của cấp ủy, chính quyền các cấp, hoạt động sản xuất, kinh doanh của doanh nghiệp, phương thức sống, làm việc của người dân theo hướng tích cực, đem lại cuộc sống hiện đại, thông minh, tiện ích.

fb yt zl tw