Việt Nam phát triển bộ dữ liệu tiếng Việt dùng cho AI, trợ lý ảo

Dữ liệu tiếng Việt để đào tạo các mô hình AI hiện chỉ chiếm tỷ lệ rất nhỏ. Dự án ViGen tạo ra những bộ dữ liệu chất lượng cao để nâng cao khả năng sử dụng tiếng Việt của AI, trợ lý ảo.

Sáng 14/3, Trung tâm Đổi mới sáng tạo Quốc gia (NIC) đã khởi động Chương trình Thách thức Đổi mới sáng tạo 2025 với mục tiêu thúc đẩy phát triển lĩnh vực trí tuệ nhân tạo (AI) tại Việt Nam.

Chương trình Thách thức Đổi mới sáng tạo 2025 tập trung vào Dự án ViGen với nỗ lực tạo ra bộ dữ liệu tiếng Việt mã nguồn mở chất lượng cao để đào tạo, đánh giá, từ đó nâng cao hiệu quả của các mô hình ngôn ngữ lớn (LLMs).

Sự xuất hiện của bộ dữ liệu tiếng Việt nhằm giúp các mô hình AI hiểu rõ hơn văn hóa, bối cảnh và cách diễn đạt trong tiếng Việt. Dự án được kỳ vọng sẽ nâng cao sự hiện diện của tiếng Việt trong quá trình phát triển AI, đồng thời góp phần thúc đẩy kinh tế số.

3.jpg
Khởi động Chương trình Thách thức Đổi mới sáng tạo 2025 với mục tiêu thúc đẩy phát triển lĩnh vực trí tuệ nhân tạo (AI) tại Việt Nam.

Dự án ViGen khởi nguồn từ hợp tác ba bên giữa Tập đoàn Meta, NIC và tổ chức “AI for Vietnam”. Trong đó, Trung tâm Đổi mới sáng tạo Quốc gia đóng vai trò là đơn vị chủ quản, điều phối, bảo đảm dự án phù hợp với các mục tiêu quốc gia của Việt Nam.

Sứ mệnh của dự án ViGen là làm cho các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi để mở khoá tiềm năng các ứng dụng AI tại Việt nam.

ViGen sẽ xây dựng các bộ dữ liệu tiếng Việt nguồn mở với quy mô lớn và chất lượng cao để đào tạo và đánh giá khả năng của các mô hình AI.

Dự án ViGen cũng đóng góp vào việc đảm bảo sự phát triển AI ở Việt Nam phù hợp với giá trị văn hoá và tiêu chuẩn đạo đức, hướng tới việc xây dựng một hệ sinh thái AI mã nguồn mở phù hợp với bối cách địa phương và có trách nhiệm.

Nhằm hỗ trợ dự án, Meta sẽ đóng góp các bộ dữ liệu mã nguồn mở của mình, bao gồm những thông tin chi tiết về di chuyển và kết nối xã hội, cũng như dữ liệu đào tạo từ các bản đồ dân số có sự hỗ trợ của AI.

Theo ông Võ Xuân Hoài, Phó Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia, AI đang chuyển đổi thế giới. Do đó, việc phát triển các tập dữ liệu Việt Nam quy mô lớn, chất lượng cao và mã nguồn mở để đào tạo và đánh giá AI đã trở thành ưu tiên cấp bách.

Dự án ViGen phù hợp với Nghị quyết 57 của Bộ Chính trị nhằm thúc đẩy đột phá trong khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia. Với nỗ lực chung từ các nhà hoạch định chính sách, nhà nghiên cứu, nhà phát triển, chuyên gia và người dùng, chúng ta sẽ biến AI thành một công cụ mạnh mẽ cho mọi người Việt Nam và đưa Việt Nam trở thành cường quốc AI toàn cầu”, Phó Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia nhận định.

4.jpg
Ông Trần Việt Hùng, nhà sáng lập & CEO Tổ chức AI for Vietnam.

Tiếng Việt được sử dụng bởi hơn 100 triệu người, tuy nhiên dữ liệu tiếng Việt dùng để đào tạo các mô hình AI hiện chỉ chiếm một tỷ lệ rất nhỏ, chưa đến 1%. Đó là lý do đầu ra của các mô hình AI có giá trị thông tin nhưng chưa tự nhiên, chưa truyền tải hết giá trị của tiếng Việt, dẫn đến độ hữu dụng chưa cao, chưa hiệu quả.

Ông Trần Việt Hùng, nhà sáng lập & CEO Tổ chức AI for Vietnam, chia sẻ: “Dự án ViGen sẽ đóng góp cho cộng đồng những bộ dữ liệu lớn và chất lượng cao bằng tiếng Việt nhằm cải thiện hiện trạng tiếng Việt đang bị coi là một ngôn ngữ còn hiện diện hết sức khiêm tốn trong AI”.

Theo ông Trần Việt Hùng, dự án ViGen cũng cho thấy sức mạnh và giá trị của những mô hình mã nguồn mở như Llama, cho phép phát triển các giải pháp sáng tạo có tính đến ngữ cảnh của tiếng Việt.

Trên thực tế, tại Việt Nam, đã xuất hiện các trợ lý ảo của người Việt được phát triển dựa trên mô hình ngôn ngữ lớn Llama như trợ lý ảo tự động hóa việc truy xuất thông tin của Misa và trợ lý ảo pháp lý của Viettel. Đây là những ví dụ bước đầu cho thấy ứng dụng của AI trong đời sống người Việt, đặc biệt là ở trong khu vực công.

Theo vietnamnet.vn

Có thể bạn quan tâm

Tin cùng chuyên mục

Tăng tốc triển khai Nghị quyết 57 tại Cam Đường

Tăng tốc triển khai Nghị quyết 57 tại Cam Đường

Ngày 24/4, UBND phường Cam Đường phối hợp với Sở Khoa học và Công nghệ tổ chức buổi làm việc nhằm tháo gỡ khó khăn, vướng mắc trong quá trình triển khai Nghị quyết số 57 của Bộ Chính trị về phát triển khoa học công nghệ, đổi mới sáng tạo và chuyển đổi số trên địa bàn.

Chuyển đổi số – đòn bẩy nâng cao chất lượng công tác thanh tra

Chuyển đổi số – đòn bẩy nâng cao chất lượng công tác thanh tra

Sau khi vận hành mô hình chính quyền địa phương hai cấp, yêu cầu về chất lượng chuyên môn, nghiệp vụ ngày càng cao, Thanh tra tỉnh Lào Cai đã đẩy mạnh ứng dụng khoa học – công nghệ, đổi mới sáng tạo và chuyển đổi số vào hoạt động chuyên môn, tạo chuyển biến rõ nét trong công tác chỉ đạo, điều hành, góp phần nâng cao chất lượng hoạt động thanh tra.

Lào Cai hướng tới mô hình “Văn phòng Tỉnh ủy số”

Lào Cai hướng tới mô hình “Văn phòng Tỉnh ủy số”

Trước yêu cầu nâng cao chất lượng tham mưu, tổng hợp và phục vụ, Văn phòng Tỉnh ủy Lào Cai triển khai xây dựng mô hình “Văn phòng Tỉnh ủy số” theo hướng đồng bộ, hiện đại. Đây không chỉ là bước chuyển trong ứng dụng công nghệ, còn là quá trình đổi mới toàn diện phương thức làm việc, tổ chức dữ liệu và điều hành, nhằm bảo đảm thông tin kịp thời, chính xác, phục vụ hiệu quả công tác lãnh đạo, chỉ đạo trong giai đoạn mới.

Đoàn công tác Sở Nội vụ tỉnh Lào Cai kiểm tra, hướng dẫn nghiệp vụ tại xã Trịnh Tường

Đoàn công tác Sở Nội vụ tỉnh Lào Cai kiểm tra, hướng dẫn nghiệp vụ tại xã Trịnh Tường

Ngày 20/4, Đoàn công tác của Sở Nội vụ tỉnh Lào Cai do bà Bùi Phương Loan - Phó Giám đốc Trung tâm Dịch vụ tổng hợp Nội vụ tỉnh làm trưởng đoàn đã kiểm tra, hướng dẫn nghiệp vụ công tác chỉnh lý, số hóa, giao nhận tài liệu và thành lập các tổ, đội thực hiện nhiệm vụ tại xã Trịnh Tường.

Ứng dụng chuyển đổi số trong quản lý hồ sơ bảo trợ xã hội

Ứng dụng chuyển đổi số trong quản lý hồ sơ bảo trợ xã hội

Trong bối cảnh đẩy mạnh chuyển đổi số quốc gia, việc ứng dụng công nghệ thông tin vào công tác quản lý hồ sơ và khai thác thông tin đang trở thành xu hướng tất yếu. Tại Trung tâm Công tác xã hội và Bảo trợ xã hội số 2 tỉnh Lào Cai, quá trình này đã và đang mang lại những chuyển biến rõ nét, góp phần nâng cao hiệu quả quản lý, giảm áp lực hành chính và phục vụ người dân ngày càng tốt hơn.

Nâng cao năng lực cạnh tranh trong kỷ nguyên số

Nâng cao năng lực cạnh tranh trong kỷ nguyên số

Thời gian qua, việc ứng dụng trí tuệ nhân tạo (AI) trong sản xuất, kinh doanh đã giúp nhiều doanh nghiệp trên địa bàn tỉnh nâng cao năng suất lao động, cải thiện chất lượng sản phẩm, mở ra dư địa tăng trưởng mới, tạo “cú huých” để doanh nghiệp bứt phá trong kỷ nguyên số.

Khi chính sách “chạm” đến từng người dân

Khi chính sách “chạm” đến từng người dân

Thay vì phải xếp hàng chờ đợi nhận tiền mặt tại các điểm chi trả trợ cấp, lương hưu, giờ đây, các đối tượng yếu thế, hưu trí đã có thể nhận tiền trợ cấp chỉ bằng một thao tác chạm trên thiết bị di động. Đây không chỉ là bước tiến về công nghệ, mà là cuộc cách mạng trong quản lý, giúp chính sách “chạm” đến từng người dân một cách nhanh chóng, minh bạch.

Lào Cai quyết liệt thúc đẩy chuyển đổi số, hướng tới kết quả thực chất

Lào Cai quyết liệt thúc đẩy chuyển đổi số, hướng tới kết quả thực chất

Chiều 13/4, Ban Chỉ đạo phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số tỉnh Lào Cai (Ban Chỉ đạo) tổ chức Hội nghị theo hình thức trực tiếp kết hợp trực tuyến tới 99 điểm cầu xã, phường, nhằm đánh giá kết quả thực hiện nhiệm vụ quý I và triển khai phương hướng, nhiệm vụ quý II năm 2026.

Đinh Thị Phương Nhung và những sáng kiến thu hẹp khoảng cách số

Đinh Thị Phương Nhung và những sáng kiến thu hẹp khoảng cách số

Trao đổi qua điện thoại, chị Đinh Thị Phương Nhung khá khiêm tốn khi nhắc đến những thành tích mà mình đã đạt được. Nhưng khi nói đến chủ đề chuyển đổi số, chị Phương Nhung lại chia sẻ công việc và những dự định của mình với tất cả niềm đam mê. Với chị Nhung, góp sức đưa cái mới về với bản làng là trách nhiệm của những người trẻ tuổi.

fb yt zl tw