Việt Nam phát triển bộ dữ liệu tiếng Việt dùng cho AI, trợ lý ảo

Dữ liệu tiếng Việt để đào tạo các mô hình AI hiện chỉ chiếm tỷ lệ rất nhỏ. Dự án ViGen tạo ra những bộ dữ liệu chất lượng cao để nâng cao khả năng sử dụng tiếng Việt của AI, trợ lý ảo.

Sáng 14/3, Trung tâm Đổi mới sáng tạo Quốc gia (NIC) đã khởi động Chương trình Thách thức Đổi mới sáng tạo 2025 với mục tiêu thúc đẩy phát triển lĩnh vực trí tuệ nhân tạo (AI) tại Việt Nam.

Chương trình Thách thức Đổi mới sáng tạo 2025 tập trung vào Dự án ViGen với nỗ lực tạo ra bộ dữ liệu tiếng Việt mã nguồn mở chất lượng cao để đào tạo, đánh giá, từ đó nâng cao hiệu quả của các mô hình ngôn ngữ lớn (LLMs).

Sự xuất hiện của bộ dữ liệu tiếng Việt nhằm giúp các mô hình AI hiểu rõ hơn văn hóa, bối cảnh và cách diễn đạt trong tiếng Việt. Dự án được kỳ vọng sẽ nâng cao sự hiện diện của tiếng Việt trong quá trình phát triển AI, đồng thời góp phần thúc đẩy kinh tế số.

3.jpg
Khởi động Chương trình Thách thức Đổi mới sáng tạo 2025 với mục tiêu thúc đẩy phát triển lĩnh vực trí tuệ nhân tạo (AI) tại Việt Nam.

Dự án ViGen khởi nguồn từ hợp tác ba bên giữa Tập đoàn Meta, NIC và tổ chức “AI for Vietnam”. Trong đó, Trung tâm Đổi mới sáng tạo Quốc gia đóng vai trò là đơn vị chủ quản, điều phối, bảo đảm dự án phù hợp với các mục tiêu quốc gia của Việt Nam.

Sứ mệnh của dự án ViGen là làm cho các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi để mở khoá tiềm năng các ứng dụng AI tại Việt nam.

ViGen sẽ xây dựng các bộ dữ liệu tiếng Việt nguồn mở với quy mô lớn và chất lượng cao để đào tạo và đánh giá khả năng của các mô hình AI.

Dự án ViGen cũng đóng góp vào việc đảm bảo sự phát triển AI ở Việt Nam phù hợp với giá trị văn hoá và tiêu chuẩn đạo đức, hướng tới việc xây dựng một hệ sinh thái AI mã nguồn mở phù hợp với bối cách địa phương và có trách nhiệm.

Nhằm hỗ trợ dự án, Meta sẽ đóng góp các bộ dữ liệu mã nguồn mở của mình, bao gồm những thông tin chi tiết về di chuyển và kết nối xã hội, cũng như dữ liệu đào tạo từ các bản đồ dân số có sự hỗ trợ của AI.

Theo ông Võ Xuân Hoài, Phó Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia, AI đang chuyển đổi thế giới. Do đó, việc phát triển các tập dữ liệu Việt Nam quy mô lớn, chất lượng cao và mã nguồn mở để đào tạo và đánh giá AI đã trở thành ưu tiên cấp bách.

Dự án ViGen phù hợp với Nghị quyết 57 của Bộ Chính trị nhằm thúc đẩy đột phá trong khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia. Với nỗ lực chung từ các nhà hoạch định chính sách, nhà nghiên cứu, nhà phát triển, chuyên gia và người dùng, chúng ta sẽ biến AI thành một công cụ mạnh mẽ cho mọi người Việt Nam và đưa Việt Nam trở thành cường quốc AI toàn cầu”, Phó Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia nhận định.

4.jpg
Ông Trần Việt Hùng, nhà sáng lập & CEO Tổ chức AI for Vietnam.

Tiếng Việt được sử dụng bởi hơn 100 triệu người, tuy nhiên dữ liệu tiếng Việt dùng để đào tạo các mô hình AI hiện chỉ chiếm một tỷ lệ rất nhỏ, chưa đến 1%. Đó là lý do đầu ra của các mô hình AI có giá trị thông tin nhưng chưa tự nhiên, chưa truyền tải hết giá trị của tiếng Việt, dẫn đến độ hữu dụng chưa cao, chưa hiệu quả.

Ông Trần Việt Hùng, nhà sáng lập & CEO Tổ chức AI for Vietnam, chia sẻ: “Dự án ViGen sẽ đóng góp cho cộng đồng những bộ dữ liệu lớn và chất lượng cao bằng tiếng Việt nhằm cải thiện hiện trạng tiếng Việt đang bị coi là một ngôn ngữ còn hiện diện hết sức khiêm tốn trong AI”.

Theo ông Trần Việt Hùng, dự án ViGen cũng cho thấy sức mạnh và giá trị của những mô hình mã nguồn mở như Llama, cho phép phát triển các giải pháp sáng tạo có tính đến ngữ cảnh của tiếng Việt.

Trên thực tế, tại Việt Nam, đã xuất hiện các trợ lý ảo của người Việt được phát triển dựa trên mô hình ngôn ngữ lớn Llama như trợ lý ảo tự động hóa việc truy xuất thông tin của Misa và trợ lý ảo pháp lý của Viettel. Đây là những ví dụ bước đầu cho thấy ứng dụng của AI trong đời sống người Việt, đặc biệt là ở trong khu vực công.

Theo vietnamnet.vn

Có thể bạn quan tâm

Tin cùng chuyên mục

Chuyển đổi số nâng cao hiệu quả công tác Đảng

Chuyển đổi số nâng cao hiệu quả công tác Đảng

Chuyển đổi số (CĐS) đang tạo ra những chuyển biến toàn diện trong công tác Đảng tại tỉnh Lào Cai, từ phương thức lãnh đạo, chỉ đạo đến sinh hoạt chi bộ và gắn kết đảng viên với nhân dân. Việc ứng dụng công nghệ thông tin giúp hệ thống chính trị hoạt động minh bạch, linh hoạt, hiệu quả hơn. Đồng thời nâng cao chất lượng hoạt động của tổ chức cơ sở Đảng, góp phần thực hiện thắng lợi nhiệm vụ phát triển kinh tế - xã hội của địa phương.

Học tập không giới hạn

Học tập không giới hạn

Từ một lựa chọn mang tính bổ trợ, học trực tuyến đã trở thành phương thức giáo dục phổ biến, tiếp cận hàng triệu người học ở mọi độ tuổi và lĩnh vực. Người học có thể chủ động hoàn toàn trong việc sắp xếp không gian, thời gian; lựa chọn nội dung và điều chỉnh tiến độ phù hợp với bản thân. Học trực tuyến đang mở rộng cánh cửa tri thức theo nhiều cách linh hoạt, đa dạng và thực tiễn hơn bao giờ hết.

Ứng dụng trí tuệ nhân tạo nâng cao hiệu quả tham mưu

Ứng dụng trí tuệ nhân tạo nâng cao hiệu quả tham mưu

Trong bối cảnh chuyển đổi số lan tỏa sâu rộng, trí tuệ nhân tạo (AI) đang trở thành công cụ giúp đổi mới phương thức lãnh đạo, chỉ đạo của Đảng. Chủ động bắt nhịp xu thế, Văn phòng Tỉnh ủy đã triển khai ứng dụng AI trong xử lý văn bản, lưu trữ hồ sơ, tổng hợp báo cáo và phục vụ hội nghị, đại hội Đảng. Qua đó, rút ngắn thời gian xử lý công việc, chuẩn hóa quy trình, tăng độ chính xác và nâng cao hiệu quả tham mưu phục vụ cấp ủy.

Lào Cai mời trường đại học về làm chuyển đổi số

Lào Cai mời trường đại học về làm chuyển đổi số

Nhằm đáp ứng yêu cầu vận hành chính quyền hai cấp và xây dựng nền hành chính hiện đại, linh hoạt, dựa trên dữ liệu, Ủy ban nhân dân tỉnh Lào Cai phối hợp với Đại học Quốc gia Hà Nội tổ chức lớp tập huấn “Kỹ năng phân tích, khai thác dữ liệu và công nghệ số cho đội ngũ cán bộ phụ trách chuyển đổi số”.

Lào Cai khai mạc tập huấn, đào tạo kỹ năng phân tích, khai thác dữ liệu và công nghệ số cho cán bộ nòng cốt

Lào Cai khai mạc tập huấn, đào tạo kỹ năng phân tích, khai thác dữ liệu và công nghệ số cho cán bộ nòng cốt

Sáng 04/11, Sở Khoa học và Công nghệ tỉnh Lào Cai phối hợp với Trường Đại học Công nghệ (Đại học Quốc gia Hà Nội) tổ chức khai mạc chương trình tập huấn, đào tạo kỹ năng phân tích, khai thác dữ liệu và công nghệ số dành cho cán bộ phụ trách chuyển đổi số các cơ quan, đơn vị, địa phương trong tỉnh.

Vật liệu phủ đặc biệt có thể làm mát các tòa nhà

Vật liệu phủ đặc biệt có thể làm mát các tòa nhà

Các nhà nghiên cứu tại Đại học Sydney (Australia) và công ty khởi nghiệp Dewpoint Innovations vừa phát triển thành công một loại vật liệu phủ giống sơn, có khả năng tự động làm mát các tòa nhà và thu gom hơi nước trực tiếp từ không khí mà không cần bất kỳ nguồn năng lượng đầu vào nào.

Chuyển đổi số: "Tấm khiên" chống thiên tai

Chuyển đổi số: "Tấm khiên" chống thiên tai

Trong bối cảnh biến đổi khí hậu ngày càng cực đoan, Việt Nam trở thành một trong những quốc gia chịu ảnh hưởng nặng nề của thiên tai. Từ bão, lũ, sạt lở cho đến hạn hán, những thảm họa tự nhiên đòi hỏi một phương thức quản trị mới - nơi công nghệ và khoa học cùng phát huy vai trò chủ đạo trong bảo vệ tính mạng, tài sản của nhân dân.

Thúc đẩy thực thi quyền sao chép văn minh

Thúc đẩy thực thi quyền sao chép văn minh

Trong hệ sinh thái sáng tạo, “quyền sao chép” được xem là quyền nền tảng nhất trong nhóm quyền tác giả. Tuy nhiên, tại Việt Nam, quyền này đang bị xâm phạm một cách phổ biến và tinh vi, khiến thiệt hại không chỉ dừng ở con số kinh tế, mà còn là sự suy giảm niềm tin vào công bằng sáng tạo.

Lào Cai tập huấn triển khai ứng dụng “Sổ tay đảng viên điện tử” cho các tổ chức cơ sở Đảng

Lào Cai tập huấn triển khai ứng dụng “Sổ tay đảng viên điện tử” cho các tổ chức cơ sở Đảng

Thực hiện Kế hoạch số 12-KH/ĐU ngày 12/9/2025 của Ban Thường vụ Đảng ủy Các cơ quan Đảng tỉnh về triển khai ứng dụng “Sổ tay đảng viên điện tử”, sáng 31/10, Đảng ủy Các cơ quan Đảng tỉnh Lào Cai tổ chức tập huấn cho cán bộ phụ trách công nghệ thông tin tại các chi, Đảng bộ cơ sở và một số chi bộ trực thuộc Đảng ủy cơ sở, nhằm bảo đảm sẵn sàng đưa hệ thống vào vận hành đồng bộ từ ngày 01/11/2025.

Israel phát triển keo dán vết thương trong 5 giây

Israel phát triển keo dán vết thương trong 5 giây

Các nhà nghiên cứu thuộc Khoa Kỹ thuật Hóa học Wolfson của Viện Công nghệ Technion – Israel (Haifa) vừa phát triển một loại keo hydrogel mô phỏng sinh học mới có khả năng dán kín vết thương nhanh chóng và hiệu quả ngay cả trong điều kiện khắc nghiệt.

Lào Cai: Dữ liệu dân cư, bảo hiểm và đất đai được làm sạch, kết nối đồng bộ

Lào Cai: Dữ liệu dân cư, bảo hiểm và đất đai được làm sạch, kết nối đồng bộ

Thực hiện Đề án 06 của Chính phủ về phát triển ứng dụng dữ liệu dân cư, định danh và xác thực điện tử phục vụ chuyển đổi số quốc gia, các sở, ngành tỉnh Lào Cai đã tích cực phối hợp triển khai, góp phần hoàn thiện hệ sinh thái dữ liệu dùng chung, phục vụ người dân và doanh nghiệp hiệu quả hơn.

fb yt zl tw