Việt Nam phát triển bộ dữ liệu tiếng Việt dùng cho AI, trợ lý ảo

Dữ liệu tiếng Việt để đào tạo các mô hình AI hiện chỉ chiếm tỷ lệ rất nhỏ. Dự án ViGen tạo ra những bộ dữ liệu chất lượng cao để nâng cao khả năng sử dụng tiếng Việt của AI, trợ lý ảo.

Sáng 14/3, Trung tâm Đổi mới sáng tạo Quốc gia (NIC) đã khởi động Chương trình Thách thức Đổi mới sáng tạo 2025 với mục tiêu thúc đẩy phát triển lĩnh vực trí tuệ nhân tạo (AI) tại Việt Nam.

Chương trình Thách thức Đổi mới sáng tạo 2025 tập trung vào Dự án ViGen với nỗ lực tạo ra bộ dữ liệu tiếng Việt mã nguồn mở chất lượng cao để đào tạo, đánh giá, từ đó nâng cao hiệu quả của các mô hình ngôn ngữ lớn (LLMs).

Sự xuất hiện của bộ dữ liệu tiếng Việt nhằm giúp các mô hình AI hiểu rõ hơn văn hóa, bối cảnh và cách diễn đạt trong tiếng Việt. Dự án được kỳ vọng sẽ nâng cao sự hiện diện của tiếng Việt trong quá trình phát triển AI, đồng thời góp phần thúc đẩy kinh tế số.

3.jpg
Khởi động Chương trình Thách thức Đổi mới sáng tạo 2025 với mục tiêu thúc đẩy phát triển lĩnh vực trí tuệ nhân tạo (AI) tại Việt Nam.

Dự án ViGen khởi nguồn từ hợp tác ba bên giữa Tập đoàn Meta, NIC và tổ chức “AI for Vietnam”. Trong đó, Trung tâm Đổi mới sáng tạo Quốc gia đóng vai trò là đơn vị chủ quản, điều phối, bảo đảm dự án phù hợp với các mục tiêu quốc gia của Việt Nam.

Sứ mệnh của dự án ViGen là làm cho các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi để mở khoá tiềm năng các ứng dụng AI tại Việt nam.

ViGen sẽ xây dựng các bộ dữ liệu tiếng Việt nguồn mở với quy mô lớn và chất lượng cao để đào tạo và đánh giá khả năng của các mô hình AI.

Dự án ViGen cũng đóng góp vào việc đảm bảo sự phát triển AI ở Việt Nam phù hợp với giá trị văn hoá và tiêu chuẩn đạo đức, hướng tới việc xây dựng một hệ sinh thái AI mã nguồn mở phù hợp với bối cách địa phương và có trách nhiệm.

Nhằm hỗ trợ dự án, Meta sẽ đóng góp các bộ dữ liệu mã nguồn mở của mình, bao gồm những thông tin chi tiết về di chuyển và kết nối xã hội, cũng như dữ liệu đào tạo từ các bản đồ dân số có sự hỗ trợ của AI.

Theo ông Võ Xuân Hoài, Phó Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia, AI đang chuyển đổi thế giới. Do đó, việc phát triển các tập dữ liệu Việt Nam quy mô lớn, chất lượng cao và mã nguồn mở để đào tạo và đánh giá AI đã trở thành ưu tiên cấp bách.

Dự án ViGen phù hợp với Nghị quyết 57 của Bộ Chính trị nhằm thúc đẩy đột phá trong khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia. Với nỗ lực chung từ các nhà hoạch định chính sách, nhà nghiên cứu, nhà phát triển, chuyên gia và người dùng, chúng ta sẽ biến AI thành một công cụ mạnh mẽ cho mọi người Việt Nam và đưa Việt Nam trở thành cường quốc AI toàn cầu”, Phó Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia nhận định.

4.jpg
Ông Trần Việt Hùng, nhà sáng lập & CEO Tổ chức AI for Vietnam.

Tiếng Việt được sử dụng bởi hơn 100 triệu người, tuy nhiên dữ liệu tiếng Việt dùng để đào tạo các mô hình AI hiện chỉ chiếm một tỷ lệ rất nhỏ, chưa đến 1%. Đó là lý do đầu ra của các mô hình AI có giá trị thông tin nhưng chưa tự nhiên, chưa truyền tải hết giá trị của tiếng Việt, dẫn đến độ hữu dụng chưa cao, chưa hiệu quả.

Ông Trần Việt Hùng, nhà sáng lập & CEO Tổ chức AI for Vietnam, chia sẻ: “Dự án ViGen sẽ đóng góp cho cộng đồng những bộ dữ liệu lớn và chất lượng cao bằng tiếng Việt nhằm cải thiện hiện trạng tiếng Việt đang bị coi là một ngôn ngữ còn hiện diện hết sức khiêm tốn trong AI”.

Theo ông Trần Việt Hùng, dự án ViGen cũng cho thấy sức mạnh và giá trị của những mô hình mã nguồn mở như Llama, cho phép phát triển các giải pháp sáng tạo có tính đến ngữ cảnh của tiếng Việt.

Trên thực tế, tại Việt Nam, đã xuất hiện các trợ lý ảo của người Việt được phát triển dựa trên mô hình ngôn ngữ lớn Llama như trợ lý ảo tự động hóa việc truy xuất thông tin của Misa và trợ lý ảo pháp lý của Viettel. Đây là những ví dụ bước đầu cho thấy ứng dụng của AI trong đời sống người Việt, đặc biệt là ở trong khu vực công.

Theo vietnamnet.vn

Có thể bạn quan tâm

Tin cùng chuyên mục

Lào Cai bồi dưỡng kỹ năng bảo đảm an toàn, an ninh mạng và diễn tập thực chiến an toàn thông tin năm 2025

Lào Cai bồi dưỡng kỹ năng bảo đảm an toàn, an ninh mạng và diễn tập thực chiến an toàn thông tin năm 2025

Sáng 10/12, Công an tỉnh Lào Cai - cơ quan thường trực Đội ứng cứu sự cố an toàn thông tin mạng tỉnh tổ chức diễn tập thực chiến ứng phó và xử lý sự cố an ninh mạng, an toàn thông tin năm 2025, với hình thức trực tiếp kết hợp trực tuyến tới tất cả các xã, phường trên địa bàn tỉnh.

Lào Cai tham gia tập huấn triển khai 4 thủ tục hành chính của đảng trên môi trường điện tử

Lào Cai tham gia tập huấn triển khai 4 thủ tục hành chính của đảng trên môi trường điện tử

Sáng 9/12, cùng với các địa phương trên cả nước, tỉnh Lào Cai tham dự Hội nghị tập huấn toàn quốc do Văn phòng Trung ương Đảng tổ chức nhằm triển khai 4 thủ tục hành chính của Đảng trên môi trường điện tử. Hội nghị diễn ra theo hình thức trực tiếp kết hợp trực tuyến, được kết nối từ điểm cầu Trung ương tới các điểm cầu cấp tỉnh, huyện và xã, phường trên toàn quốc.

Số hóa hoạt động bảo tàng

Số hóa hoạt động bảo tàng

Bảo tàng tỉnh là một trong những đơn vị đi đầu khi đẩy mạnh số hóa hệ thống hiện vật, xây dựng kho dữ liệu trực tuyến và đổi mới cách thức đưa lịch sử văn hóa địa phương đến với công chúng. Những đổi mới này giúp người dân và du khách tiếp cận tư liệu mọi lúc, mọi nơi, đồng thời nâng cao hiệu quả giáo dục, nghiên cứu và quảng bá du lịch địa phương.

“Thôn số” ở Bát Xát

“Thôn số” ở Bát Xát

Ngày 28/11, mô hình “Thôn số” được Đảng ủy xã Bát Xát tổ chức ra mắt tại thôn Sơn Hà, chính thức trở thành thôn đầu tiên của địa phương triển khai mô hình “Thôn số”, đánh dấu bước tiến quan trọng trong hành trình đưa chuyển đổi số tới cộng đồng dân cư.

Xã Hợp Thành nâng cao tỷ lệ tích hợp thông tin thẻ BHYT vào Sổ sức khỏe điện tử

Xã Hợp Thành nâng cao tỷ lệ tích hợp thông tin thẻ BHYT vào Sổ sức khỏe điện tử

Xã Hợp Thành đã và đang đẩy mạnh chiến dịch tích hợp thông tin thẻ bảo hiểm y tế (BHYT) vào Sổ sức khỏe điện tử trên ứng dụng VNeID. Đây là nhiệm vụ quan trọng nhằm xây dựng nền tảng dữ liệu số thống nhất, tăng cường kết nối thông tin y tế. Việc ứng dụng công nghệ cũng giúp người dân được thụ hưởng các dịch vụ y tế hiện đại, thuận tiện, đồng thời góp phần nâng cao chất lượng phục vụ của chính quyền địa phương.

Đảng viên tiên phong trong tiến trình chuyển đổi số

Đảng viên tiên phong trong tiến trình chuyển đổi số

Trong tiến trình chuyển đổi số (CĐS), đội ngũ đảng viên trong toàn tỉnh giữ vai trò nòng cốt, gương mẫu trong việc học tập, rèn luyện và ứng dụng kỹ năng số vào thực tiễn công tác. Sự chủ động tiếp cận công nghệ, khai thác dữ liệu và sử dụng các nền tảng số không chỉ thể hiện tinh thần tiên phong mà còn góp phần thiết thực vào xây dựng chính quyền số, thúc đẩy CĐS toàn diện ngay từ cơ sở.

Những người "chép sử” thời đại số

Những người "chép sử” thời đại số

Thời gian qua, với tinh thần “Tuổi trẻ uống nước nhớ nguồn - viết tiếp bản hùng ca”, Đoàn Thanh niên xã Bảo Thắng đã triển khai hoạt động số hóa ký ức lịch sử, đưa lời kể của các cựu chiến binh về “thời hoa lửa” lan tỏa trên không gian mạng. Với cách làm sáng tạo, tuổi trẻ Bảo Thắng đã và đang góp phần lưu giữ giá trị lịch sử bằng phương thức hiện đại, trở thành những “người chép sử” của thời đại số.

Bình dân hoá AI

Bình dân hoá AI

Trí tuệ nhân tạo (AI) đang dần trở thành công cụ gần gũi, dễ tiếp cận với mọi người. Đây là một bước tiến của “bình dân hoá AI”, không chỉ hỗ trợ giáo dục, sinh hoạt và công việc, AI còn mở ra cơ hội sáng tạo, nâng cao năng lực và trải nghiệm cho cộng đồng.

Đào tạo kiến thức AI hình thành lực lượng “hạt nhân số”

Đào tạo kiến thức AI hình thành lực lượng “hạt nhân số”

Trong bối cảnh chuyển đổi số (CĐS) diễn ra mạnh mẽ, tỉnh Lào Cai đang đẩy mạnh trang bị kiến thức về trí tuệ nhân tạo (AI) cho đội ngũ cán bộ, hướng tới hình thành lực lượng nhân sự có tư duy số, kỹ năng số và năng lực làm việc trên nền tảng dữ liệu. Đây được xem là bước đi quan trọng giúp Lào Cai bắt nhịp với kỷ nguyên số, xây dựng nền hành chính hiện đại, hiệu quả và phục vụ người dân ngày càng tốt hơn.

Trường Cao đẳng Lào Cai tổ chức hội thảo "Chuyển đổi số và trí tuệ nhân tạo"

Trường Cao đẳng Lào Cai tổ chức hội thảo "Chuyển đổi số và trí tuệ nhân tạo"

Sáng 26/11, Trường Cao đẳng Lào Cai tổ chức Hội thảo chuyên đề “Chuyển đổi số và trí tuệ nhân tạo”. Tham gia hội thảo có hơn 200 đại biểu là chuyên gia, lãnh đạo các sở, ngành có liên quan; Hiệp hội Giáo dục nghề nghiệp và Nghề công tác xã hội; lãnh đạo, nhà giáo và sinh viên ngành công nghệ thông tin của Trường Cao đẳng Lào Cai, Trường Cao đẳng Nghề Yên Bái, Trường Cao đẳng Lai Châu...

Khu vực Megalive tại Hội chợ Thương mại Quốc tế Việt – Trung (Lào Cai).

Mở rộng không gian số cho hội chợ truyền thống

Chỉ trong 3 ngày phát sóng, khu vực Megalive tại Hội chợ Thương mại Quốc tế Việt - Trung (Lào Cai) đã xử lý trên 2.000 đơn hàng và thu hút hơn 2 triệu lượt xem trên các nền tảng Shopee và TikTok. Từ một góc nhỏ trong không gian hội chợ truyền thống đã mở ra không gian rộng lớn cho các doanh nghiệp tham gia hội chợ.

fb yt zl tw