Việt Nam phát triển bộ dữ liệu tiếng Việt dùng cho AI, trợ lý ảo

Dữ liệu tiếng Việt để đào tạo các mô hình AI hiện chỉ chiếm tỷ lệ rất nhỏ. Dự án ViGen tạo ra những bộ dữ liệu chất lượng cao để nâng cao khả năng sử dụng tiếng Việt của AI, trợ lý ảo.

Sáng 14/3, Trung tâm Đổi mới sáng tạo Quốc gia (NIC) đã khởi động Chương trình Thách thức Đổi mới sáng tạo 2025 với mục tiêu thúc đẩy phát triển lĩnh vực trí tuệ nhân tạo (AI) tại Việt Nam.

Chương trình Thách thức Đổi mới sáng tạo 2025 tập trung vào Dự án ViGen với nỗ lực tạo ra bộ dữ liệu tiếng Việt mã nguồn mở chất lượng cao để đào tạo, đánh giá, từ đó nâng cao hiệu quả của các mô hình ngôn ngữ lớn (LLMs).

Sự xuất hiện của bộ dữ liệu tiếng Việt nhằm giúp các mô hình AI hiểu rõ hơn văn hóa, bối cảnh và cách diễn đạt trong tiếng Việt. Dự án được kỳ vọng sẽ nâng cao sự hiện diện của tiếng Việt trong quá trình phát triển AI, đồng thời góp phần thúc đẩy kinh tế số.

3.jpg
Khởi động Chương trình Thách thức Đổi mới sáng tạo 2025 với mục tiêu thúc đẩy phát triển lĩnh vực trí tuệ nhân tạo (AI) tại Việt Nam.

Dự án ViGen khởi nguồn từ hợp tác ba bên giữa Tập đoàn Meta, NIC và tổ chức “AI for Vietnam”. Trong đó, Trung tâm Đổi mới sáng tạo Quốc gia đóng vai trò là đơn vị chủ quản, điều phối, bảo đảm dự án phù hợp với các mục tiêu quốc gia của Việt Nam.

Sứ mệnh của dự án ViGen là làm cho các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi để mở khoá tiềm năng các ứng dụng AI tại Việt nam.

ViGen sẽ xây dựng các bộ dữ liệu tiếng Việt nguồn mở với quy mô lớn và chất lượng cao để đào tạo và đánh giá khả năng của các mô hình AI.

Dự án ViGen cũng đóng góp vào việc đảm bảo sự phát triển AI ở Việt Nam phù hợp với giá trị văn hoá và tiêu chuẩn đạo đức, hướng tới việc xây dựng một hệ sinh thái AI mã nguồn mở phù hợp với bối cách địa phương và có trách nhiệm.

Nhằm hỗ trợ dự án, Meta sẽ đóng góp các bộ dữ liệu mã nguồn mở của mình, bao gồm những thông tin chi tiết về di chuyển và kết nối xã hội, cũng như dữ liệu đào tạo từ các bản đồ dân số có sự hỗ trợ của AI.

Theo ông Võ Xuân Hoài, Phó Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia, AI đang chuyển đổi thế giới. Do đó, việc phát triển các tập dữ liệu Việt Nam quy mô lớn, chất lượng cao và mã nguồn mở để đào tạo và đánh giá AI đã trở thành ưu tiên cấp bách.

Dự án ViGen phù hợp với Nghị quyết 57 của Bộ Chính trị nhằm thúc đẩy đột phá trong khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia. Với nỗ lực chung từ các nhà hoạch định chính sách, nhà nghiên cứu, nhà phát triển, chuyên gia và người dùng, chúng ta sẽ biến AI thành một công cụ mạnh mẽ cho mọi người Việt Nam và đưa Việt Nam trở thành cường quốc AI toàn cầu”, Phó Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia nhận định.

4.jpg
Ông Trần Việt Hùng, nhà sáng lập & CEO Tổ chức AI for Vietnam.

Tiếng Việt được sử dụng bởi hơn 100 triệu người, tuy nhiên dữ liệu tiếng Việt dùng để đào tạo các mô hình AI hiện chỉ chiếm một tỷ lệ rất nhỏ, chưa đến 1%. Đó là lý do đầu ra của các mô hình AI có giá trị thông tin nhưng chưa tự nhiên, chưa truyền tải hết giá trị của tiếng Việt, dẫn đến độ hữu dụng chưa cao, chưa hiệu quả.

Ông Trần Việt Hùng, nhà sáng lập & CEO Tổ chức AI for Vietnam, chia sẻ: “Dự án ViGen sẽ đóng góp cho cộng đồng những bộ dữ liệu lớn và chất lượng cao bằng tiếng Việt nhằm cải thiện hiện trạng tiếng Việt đang bị coi là một ngôn ngữ còn hiện diện hết sức khiêm tốn trong AI”.

Theo ông Trần Việt Hùng, dự án ViGen cũng cho thấy sức mạnh và giá trị của những mô hình mã nguồn mở như Llama, cho phép phát triển các giải pháp sáng tạo có tính đến ngữ cảnh của tiếng Việt.

Trên thực tế, tại Việt Nam, đã xuất hiện các trợ lý ảo của người Việt được phát triển dựa trên mô hình ngôn ngữ lớn Llama như trợ lý ảo tự động hóa việc truy xuất thông tin của Misa và trợ lý ảo pháp lý của Viettel. Đây là những ví dụ bước đầu cho thấy ứng dụng của AI trong đời sống người Việt, đặc biệt là ở trong khu vực công.

Theo vietnamnet.vn

Có thể bạn quan tâm

Tin cùng chuyên mục

Doanh nghiệp nhà nước phải cùng đất nước tăng trưởng cao, bền vững

Doanh nghiệp nhà nước phải cùng đất nước tăng trưởng cao, bền vững

Kết luận Hội nghị Thủ tướng Chính phủ làm việc với doanh nghiệp nhà nước với chủ đề tiên phong trong chuyển đổi số và thúc đẩy tăng trưởng vào sáng 15/4, Thủ tướng Chính phủ Phạm Minh Chính khẳng định: Chính phủ luôn đồng hành, tạo điều kiện tốt nhất và sẵn sàng giải quyết các đề xuất, kiến nghị, tháo gỡ khó khăn để doanh nghiệp nhà nước phát triển nhanh, bền vững.

Bài cuối: Nền tảng dùng chung còn bất cập

Những rào cản trong chuyển đổi số ở cơ sở Bài cuối: Nền tảng dùng chung còn bất cập

Trong quá trình chuyển đổi số, nền tảng số đóng vai trò quan trọng tương tự như hạ tầng xây dựng cơ bản trong thế giới thực. Một nền tảng số thống nhất, kết nối toàn bộ hệ thống quản lý sẽ giúp chính quyền cấp xã hoạt động hiệu quả hơn, tiết kiệm chi phí và nâng cao chất lượng phục vụ người dân. Tuy nhiên, hiện nay, một trong những thách thức lớn trong chuyển đổi số cấp xã tại Lào Cai là chưa có một nền tảng dùng chung, khiến dữ liệu bị phân mảnh, công tác quản lý gặp nhiều khó khăn.

Chủ động khắc phục suy hao cáp quang, đảm bảo đường truyền ổn định

Xí nghiệp Lưới điện cao thế Lào Cai: Chủ động khắc phục suy hao cáp quang, đảm bảo đường truyền ổn định

Trong thời kỳ chuyển đổi số mạnh mẽ, hạ tầng truyền dẫn ổn định là yếu tố then chốt giúp ngành điện vận hành hiệu quả và nâng cao chất lượng dịch vụ. Nhận thức rõ điều đó, Xí nghiệp Lưới điện cao thế (LĐCT) Lào Cai - Công ty Điện lực Lào Cai đã và đang chủ động thực hiện các giải pháp kỹ thuật nhằm duy trì và nâng cao chất lượng hệ thống truyền dẫn cáp quang, đảm bảo kết nối thông suốt phục vụ sản xuất - kinh doanh và điều hành lưới điện.

Ứng dụng AI trong giảng dạy

Ứng dụng AI trong giảng dạy

Những năm gần đây, giáo dục Lào Cai đã có những bước tiến mạnh mẽ trong việc ứng dụng công nghệ, đặc biệt là trí tuệ nhân tạo (AI) vào giảng dạy. Tại nhiều trường học, AI không chỉ giúp giáo viên đổi mới phương pháp dạy học mà còn giúp học sinh tiếp cận kiến thức một cách trực quan, sinh động hơn. Nhờ các nền tảng học liệu số, công cụ tương tác thông minh và phần mềm hỗ trợ giảng dạy, nhiều tiết học đã trở nên hấp dẫn, kích thích sự sáng tạo và khả năng tự học của học sinh.

Bài 2: Kỹ năng của người dân và vấn đề đặt ra

Những rào cản trong chuyển đổi số ở cơ sở: Bài 2: Kỹ năng của người dân và vấn đề đặt ra

Chuyển đổi số không chỉ là nhiệm vụ của chính quyền hay doanh nghiệp mà còn cần sự tham gia của tất cả người dân. Tuy nhiên, đối với các địa phương vùng cao, vùng dân tộc thiểu số nơi có điều kiện kinh tế - xã hội, hạ tầng viễn thông còn nhiều khó khăn, việc nâng cao kiến thức, kỹ năng số cho người dân, giúp họ thích nghi với môi trường số, tiếp cận các dịch vụ công trực tuyến và kinh tế số vẫn đang là một thách thức lớn.

Bài 1: Nhân lực số - “nút thắt” ở cấp xã

Những rào cản trong chuyển đổi số ở cơ sở Bài 1: Nhân lực số - “nút thắt” ở cấp xã

Chuyển đổi số đang là nhiệm vụ cấp bách trong xây dựng chính quyền điện tử, hướng tới chính quyền số, kinh tế số và xã hội số, nhất là trong giai đoạn hiện nay khi Trung ương đang chủ trương sắp xếp tổ chức lại đơn vị hành chính các cấp và xây dựng mô hình tổ chức chính quyền địa phương 2 cấp. Tuy nhiên, một trong những thách thức lớn đối với các địa phương, đặc biệt là cấp xã tại Lào Cai, chính là nhân lực phục vụ cho công cuộc chuyển đổi số.

Lượng hóa một số khái niệm mới trong Nghị quyết số 57-NQ/TW

Lượng hóa một số khái niệm mới trong Nghị quyết số 57-NQ/TW

Nhằm đảm bảo việc thống nhất nhận thức và tổ chức triển khai, thực hiện hiệu quả Nghị quyết số 57-NQ/TW của Bộ Chính trị về đột phá phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia, Bộ Khoa học và Công nghệ vừa ban hành công văn số 562/BKHCN-VCL hướng dẫn làm rõ định nghĩa, nội hàm, lượng hóa một số khái niệm mới trong Nghị quyết số 57-NQ/TW.

Ra mắt kênh chính thức tiếp nhận các sản phẩm đổi mới sáng tạo

Ra mắt kênh chính thức tiếp nhận các sản phẩm đổi mới sáng tạo

Là kênh chính thức để tiếp nhận đề xuất các sản phẩm, giải pháp mới về công nghệ, chuyển đổi số, Cổng thông tin tiếp nhận và công bố các sản phẩm, giải pháp khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số được triển khai với kỳ vọng mang lại hiệu quả thiết thực cho các cơ quan, doanh nghiệp; giúp doanh nghiệp khẳng định năng lực công nghệ, tạo niềm tin với khách hàng và đối tác.

Ngăn "nhạc rác" trên nền tảng số

Ngăn "nhạc rác" trên nền tảng số

Những năm gần đây, sự bùng nổ của các nền tảng nhạc số như YouTube, TikTok… đã mở ra cơ hội lớn cho người sáng tác và phát hành nhạc. Tuy nhiên, song song với những sản phẩm âm nhạc chất lượng, nhạc "rác" cũng đang tràn lan, gây ra nhiều tranh cãi trong giới chuyên môn và người nghe nhạc.

Ứng dụng AI trong quản lý du lịch

Ứng dụng AI trong quản lý du lịch

Ngày 4/4, Sở Du lịch Hà Nội tổ chức hội nghị “Chia sẻ kinh nghiệm ứng dụng AI trong xử lý công việc chuyên môn” nhằm nâng cao năng lực số cho đội ngũ cán bộ, công chức, viên chức của Sở Du lịch thành phố Hà Nội trong sử dụng công nghệ, đặc biệt là ứng dụng AI trong công tác quản lý.

fb yt zl tw