Việt Nam phát triển bộ dữ liệu tiếng Việt dùng cho AI, trợ lý ảo

Dữ liệu tiếng Việt để đào tạo các mô hình AI hiện chỉ chiếm tỷ lệ rất nhỏ. Dự án ViGen tạo ra những bộ dữ liệu chất lượng cao để nâng cao khả năng sử dụng tiếng Việt của AI, trợ lý ảo.

Sáng 14/3, Trung tâm Đổi mới sáng tạo Quốc gia (NIC) đã khởi động Chương trình Thách thức Đổi mới sáng tạo 2025 với mục tiêu thúc đẩy phát triển lĩnh vực trí tuệ nhân tạo (AI) tại Việt Nam.

Chương trình Thách thức Đổi mới sáng tạo 2025 tập trung vào Dự án ViGen với nỗ lực tạo ra bộ dữ liệu tiếng Việt mã nguồn mở chất lượng cao để đào tạo, đánh giá, từ đó nâng cao hiệu quả của các mô hình ngôn ngữ lớn (LLMs).

Sự xuất hiện của bộ dữ liệu tiếng Việt nhằm giúp các mô hình AI hiểu rõ hơn văn hóa, bối cảnh và cách diễn đạt trong tiếng Việt. Dự án được kỳ vọng sẽ nâng cao sự hiện diện của tiếng Việt trong quá trình phát triển AI, đồng thời góp phần thúc đẩy kinh tế số.

3.jpg
Khởi động Chương trình Thách thức Đổi mới sáng tạo 2025 với mục tiêu thúc đẩy phát triển lĩnh vực trí tuệ nhân tạo (AI) tại Việt Nam.

Dự án ViGen khởi nguồn từ hợp tác ba bên giữa Tập đoàn Meta, NIC và tổ chức “AI for Vietnam”. Trong đó, Trung tâm Đổi mới sáng tạo Quốc gia đóng vai trò là đơn vị chủ quản, điều phối, bảo đảm dự án phù hợp với các mục tiêu quốc gia của Việt Nam.

Sứ mệnh của dự án ViGen là làm cho các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi để mở khoá tiềm năng các ứng dụng AI tại Việt nam.

ViGen sẽ xây dựng các bộ dữ liệu tiếng Việt nguồn mở với quy mô lớn và chất lượng cao để đào tạo và đánh giá khả năng của các mô hình AI.

Dự án ViGen cũng đóng góp vào việc đảm bảo sự phát triển AI ở Việt Nam phù hợp với giá trị văn hoá và tiêu chuẩn đạo đức, hướng tới việc xây dựng một hệ sinh thái AI mã nguồn mở phù hợp với bối cách địa phương và có trách nhiệm.

Nhằm hỗ trợ dự án, Meta sẽ đóng góp các bộ dữ liệu mã nguồn mở của mình, bao gồm những thông tin chi tiết về di chuyển và kết nối xã hội, cũng như dữ liệu đào tạo từ các bản đồ dân số có sự hỗ trợ của AI.

Theo ông Võ Xuân Hoài, Phó Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia, AI đang chuyển đổi thế giới. Do đó, việc phát triển các tập dữ liệu Việt Nam quy mô lớn, chất lượng cao và mã nguồn mở để đào tạo và đánh giá AI đã trở thành ưu tiên cấp bách.

Dự án ViGen phù hợp với Nghị quyết 57 của Bộ Chính trị nhằm thúc đẩy đột phá trong khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia. Với nỗ lực chung từ các nhà hoạch định chính sách, nhà nghiên cứu, nhà phát triển, chuyên gia và người dùng, chúng ta sẽ biến AI thành một công cụ mạnh mẽ cho mọi người Việt Nam và đưa Việt Nam trở thành cường quốc AI toàn cầu”, Phó Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia nhận định.

4.jpg
Ông Trần Việt Hùng, nhà sáng lập & CEO Tổ chức AI for Vietnam.

Tiếng Việt được sử dụng bởi hơn 100 triệu người, tuy nhiên dữ liệu tiếng Việt dùng để đào tạo các mô hình AI hiện chỉ chiếm một tỷ lệ rất nhỏ, chưa đến 1%. Đó là lý do đầu ra của các mô hình AI có giá trị thông tin nhưng chưa tự nhiên, chưa truyền tải hết giá trị của tiếng Việt, dẫn đến độ hữu dụng chưa cao, chưa hiệu quả.

Ông Trần Việt Hùng, nhà sáng lập & CEO Tổ chức AI for Vietnam, chia sẻ: “Dự án ViGen sẽ đóng góp cho cộng đồng những bộ dữ liệu lớn và chất lượng cao bằng tiếng Việt nhằm cải thiện hiện trạng tiếng Việt đang bị coi là một ngôn ngữ còn hiện diện hết sức khiêm tốn trong AI”.

Theo ông Trần Việt Hùng, dự án ViGen cũng cho thấy sức mạnh và giá trị của những mô hình mã nguồn mở như Llama, cho phép phát triển các giải pháp sáng tạo có tính đến ngữ cảnh của tiếng Việt.

Trên thực tế, tại Việt Nam, đã xuất hiện các trợ lý ảo của người Việt được phát triển dựa trên mô hình ngôn ngữ lớn Llama như trợ lý ảo tự động hóa việc truy xuất thông tin của Misa và trợ lý ảo pháp lý của Viettel. Đây là những ví dụ bước đầu cho thấy ứng dụng của AI trong đời sống người Việt, đặc biệt là ở trong khu vực công.

Theo vietnamnet.vn

Có thể bạn quan tâm

Tin cùng chuyên mục

Lào Cai không để hồ sơ trễ hạn trong lĩnh vực đất đai

Lào Cai không để hồ sơ trễ hạn trong lĩnh vực đất đai

Cải cách thủ tục hành chính, đặc biệt trong lĩnh vực đất đai, vốn được xem là lĩnh vực phức tạp, nhạy cảm luôn là nhiệm vụ trọng tâm nhằm nâng cao chất lượng phục vụ người dân và doanh nghiệp. Tại Lào Cai, với nhiều giải pháp đồng bộ, quyết liệt và hướng đến thực chất, ngành Nông nghiệp và Môi trường đang nỗ lực kiểm soát tiến độ, giảm tối đa hồ sơ trễ hạn, từng bước xây dựng nền hành chính chuyên nghiệp, minh bạch.

Hiệu quả từ số hóa hồ sơ, giấy tờ trong giải quyết thủ tục hành chính

Hiệu quả từ số hóa hồ sơ, giấy tờ trong giải quyết thủ tục hành chính

Trong tiến trình cải cách hành chính gắn với chuyển đổi số, việc số hóa hồ sơ, giấy tờ đang trở thành một trong những giải pháp trọng tâm, mang lại những chuyển biến rõ nét trong hoạt động của cơ quan nhà nước cũng như trải nghiệm của người dân. Quá trình số hóa hồ sơ trong tiếp nhận và giải quyết thủ tục hành chính (TTHC) cho thấy hiệu quả thiết thực, góp phần xây dựng nền hành chính hiện đại, minh bạch và phục vụ tốt hơn nhu cầu của người dân.

"Dòng họ số" trên đỉnh Suối Giàng

"Dòng họ số" trên đỉnh Suối Giàng

Từ những thao tác còn bỡ ngỡ ban đầu, đến nay, mỗi gia đình trong dòng họ Giàng ở Suối Giàng (xã Văn Chấn) không chỉ làm quen với công nghệ mà đã trở thành những “công dân số” thực thụ. Sự thay đổi ấy đang mở ra hướng đi mới trong phát triển kinh tế, gìn giữ bản sắc văn hóa và nâng cao chất lượng cuộc sống cho đồng bào nơi đây.

Di sản và tri thức trong hành trình số hóa nâng cao

Di sản và tri thức trong hành trình số hóa nâng cao

Sau giai đoạn đẩy mạnh số hóa dữ liệu, các thiết chế văn hóa, đặc biệt là bảo tàng và thư viện tỉnh đang bước sang giai đoạn chuyển đổi số nâng cao. Không gian trưng bày, tra cứu và trải nghiệm được mở rộng trên môi trường số, giúp di sản và tri thức đến với công chúng nhanh hơn, gần hơn và phù hợp với xu hướng tiếp cận hiện đại.

Tăng "lá chắn số" cho phụ nữ, trẻ em vùng cao

Tăng "lá chắn số" cho phụ nữ, trẻ em vùng cao

An toàn thông tin mạng đang trở thành vấn đề sát sườn với đời sống của phụ nữ, trẻ em và người dân vùng cao. Từ những buổi tập huấn cụ thể, kiến thức pháp luật đang được “đưa tận tay” người dân, giúp họ chủ động bảo vệ mình trước các rủi ro trên không gian mạng.

Ứng dụng trí tuệ nhân tạo và dữ liệu lớn: Động lực đột phá trong cảnh báo thiên tai

Ứng dụng trí tuệ nhân tạo và dữ liệu lớn: Động lực đột phá trong cảnh báo thiên tai

Thiên tai ngày càng cực đoan, khó lường đang đặt ra yêu cầu cấp bách phải đổi mới phương thức dự báo, cảnh báo. Trong bối cảnh đó, công nghệ số, đặc biệt là trí tuệ nhân tạo (AI) và dữ liệu lớn, trở thành động lực đột phá giúp nâng cao năng lực ứng phó, giảm thiểu thiệt hại.

Nơi nông sản địa phương khẳng định thương hiệu

Nơi nông sản địa phương khẳng định thương hiệu

Xuất phát từ thực tế nhiều nông sản địa phương có chất lượng tốt nhưng còn hạn chế trong tìm kiếm đầu ra và tiếp cận thị trường, mô hình “Chợ khởi nghiệp Online” do Câu lạc bộ Đầu tư và Khởi nghiệp Lào Cai khởi xướng đã ra đời, trở thành kênh kết nối hiệu quả trên nền tảng số. Không chỉ mở rộng thị trường, mô hình còn góp phần nâng cao kỹ năng kinh doanh, từng bước xây dựng hệ sinh thái hỗ trợ, đưa nông sản địa phương vươn xa.

Chuyển đổi số nâng cao chất lượng công tác kiểm sát

Chuyển đổi số nâng cao chất lượng công tác kiểm sát

Thực hiện Nghị quyết 57 của Bộ Chính trị về đẩy mạnh chuyển đổi số quốc gia và Kế hoạch 226 của Viện Kiểm sát nhân dân tối cao, Viện Kiểm sát nhân dân khu vực 4, tỉnh Lào Cai đang từng bước đưa công nghệ số vào hoạt động chuyên môn. Từ số hóa hồ sơ, quản lý dữ liệu nghiệp vụ đến ứng dụng phần mềm hỗ trợ kiểm sát hoạt động tư pháp, chuyển đổi số đã giúp cán bộ, kiểm sát viên xử lý công việc nhanh hơn, chính xác và minh bạch hơn.

fb yt zl tw