Việt Nam phát triển bộ dữ liệu tiếng Việt dùng cho AI, trợ lý ảo

Dữ liệu tiếng Việt để đào tạo các mô hình AI hiện chỉ chiếm tỷ lệ rất nhỏ. Dự án ViGen tạo ra những bộ dữ liệu chất lượng cao để nâng cao khả năng sử dụng tiếng Việt của AI, trợ lý ảo.

Sáng 14/3, Trung tâm Đổi mới sáng tạo Quốc gia (NIC) đã khởi động Chương trình Thách thức Đổi mới sáng tạo 2025 với mục tiêu thúc đẩy phát triển lĩnh vực trí tuệ nhân tạo (AI) tại Việt Nam.

Chương trình Thách thức Đổi mới sáng tạo 2025 tập trung vào Dự án ViGen với nỗ lực tạo ra bộ dữ liệu tiếng Việt mã nguồn mở chất lượng cao để đào tạo, đánh giá, từ đó nâng cao hiệu quả của các mô hình ngôn ngữ lớn (LLMs).

Sự xuất hiện của bộ dữ liệu tiếng Việt nhằm giúp các mô hình AI hiểu rõ hơn văn hóa, bối cảnh và cách diễn đạt trong tiếng Việt. Dự án được kỳ vọng sẽ nâng cao sự hiện diện của tiếng Việt trong quá trình phát triển AI, đồng thời góp phần thúc đẩy kinh tế số.

3.jpg
Khởi động Chương trình Thách thức Đổi mới sáng tạo 2025 với mục tiêu thúc đẩy phát triển lĩnh vực trí tuệ nhân tạo (AI) tại Việt Nam.

Dự án ViGen khởi nguồn từ hợp tác ba bên giữa Tập đoàn Meta, NIC và tổ chức “AI for Vietnam”. Trong đó, Trung tâm Đổi mới sáng tạo Quốc gia đóng vai trò là đơn vị chủ quản, điều phối, bảo đảm dự án phù hợp với các mục tiêu quốc gia của Việt Nam.

Sứ mệnh của dự án ViGen là làm cho các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi để mở khoá tiềm năng các ứng dụng AI tại Việt nam.

ViGen sẽ xây dựng các bộ dữ liệu tiếng Việt nguồn mở với quy mô lớn và chất lượng cao để đào tạo và đánh giá khả năng của các mô hình AI.

Dự án ViGen cũng đóng góp vào việc đảm bảo sự phát triển AI ở Việt Nam phù hợp với giá trị văn hoá và tiêu chuẩn đạo đức, hướng tới việc xây dựng một hệ sinh thái AI mã nguồn mở phù hợp với bối cách địa phương và có trách nhiệm.

Nhằm hỗ trợ dự án, Meta sẽ đóng góp các bộ dữ liệu mã nguồn mở của mình, bao gồm những thông tin chi tiết về di chuyển và kết nối xã hội, cũng như dữ liệu đào tạo từ các bản đồ dân số có sự hỗ trợ của AI.

Theo ông Võ Xuân Hoài, Phó Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia, AI đang chuyển đổi thế giới. Do đó, việc phát triển các tập dữ liệu Việt Nam quy mô lớn, chất lượng cao và mã nguồn mở để đào tạo và đánh giá AI đã trở thành ưu tiên cấp bách.

Dự án ViGen phù hợp với Nghị quyết 57 của Bộ Chính trị nhằm thúc đẩy đột phá trong khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia. Với nỗ lực chung từ các nhà hoạch định chính sách, nhà nghiên cứu, nhà phát triển, chuyên gia và người dùng, chúng ta sẽ biến AI thành một công cụ mạnh mẽ cho mọi người Việt Nam và đưa Việt Nam trở thành cường quốc AI toàn cầu”, Phó Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia nhận định.

4.jpg
Ông Trần Việt Hùng, nhà sáng lập & CEO Tổ chức AI for Vietnam.

Tiếng Việt được sử dụng bởi hơn 100 triệu người, tuy nhiên dữ liệu tiếng Việt dùng để đào tạo các mô hình AI hiện chỉ chiếm một tỷ lệ rất nhỏ, chưa đến 1%. Đó là lý do đầu ra của các mô hình AI có giá trị thông tin nhưng chưa tự nhiên, chưa truyền tải hết giá trị của tiếng Việt, dẫn đến độ hữu dụng chưa cao, chưa hiệu quả.

Ông Trần Việt Hùng, nhà sáng lập & CEO Tổ chức AI for Vietnam, chia sẻ: “Dự án ViGen sẽ đóng góp cho cộng đồng những bộ dữ liệu lớn và chất lượng cao bằng tiếng Việt nhằm cải thiện hiện trạng tiếng Việt đang bị coi là một ngôn ngữ còn hiện diện hết sức khiêm tốn trong AI”.

Theo ông Trần Việt Hùng, dự án ViGen cũng cho thấy sức mạnh và giá trị của những mô hình mã nguồn mở như Llama, cho phép phát triển các giải pháp sáng tạo có tính đến ngữ cảnh của tiếng Việt.

Trên thực tế, tại Việt Nam, đã xuất hiện các trợ lý ảo của người Việt được phát triển dựa trên mô hình ngôn ngữ lớn Llama như trợ lý ảo tự động hóa việc truy xuất thông tin của Misa và trợ lý ảo pháp lý của Viettel. Đây là những ví dụ bước đầu cho thấy ứng dụng của AI trong đời sống người Việt, đặc biệt là ở trong khu vực công.

Theo vietnamnet.vn

Có thể bạn quan tâm

Tin cùng chuyên mục

Cứ 4 lao động Singapore thì có 3 người sử dụng AI

Cứ 4 lao động Singapore thì có 3 người sử dụng AI

Tại Singapore, cứ 4 người lao động thì có 3 người sử dụng công cụ trí tuệ nhân tạo (AI) trong công việc. Bộ trưởng Bộ Phát triển Kỹ thuật số và Thông tin Josephine Teo ngày 5/9 cho biết nhu cầu đối với lực lượng lao động vừa có chuyên môn sâu vừa thành thạo sử dụng AI ngày càng lớn.

Hạt giống vô tính hứa hẹn thay đổi nông nghiệp toàn cầu

Hạt giống vô tính hứa hẹn thay đổi nông nghiệp toàn cầu

Theo Nature, một thử nghiệm sắp diễn ra tại miền Đông Australia có thể mở ra kỷ nguyên mới cho nông nghiệp: những cây cao lương được chỉnh sửa gen để tự tạo ra hạt giống là bản sao di truyền của chính chúng, thay vì sinh sản hữu tính. Mỗi bông cây có thể cho ra hàng nghìn hạt “nhân bản”, giữ nguyên đặc tính của thế hệ trước.

Người già tiếp cận mạng xã hội

Người già tiếp cận mạng xã hội

Mạng xã hội, nếu được sử dụng đúng cách, không chỉ là công cụ để người cao tuổi “bắt kịp thời đại”, mà còn là nơi nuôi dưỡng tinh thần tích cực, tăng cường tương tác xã hội và kéo gần khoảng cách giữa các thế hệ. Khi người cao tuổi biết tự bảo vệ mình trước cạm bẫy công nghệ, mạng xã hội sẽ thực sự trở thành không gian lành mạnh, an toàn và nhiều giá trị.

Triển lãm "95 năm Cờ Đảng soi đường" công nghệ tương tác 3D xuất hiện trên không gian số

Triển lãm "95 năm Cờ Đảng soi đường" công nghệ tương tác 3D xuất hiện trên không gian số

Lần đầu tiên tại Việt Nam, một triển lãm số 3D Đảng được giới thiệu tới công chúng. Chỉ với vài thao tác, công chúng có thể “dạo bước” giữa những khung cảnh lịch sử, tương tác với các hiện vật như đang có mặt trực tiếp tại triển lãm, qua đó mở ra góc nhìn toàn diện về chặng đường 95 năm lịch sử vẻ vang của Đảng và dân tộc ta.

Đột phá trong kỷ nguyên số

Đột phá trong kỷ nguyên số

Khoa học công nghệ Việt Nam đang ghi dấu ấn mạnh mẽ với hàng loạt thành tựu về các các lĩnh vực trí tuệ nhân tạo, dữ liệu lớn, sinh học, năng lượng nguyên tử... tạo nền tảng thúc đẩy chuyển đổi số, nâng cao sức cạnh tranh quốc gia.

Tăng cường đảm bảo an toàn thông tin, an ninh mạng trong dịp nghỉ lễ 2/9

Công an tỉnh Lào Cai: Tăng cường đảm bảo an toàn thông tin, an ninh mạng trong dịp nghỉ lễ 2/9

Kỳ nghỉ lễ 2/9 hằng năm là thời điểm Lào Cai đón một lượng lớn người dân và du khách. Các hoạt động du lịch, mua sắm trực tuyến, giao dịch điện tử và trao đổi thông tin trên mạng xã hội trở nên sôi động hơn bao giờ hết. Đây cũng chính là khoảng thời gian mà các đối tượng xấu gia tăng hoạt động lừa đảo, tấn công mạng, phát tán thông tin xấu độc, gây mất an ninh trật tự trên không gian mạng.

Quân khu 2 kiểm tra công tác cải cách hành chính và chuyển đổi số tại Bộ CHQS tỉnh Lào Cai

Quân khu 2 kiểm tra công tác cải cách hành chính và chuyển đổi số tại Bộ CHQS tỉnh Lào Cai

Ngày 28/8, Đoàn công tác Quân khu 2 do Thiếu tướng Phạm Hùng Hưng - Phó Tư lệnh Quân khu 2, Phó Trưởng ban Thường trực Ban Chỉ đạo phát triển công nghệ, đổi mới sáng tạo, chuyển đổi số (CĐS), thực hiện Đề án 06 và cải cách hành chính (CCHC) Quân khu làm Trưởng đoàn đã kiểm tra công tác CCHC và CĐS tại Bộ CHQS tỉnh Lào Cai.

Công nghệ đánh thức di sản ở bảo tàng

Công nghệ đánh thức di sản ở bảo tàng

Không gian bảo tàng đang thay đổi mạnh mẽ nhờ sự hỗ trợ của công nghệ số. Từ những phòng trưng bày tĩnh, nay bảo tàng đã trở thành không gian tương tác sống động, đưa di sản đến gần hơn với công chúng, đặc biệt là giới trẻ.

fb yt zl tw