Việt Nam phát triển thành công phần mềm dịch ngôn ngữ hiếm khu vực Đông Nam Á

Viện Công nghệ thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam cho biết, các nhà khoa học đã thành công trong việc ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến để xây dựng các mô hình dịch máy tự động có chất lượng cao cho các cặp ngôn ngữ như Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia.

Dịch máy (hay còn gọi là dịch tự động) là việc dịch một văn bản từ một ngôn ngữ này (ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch. Hiện nay có nhiều sản phẩm dịch tự động được sử dụng phổ biến như Google Translate, Bing Translator… với chất lượng dịch rất tốt cho các câu đơn. Tuy nhiên, các hệ thống dịch máy chất lượng cao này cần các bộ dữ liệu song ngữ quy mô lớn, lên tới hàng triệu cặp câu để huấn luyện mô hình.

Theo PGS.TS Nguyễn Trường Thắng - Viện trưởng Viện Công nghệ thông tin, Viện Hàn lâm KH&CN Việt Nam, hiện rất nhiều ngôn ngữ trên thế giới không có đủ tài nguyên như vậy. Việc xây dựng mô hình dịch máy hiệu quả cho những ngôn ngữ nghèo tài nguyên, trong đó có các ngôn ngữ của khu vực Đông Nam Á là công việc hết sức cấp thiết và gặp nhiều thách thức.

Cũng theo PGS.TS Nguyễn Trường Thắng, để khắc phục các tồn tại này, nhóm các nhà nghiên cứu tại Viện Công nghệ thông tin (CNTT) đã phát triển một hệ thống dịch thuật lấy tiếng Việt làm trung tâm, có khả năng dịch thuật hai chiều giữa tiếng Việt và các ngôn ngữ nghèo tài nguyên của khu vực Đông Nam Á với chất lượng tương đương với các sản phẩm thương mại nổi tiếng trên thế giới.

"Chúng tôi định hướng những ngôn ngữ hiếm như tiếng Lào, tiếng Khmer… và sau này là những ngôn ngữ của các dân tộc thiểu số của Việt Nam là tiếng Mường, tiếng Thái… Vì đây là những ngôn ngữ mà nước ngoài không bao giờ làm, và nếu họ có làm thì họ cũng không hiểu đặc thù ngôn ngữ của Việt Nam, mà hiện nay cũng đã có một số đối tác quan tâm. Chúng ta lựa chọn hướng đi là nội địa hóa, nhưng phù hợp với năng lực và hướng đi của chúng ta", PGS.TS Nguyễn Trường Thắng cho biết.

Tính đến thời điểm hiện tại, hệ thống đã có khả năng dịch hai chiều giữa các cặp ngôn ngữ bao gồm Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia. Nhóm nghiên cứu cũng cho biết, hệ thống được nghiên cứu phát triển dựa trên các tiến bộ mới nhất hiện nay trên thế giới trong lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và dịch máy nói riêng. Các ngôn ngữ như tiếng Lào, tiếng Thái và tiếng Khmer mang lại những thách thức rất lớn khi xây dựng mô hình dịch máy, không chỉ vì sự khan hiếm của dữ liệu song ngữ mà còn vì những ngôn ngữ này rất phong phú về mặt hình thái, thiếu sự phân tách từ, phân tách câu và tính đa nghĩa. Tuy nhiên, mô hình dịch máy của Viện CNTT đã học được cách thích ứng với tất cả những đặc điểm đặc biệt này.

PGS.TS Chu Hoàng Hà - Phó Chủ tịch Viện Hàn lâm KH&CN Việt Nam nói: "Chúng ta có thể tạo ra những phần mềm dịch thuật rất chính xác với những ngôn ngữ của các dân tộc ASEAN và cũng có thể là ngôn ngữ của các dân tộc Việt Nam nữa, từ đó giúp cho việc giao tiếp thuận lợi hơn. Đặc biệt với sự áp dụng của mô hình ngôn ngữ lớn thì giúp cho việc dịch thuật chính xác hơn nhiều, giúp cho các hoạt động trao đổi, giao tiếp, ngoại giao".

Các nhà khoa học cũng cho biết, hệ thống dịch máy có thể dễ dàng mở rộng sang các ngôn ngữ đích mới bao gồm các ngôn ngữ dân tộc thiểu số tại Việt Nam (thường là rất nghèo tài nguyên dữ liệu) như tiếng Mường, tiếng Thái,… và cả các ngôn ngữ nước ngoài phổ biến như tiếng Trung, tiếng Pháp, tiếng Nga khi cần. Đặc biệt, hệ thống có khả năng tinh chỉnh để thích ứng với các miền ngôn ngữ chuyên sâu như y tế, luật… theo yêu cầu riêng của đối tác.

Có thể bạn quan tâm

Tin cùng chuyên mục

Vườn quýt ngọt trên núi đá Bản Xèo

Vườn quýt ngọt trên núi đá Bản Xèo

Trước đây, ít ai nghĩ vùng đất dốc đầy đá sỏi tại thôn Cửa Cải, xã Mường Vi cũ (nay là xã Bản Xèo) lại có thể trồng được quýt. Thế nhưng, chàng trai người Giáy Vàng Văn Dũng đã "bắt" đá núi phải nhường chỗ, biến hơn 1 ha đồi đá sỏi thành vườn quýt trĩu quả. Nhờ mô hình vườn quýt kết hợp với du lịch, gia đình anh Dũng đã có cuộc sống ngày càng ấm no.

Yêu thương từ mẹ, nghị lực cho con

Yêu thương từ mẹ, nghị lực cho con

Chương trình “Mẹ đỡ đầu” hỗ trợ chăm sóc, nuôi dưỡng trẻ mồ côi có hoàn cảnh đặc biệt khó khăn được Trung ương Hội Liên hiệp Phụ nữ Việt Nam phát động từ cuối năm 2021 và Hội Phụ nữ Bộ Công an triển khai từ đầu năm 2022. Hưởng ứng chương trình, những năm qua, Hội Phụ nữ (nay là Ban Phụ nữ) Công an tỉnh Lào Cai đã nhận đỡ đầu nhiều trẻ mồ côi, chăm lo cho các em bằng trách nhiệm và tình yêu thương như những người mẹ thực sự, giúp các em có thêm nghị lực để vượt lên khó khăn.

Bài học về độc lập, yêu nước và trách nhiệm bảo vệ Tổ quốc

Bài học về độc lập, yêu nước và trách nhiệm bảo vệ Tổ quốc

Những ký ức về thời chiến đầy gian khổ cùng sự hy sinh to lớn của các thế hệ cha anh chưa bao giờ phai nhạt trong tâm trí người Việt. Với thế hệ trẻ hôm nay, đó không chỉ là những trang sử cũ, mà còn là bài học sống động về lòng yêu nước, tinh thần đoàn kết và ý thức trách nhiệm trong bảo vệ Tổ quốc. Từ những ký ức thiêng liêng ấy, ngọn lửa độc lập và khát vọng cống hiến tiếp tục được hun đúc và lan tỏa mạnh mẽ qua từng thế hệ.

 “Hoa núi” trong kỷ nguyên số

“Hoa núi” trong kỷ nguyên số

Ở bản làng vùng cao Lào Cai, phụ nữ Mông đang từng bước thay đổi cuộc sống bằng kinh tế số. Từ bán nông sản online, ứng dụng công nghệ vào sản xuất thổ cẩm, đến làm du lịch cộng đồng qua mạng xã hội, họ chứng minh rằng dù ở nơi xa xôi nhất, cơ hội vẫn mở ra cho những ai biết nắm bắt thời đại.

Khao Mang: Khánh thành Điểm trường Mầm non Háng Á

Khao Mang: Khánh thành Điểm trường Mầm non Háng Á

Ngày 6/12, Ngân hàng TMCP Ngoại thương Việt Nam (Vietcombank) cùng các nhà tài trợ phối hợp với UBND xã Khao Mang tổ chức Lễ khánh thành Điểm trường Mầm non Háng Á. Công trình mang ý nghĩa nhân văn sâu sắc, góp phần nâng cao chất lượng giáo dục mầm non tại thôn đặc biệt khó khăn của xã.

Những thay đổi quan trọng về các chế độ hưởng Bảo hiểm thất nghiệp từ năm 2026 cần lưu ý

Những thay đổi quan trọng về các chế độ hưởng Bảo hiểm thất nghiệp từ năm 2026 cần lưu ý

Luật Việc làm năm 2025 có hiệu lực từ ngày 1/1/2026, mang đến những thay đổi lớn trong chính sách bảo hiểm thất nghiệp (BHTN). Các quy định mới tập trung vào giải pháp phòng ngừa thất nghiệp và linh hoạt các chế độ hưởng nhằm bảo vệ tốt hơn quyền lợi của người lao động.

Hiệu quả phân cấp

Hiệu quả phân cấp

Từ khi vận hành mô hình chính quyền địa phương hai cấp từ ngày 1/7/2025, xã Cốc San đang có thay đổi rõ rệt: phân cấp “rõ việc, rõ người, rõ thời hạn” giúp thủ tục hành chính được giải quyết nhanh và chính xác hơn. Hồ sơ được số hóa, người dân có thể tra cứu trạng thái trực tuyến hoặc tại Trung tâm Phục vụ hành chính công; những việc vượt thẩm quyền được chuyển cấp trên đúng quy định và có thời hạn xử lý.

fb yt zl tw