Việt Nam phát triển thành công phần mềm dịch ngôn ngữ hiếm khu vực Đông Nam Á

Viện Công nghệ thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam cho biết, các nhà khoa học đã thành công trong việc ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến để xây dựng các mô hình dịch máy tự động có chất lượng cao cho các cặp ngôn ngữ như Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia.

Dịch máy (hay còn gọi là dịch tự động) là việc dịch một văn bản từ một ngôn ngữ này (ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch. Hiện nay có nhiều sản phẩm dịch tự động được sử dụng phổ biến như Google Translate, Bing Translator… với chất lượng dịch rất tốt cho các câu đơn. Tuy nhiên, các hệ thống dịch máy chất lượng cao này cần các bộ dữ liệu song ngữ quy mô lớn, lên tới hàng triệu cặp câu để huấn luyện mô hình.

Theo PGS.TS Nguyễn Trường Thắng - Viện trưởng Viện Công nghệ thông tin, Viện Hàn lâm KH&CN Việt Nam, hiện rất nhiều ngôn ngữ trên thế giới không có đủ tài nguyên như vậy. Việc xây dựng mô hình dịch máy hiệu quả cho những ngôn ngữ nghèo tài nguyên, trong đó có các ngôn ngữ của khu vực Đông Nam Á là công việc hết sức cấp thiết và gặp nhiều thách thức.

Cũng theo PGS.TS Nguyễn Trường Thắng, để khắc phục các tồn tại này, nhóm các nhà nghiên cứu tại Viện Công nghệ thông tin (CNTT) đã phát triển một hệ thống dịch thuật lấy tiếng Việt làm trung tâm, có khả năng dịch thuật hai chiều giữa tiếng Việt và các ngôn ngữ nghèo tài nguyên của khu vực Đông Nam Á với chất lượng tương đương với các sản phẩm thương mại nổi tiếng trên thế giới.

"Chúng tôi định hướng những ngôn ngữ hiếm như tiếng Lào, tiếng Khmer… và sau này là những ngôn ngữ của các dân tộc thiểu số của Việt Nam là tiếng Mường, tiếng Thái… Vì đây là những ngôn ngữ mà nước ngoài không bao giờ làm, và nếu họ có làm thì họ cũng không hiểu đặc thù ngôn ngữ của Việt Nam, mà hiện nay cũng đã có một số đối tác quan tâm. Chúng ta lựa chọn hướng đi là nội địa hóa, nhưng phù hợp với năng lực và hướng đi của chúng ta", PGS.TS Nguyễn Trường Thắng cho biết.

Tính đến thời điểm hiện tại, hệ thống đã có khả năng dịch hai chiều giữa các cặp ngôn ngữ bao gồm Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia. Nhóm nghiên cứu cũng cho biết, hệ thống được nghiên cứu phát triển dựa trên các tiến bộ mới nhất hiện nay trên thế giới trong lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và dịch máy nói riêng. Các ngôn ngữ như tiếng Lào, tiếng Thái và tiếng Khmer mang lại những thách thức rất lớn khi xây dựng mô hình dịch máy, không chỉ vì sự khan hiếm của dữ liệu song ngữ mà còn vì những ngôn ngữ này rất phong phú về mặt hình thái, thiếu sự phân tách từ, phân tách câu và tính đa nghĩa. Tuy nhiên, mô hình dịch máy của Viện CNTT đã học được cách thích ứng với tất cả những đặc điểm đặc biệt này.

PGS.TS Chu Hoàng Hà - Phó Chủ tịch Viện Hàn lâm KH&CN Việt Nam nói: "Chúng ta có thể tạo ra những phần mềm dịch thuật rất chính xác với những ngôn ngữ của các dân tộc ASEAN và cũng có thể là ngôn ngữ của các dân tộc Việt Nam nữa, từ đó giúp cho việc giao tiếp thuận lợi hơn. Đặc biệt với sự áp dụng của mô hình ngôn ngữ lớn thì giúp cho việc dịch thuật chính xác hơn nhiều, giúp cho các hoạt động trao đổi, giao tiếp, ngoại giao".

Các nhà khoa học cũng cho biết, hệ thống dịch máy có thể dễ dàng mở rộng sang các ngôn ngữ đích mới bao gồm các ngôn ngữ dân tộc thiểu số tại Việt Nam (thường là rất nghèo tài nguyên dữ liệu) như tiếng Mường, tiếng Thái,… và cả các ngôn ngữ nước ngoài phổ biến như tiếng Trung, tiếng Pháp, tiếng Nga khi cần. Đặc biệt, hệ thống có khả năng tinh chỉnh để thích ứng với các miền ngôn ngữ chuyên sâu như y tế, luật… theo yêu cầu riêng của đối tác.

Có thể bạn quan tâm

Tin cùng chuyên mục

Năm 2026, tiếp tục thực hiện có hiệu quả các chương trình, chính sách an sinh xã hội

Năm 2026, tiếp tục thực hiện có hiệu quả các chương trình, chính sách an sinh xã hội

Để thu nhập bình quân đầu người năm 2026 tiếp tục tăng, đời sống dân cư được cải thiện, Chính phủ và chính quyền địa phương các cấp cần tiếp tục thực hiện có hiệu quả các chương trình, chính sách an sinh xã hội; nâng cao chất lượng và tạo việc làm cho người lao động...

Chủ tịch nước tặng thưởng Huân chương Dũng cảm cho “người hùng” hồ Thác Bà

Chủ tịch nước tặng thưởng Huân chương Dũng cảm cho “người hùng” hồ Thác Bà

Ngày 04/3/2026, Chủ tịch nước đã ký Quyết định số 237/QĐ - CTN về việc tặng thưởng Huân chương Dũng cảm cho ông Hà Ngọc Sơn (trú tại thôn Trung Sơn, xã Bảo Ái, tỉnh Lào Cai), vì đã có thành tích đặc biệt xuất sắc, dũng cảm cứu người trong vụ tai nạn giao thông đường thủy trên hồ Thác Bà.

Tiêu dùng thực phẩm mất cân đối dinh dưỡng, người Việt đang gánh bệnh tật kép

Tiêu dùng thực phẩm mất cân đối dinh dưỡng, người Việt đang gánh bệnh tật kép

Khi thực phẩm giàu năng lượng, nhiều muối, đường; thực phẩm đóng gói, chế biến sẵn trở nên phổ biến, nguy cơ mắc bệnh tim mạch, đái tháo đường và các bệnh mạn tính khác đang gia tăng, đặt ra yêu cầu cấp thiết phải điều chỉnh hành vi dinh dưỡng ngay từ sớm để hạn chế gánh nặng “bệnh tật kép”.

Ông Khang A Chu, Bí thư chi bộ thôn Chế Cu Nha (thứ 2, trái sang) trao đổi với các đảng viên dòng họ Khang.

Mù Cang Chải: Hiệu quả mô hình dòng họ tự quản

Dòng họ Khang ở thôn Chế Cu Nha, xã Mù Cang Chải có 74 hộ, trên 350 nhân khẩu. Thực hiện mô hình “Dòng họ tự quản về an ninh trật tự xã hội”, 100% gia đình trong họ đã thực hiện tốt chủ trương của Đảng, chính sách, pháp luật của Nhà nước; không có người mắc tệ nạn xã hội, vi phạm pháp luật… Từ hiệu quả đó, Ủy ban Mặt trận Tổ quốc Việt Nam xã tiếp tục lựa chọn là mô hình “Dân vận khéo” lan tỏa tới các dòng họ trên địa bàn, góp phần xây dựng nông thôn mới.

131 loại mỹ phẩm bị thu hồi trên toàn quốc

131 loại mỹ phẩm bị thu hồi trên toàn quốc

Cục Quản lý Dược (Bộ Y tế) vừa yêu cầu đình chỉ lưu hành, thu hồi 131 sản phẩm mỹ phẩm do Công ty cổ phần sản xuất mỹ phẩm Vincos Việt Nam sản xuất vì cơ sở này không đáp ứng các điều kiện sản xuất mỹ phẩm theo quy định.

149 trường THPT được ĐHQG TP Hồ Chí Minh ưu tiên xét tuyển từ năm 2026

149 trường THPT được ĐHQG TP Hồ Chí Minh ưu tiên xét tuyển từ năm 2026

Từ năm 2026, Đại học Quốc gia TP Hồ Chí Minh (ĐHQG TP Hồ Chí Minh) triển khai phương thức xét tuyển tổng hợp thống nhất trong toàn hệ thống và áp dụng chính sách ưu tiên xét tuyển đối với học sinh đến từ 149 trường THPT trên cả nước. Chính sách này sẽ duy trì trong giai đoạn 2026 - 2028 và điều chỉnh từ năm 2029.

Sôi nổi các hoạt động khởi động Tháng Thanh niên và Tháng 3 Biên giới năm 2026 tại xã Mường Khương

Sôi nổi các hoạt động khởi động Tháng Thanh niên và Tháng 3 Biên giới năm 2026 tại xã Mường Khương

Chiều 03/3/2026, tại Trường Phổ thông Dân tộc bán trú TH&THCS Nấm Lư xã Mường Khương, Ban Thường vụ Tỉnh đoàn, Ban Thư ký Hội LHTN Việt Nam tỉnh Lào Cai tổ chức Chương trình khởi động Tháng Thanh niên và Tháng 3 Biên giới cấp tỉnh năm 2026. Đây là hoạt động thiết thực chào mừng kỷ niệm 95 năm Ngày thành lập Đoàn TNCS Hồ Chí Minh (26/3/1931 - 26/3/2026).

Chọn ngành thời AI: "Vùng an toàn" nằm ở năng lực thích ứng

Chọn ngành thời AI: "Vùng an toàn" nằm ở năng lực thích ứng

Sự bùng nổ của trí tuệ nhân tạo (AI) đang làm thay đổi cách con người học tập, làm việc và định hình tương lai nghề nghiệp. Không ít học sinh đặt câu hỏi: Liệu có ngành học nào thật sự “an toàn” khi công nghệ có thể thay thế nhiều công việc của con người? Từ góc nhìn của các giảng viên, chuyên gia giáo dục, câu trả lời không nằm ở việc né tránh AI, mà ở việc hiểu đúng vai trò của công nghệ và chuẩn bị năng lực thích ứng dài hạn.

fb yt zl tw