Việt Nam phát triển thành công phần mềm dịch ngôn ngữ hiếm khu vực Đông Nam Á

Viện Công nghệ thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam cho biết, các nhà khoa học đã thành công trong việc ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến để xây dựng các mô hình dịch máy tự động có chất lượng cao cho các cặp ngôn ngữ như Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia.

Dịch máy (hay còn gọi là dịch tự động) là việc dịch một văn bản từ một ngôn ngữ này (ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch. Hiện nay có nhiều sản phẩm dịch tự động được sử dụng phổ biến như Google Translate, Bing Translator… với chất lượng dịch rất tốt cho các câu đơn. Tuy nhiên, các hệ thống dịch máy chất lượng cao này cần các bộ dữ liệu song ngữ quy mô lớn, lên tới hàng triệu cặp câu để huấn luyện mô hình.

Theo PGS.TS Nguyễn Trường Thắng - Viện trưởng Viện Công nghệ thông tin, Viện Hàn lâm KH&CN Việt Nam, hiện rất nhiều ngôn ngữ trên thế giới không có đủ tài nguyên như vậy. Việc xây dựng mô hình dịch máy hiệu quả cho những ngôn ngữ nghèo tài nguyên, trong đó có các ngôn ngữ của khu vực Đông Nam Á là công việc hết sức cấp thiết và gặp nhiều thách thức.

Cũng theo PGS.TS Nguyễn Trường Thắng, để khắc phục các tồn tại này, nhóm các nhà nghiên cứu tại Viện Công nghệ thông tin (CNTT) đã phát triển một hệ thống dịch thuật lấy tiếng Việt làm trung tâm, có khả năng dịch thuật hai chiều giữa tiếng Việt và các ngôn ngữ nghèo tài nguyên của khu vực Đông Nam Á với chất lượng tương đương với các sản phẩm thương mại nổi tiếng trên thế giới.

"Chúng tôi định hướng những ngôn ngữ hiếm như tiếng Lào, tiếng Khmer… và sau này là những ngôn ngữ của các dân tộc thiểu số của Việt Nam là tiếng Mường, tiếng Thái… Vì đây là những ngôn ngữ mà nước ngoài không bao giờ làm, và nếu họ có làm thì họ cũng không hiểu đặc thù ngôn ngữ của Việt Nam, mà hiện nay cũng đã có một số đối tác quan tâm. Chúng ta lựa chọn hướng đi là nội địa hóa, nhưng phù hợp với năng lực và hướng đi của chúng ta", PGS.TS Nguyễn Trường Thắng cho biết.

Tính đến thời điểm hiện tại, hệ thống đã có khả năng dịch hai chiều giữa các cặp ngôn ngữ bao gồm Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia. Nhóm nghiên cứu cũng cho biết, hệ thống được nghiên cứu phát triển dựa trên các tiến bộ mới nhất hiện nay trên thế giới trong lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và dịch máy nói riêng. Các ngôn ngữ như tiếng Lào, tiếng Thái và tiếng Khmer mang lại những thách thức rất lớn khi xây dựng mô hình dịch máy, không chỉ vì sự khan hiếm của dữ liệu song ngữ mà còn vì những ngôn ngữ này rất phong phú về mặt hình thái, thiếu sự phân tách từ, phân tách câu và tính đa nghĩa. Tuy nhiên, mô hình dịch máy của Viện CNTT đã học được cách thích ứng với tất cả những đặc điểm đặc biệt này.

PGS.TS Chu Hoàng Hà - Phó Chủ tịch Viện Hàn lâm KH&CN Việt Nam nói: "Chúng ta có thể tạo ra những phần mềm dịch thuật rất chính xác với những ngôn ngữ của các dân tộc ASEAN và cũng có thể là ngôn ngữ của các dân tộc Việt Nam nữa, từ đó giúp cho việc giao tiếp thuận lợi hơn. Đặc biệt với sự áp dụng của mô hình ngôn ngữ lớn thì giúp cho việc dịch thuật chính xác hơn nhiều, giúp cho các hoạt động trao đổi, giao tiếp, ngoại giao".

Các nhà khoa học cũng cho biết, hệ thống dịch máy có thể dễ dàng mở rộng sang các ngôn ngữ đích mới bao gồm các ngôn ngữ dân tộc thiểu số tại Việt Nam (thường là rất nghèo tài nguyên dữ liệu) như tiếng Mường, tiếng Thái,… và cả các ngôn ngữ nước ngoài phổ biến như tiếng Trung, tiếng Pháp, tiếng Nga khi cần. Đặc biệt, hệ thống có khả năng tinh chỉnh để thích ứng với các miền ngôn ngữ chuyên sâu như y tế, luật… theo yêu cầu riêng của đối tác.

Có thể bạn quan tâm

Tin cùng chuyên mục

Lào Cai hỗ trợ mua thẻ bảo hiểm y tế cho người cao tuổi và người dân tộc thiểu số

Lào Cai hỗ trợ mua thẻ bảo hiểm y tế cho người cao tuổi và người dân tộc thiểu số

Ngày 09/12/2025, Hội đồng nhân dân tỉnh Lào Cai ban hành Nghị quyết số 23 quy định chính sách hỗ trợ mua thẻ bảo hiểm y tế cho một số nhóm đối tượng trên địa bàn tỉnh, góp phần mở rộng diện bao phủ bảo hiểm y tế, bảo đảm an sinh xã hội. Nghị quyết có hiệu lực thi hành từ ngày 01/01/2026.

Cấp phát tiền mặt hỗ trợ sinh kế cho người dân bị ảnh hưởng bởi thiên tai

Cấp phát tiền mặt hỗ trợ sinh kế cho người dân bị ảnh hưởng bởi thiên tai

Trong 3 ngày, từ 23 - 25/12/2025, Hội Chữ thập đỏ tỉnh Lào Cai tổ chức cấp phát tiền mặt có điều kiện đợt 1 cho các hộ hưởng lợi từ dự án "Lời kêu gọi khẩn cấp để khắc phục hậu quả, ứng phó, phục hồi và tái thiết sau cơn bão số 3 và hoàn lưu sau bão năm 2024" giai đoạn 2, do Hiệp hội Chữ thập đỏ và Trăng lưỡi liềm đỏ quốc tế viện trợ không hoàn lại.

Lào Cai: Phối hợp 3 ngày đêm xác minh, giúp gia đình nhận lại con gái đi lạc

Lào Cai: Phối hợp 3 ngày đêm xác minh, giúp gia đình nhận lại con gái đi lạc

Sau 3 ngày đêm khẩn trương xác minh, tìm kiếm thông tin trên Cơ sở dữ liệu quốc gia về dân cư và các kênh nghiệp vụ, Công an xã Bát Xát phối hợp với Phòng Cảnh sát quản lý hành chính về trật tự xã hội, Công an tỉnh Lào Cai và Trung tâm Công tác xã hội và Bảo trợ xã hội số 2 tỉnh đã giúp một gia đình tại tỉnh Ninh Bình tìm lại con gái đi lạc.

Nhiều kết quả trong giảm nghèo tại phường Trung Tâm

Nhiều kết quả trong giảm nghèo tại phường Trung Tâm

Năm 2025, phường Trung Tâm đã triển khai đồng bộ, hiệu quả công tác rà soát hộ nghèo, hộ cận nghèo; xác định hộ làm nông, lâm, ngư nghiệp có mức sống trung bình và người lao động có thu nhập thấp trên địa bàn để xây dựng kế hoạch giảm nghèo phù hợp.

Lào Cai: Các trường học sôi nổi các hoạt động nhân Ngày thành lập Quân đội nhân dân Việt Nam

Lào Cai: Các trường học sôi nổi các hoạt động nhân Ngày thành lập Quân đội nhân dân Việt Nam


Nhân dịp kỷ niệm 81 năm Ngày thành lập Quân đội nhân dân Việt Nam (22/12/1944 – 22/12/2025), nhiều hoạt động ý nghĩa cho học sinh đã được các trường học các cấp trên địa bàn tỉnh triển khai sôi nổi, góp phần lan tỏa tinh thần yêu nước, lòng tự hào, biết ơn thế hệ cha ông đã hi sinh tuổi thanh xuân, xương máu vì nền độc lập, tự do của dân tộc.

Thuốc giả, thuốc kém chất lượng - Thách thức lớn của thị trường dược Việt Nam

Thuốc giả, thuốc kém chất lượng - Thách thức lớn của thị trường dược Việt Nam

Thị trường dược được dự báo tăng trưởng mạnh, quy mô ước vượt 7 tỷ USD vào năm 2025. Tuy nhiên, ngành này vẫn đối mặt nhiều thách thức khi phụ thuộc lớn vào nguyên liệu nhập khẩu, thiếu nhân lực chất lượng cao, trong khi áp lực kiểm soát thuốc giả, thuốc kém chất lượng và sản phẩm trá hình ngày càng gia tăng.

Nguyên tắc sắp xếp, sáp nhập trường lớp của tỉnh Lào Cai

Nguyên tắc sắp xếp, sáp nhập trường lớp của tỉnh Lào Cai

Liên quan đến sự việc nhiều học sinh tại xã Bản Hồ nghỉ học do lo ngại về việc sáp nhập trường lớp, phóng viên (PV) Báo và Phát thanh – Truyền hình tỉnh Lào Cai đã có cuộc trao đổi với bà Nguyễn Thu Hương - Phó Giám đốc Sở Giáo dục và Đào tạo tỉnh Lào Cai để làm rõ thông tin và phương án thực hiện theo chủ trương của tỉnh.

fb yt zl tw