Việt Nam phát triển thành công phần mềm dịch ngôn ngữ hiếm khu vực Đông Nam Á

Viện Công nghệ thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam cho biết, các nhà khoa học đã thành công trong việc ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến để xây dựng các mô hình dịch máy tự động có chất lượng cao cho các cặp ngôn ngữ như Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia.

Dịch máy (hay còn gọi là dịch tự động) là việc dịch một văn bản từ một ngôn ngữ này (ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch. Hiện nay có nhiều sản phẩm dịch tự động được sử dụng phổ biến như Google Translate, Bing Translator… với chất lượng dịch rất tốt cho các câu đơn. Tuy nhiên, các hệ thống dịch máy chất lượng cao này cần các bộ dữ liệu song ngữ quy mô lớn, lên tới hàng triệu cặp câu để huấn luyện mô hình.

Theo PGS.TS Nguyễn Trường Thắng - Viện trưởng Viện Công nghệ thông tin, Viện Hàn lâm KH&CN Việt Nam, hiện rất nhiều ngôn ngữ trên thế giới không có đủ tài nguyên như vậy. Việc xây dựng mô hình dịch máy hiệu quả cho những ngôn ngữ nghèo tài nguyên, trong đó có các ngôn ngữ của khu vực Đông Nam Á là công việc hết sức cấp thiết và gặp nhiều thách thức.

Cũng theo PGS.TS Nguyễn Trường Thắng, để khắc phục các tồn tại này, nhóm các nhà nghiên cứu tại Viện Công nghệ thông tin (CNTT) đã phát triển một hệ thống dịch thuật lấy tiếng Việt làm trung tâm, có khả năng dịch thuật hai chiều giữa tiếng Việt và các ngôn ngữ nghèo tài nguyên của khu vực Đông Nam Á với chất lượng tương đương với các sản phẩm thương mại nổi tiếng trên thế giới.

"Chúng tôi định hướng những ngôn ngữ hiếm như tiếng Lào, tiếng Khmer… và sau này là những ngôn ngữ của các dân tộc thiểu số của Việt Nam là tiếng Mường, tiếng Thái… Vì đây là những ngôn ngữ mà nước ngoài không bao giờ làm, và nếu họ có làm thì họ cũng không hiểu đặc thù ngôn ngữ của Việt Nam, mà hiện nay cũng đã có một số đối tác quan tâm. Chúng ta lựa chọn hướng đi là nội địa hóa, nhưng phù hợp với năng lực và hướng đi của chúng ta", PGS.TS Nguyễn Trường Thắng cho biết.

Tính đến thời điểm hiện tại, hệ thống đã có khả năng dịch hai chiều giữa các cặp ngôn ngữ bao gồm Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia. Nhóm nghiên cứu cũng cho biết, hệ thống được nghiên cứu phát triển dựa trên các tiến bộ mới nhất hiện nay trên thế giới trong lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và dịch máy nói riêng. Các ngôn ngữ như tiếng Lào, tiếng Thái và tiếng Khmer mang lại những thách thức rất lớn khi xây dựng mô hình dịch máy, không chỉ vì sự khan hiếm của dữ liệu song ngữ mà còn vì những ngôn ngữ này rất phong phú về mặt hình thái, thiếu sự phân tách từ, phân tách câu và tính đa nghĩa. Tuy nhiên, mô hình dịch máy của Viện CNTT đã học được cách thích ứng với tất cả những đặc điểm đặc biệt này.

PGS.TS Chu Hoàng Hà - Phó Chủ tịch Viện Hàn lâm KH&CN Việt Nam nói: "Chúng ta có thể tạo ra những phần mềm dịch thuật rất chính xác với những ngôn ngữ của các dân tộc ASEAN và cũng có thể là ngôn ngữ của các dân tộc Việt Nam nữa, từ đó giúp cho việc giao tiếp thuận lợi hơn. Đặc biệt với sự áp dụng của mô hình ngôn ngữ lớn thì giúp cho việc dịch thuật chính xác hơn nhiều, giúp cho các hoạt động trao đổi, giao tiếp, ngoại giao".

Các nhà khoa học cũng cho biết, hệ thống dịch máy có thể dễ dàng mở rộng sang các ngôn ngữ đích mới bao gồm các ngôn ngữ dân tộc thiểu số tại Việt Nam (thường là rất nghèo tài nguyên dữ liệu) như tiếng Mường, tiếng Thái,… và cả các ngôn ngữ nước ngoài phổ biến như tiếng Trung, tiếng Pháp, tiếng Nga khi cần. Đặc biệt, hệ thống có khả năng tinh chỉnh để thích ứng với các miền ngôn ngữ chuyên sâu như y tế, luật… theo yêu cầu riêng của đối tác.

Có thể bạn quan tâm

Tin cùng chuyên mục

Tết đến sớm nơi biên cương Tổ quốc

Tết đến sớm nơi biên cương Tổ quốc

Hòa chung không khí hân hoan đón xuân mới đang lan tỏa khắp mọi miền, những ngày này, đồng bào các dân tộc khu vực biên giới tỉnh Lào Cai đang rộn ràng đón Tết sớm trong không khí ấm áp, nghĩa tình, thắm đượm tình quân - dân từ sự sẻ chia, chung tay của những người lính biên phòng.

Trường THPT Nguyễn Huệ tổ chức Ngày hội Giáo dục STEM - Tư vấn hướng nghiệp tuyển sinh năm 2026

Trường THPT Nguyễn Huệ tổ chức Ngày hội Giáo dục STEM - Tư vấn hướng nghiệp tuyển sinh năm 2026

Sáng nay - 30/1, Trường THPT Nguyễn Huệ tổ chức Ngày hội Giáo dục STEM - Tư vấn hướng nghiệp tuyển sinh năm 2026 với chủ đề “STEM Xuân Lào Cai - nơi hội tụ sắc màu Tây Bắc”. Chương trình có sự tham dự của lãnh đạo Sở Giáo dục và Đào tạo tỉnh, Tập đoàn Công nghiệp - Năng lượng Quốc gia Việt Nam, các chuyên gia giáo dục STEM cùng đại diện nhiều trường đại học, học viện và trên 1.600 học sinh nhà trường và một số trường THPT trên địa bàn toàn tỉnh.

Tú Lệ bứt phá cải cách hành chính công từ chuyển đổi số

Tú Lệ bứt phá cải cách hành chính công từ chuyển đổi số

Tú Lệ được biết đến là một xã vùng cao còn không ít khó khăn, địa bàn rộng, dân cư phân tán, trình độ tiếp cận công nghệ không đồng đều. Tuy nhiên, bước sang năm 2026, cùng với việc triển khai quyết liệt Nghị quyết số 57-NQ/TW của Bộ Chính trị, chuyển đổi số tại địa phương đã không còn dừng ở khẩu hiệu, mà từng bước đi vào thực chất, trở thành phương thức điều hành mới, nâng cao hiệu quả phục vụ người dân và tạo động lực thúc đẩy phát triển kinh tế - xã hội.

Lào Cai tăng cường thực hiện Luật Cư trú, đẩy mạnh tuyên truyền pháp luật về cư trú

Lào Cai tăng cường thực hiện Luật Cư trú, đẩy mạnh tuyên truyền pháp luật về cư trú

Nhằm tiếp tục nâng cao nhận thức, ý thức chấp hành pháp luật về cư trú; bảo đảm việc triển khai thực hiện thống nhất, đồng bộ, hiệu quả, đặc biệt phục vụ tốt Cuộc bầu cử đại biểu Quốc hội khóa XVI và bầu cử đại biểu Hội đồng nhân dân các cấp, nhiệm kỳ 2026 - 2031 trên địa bàn tỉnh, UBND tỉnh Lào Cai đã ban hành Văn bản số 684/UBND-NC ngày 27/1/2026 về việc tăng cường thực hiện Luật Cư trú và đẩy mạnh tuyên truyền pháp luật về cư trú.

Đa dạng hình thức tuyên truyền bảo hiểm xã hội, bảo hiểm y tế

Đa dạng hình thức tuyên truyền bảo hiểm xã hội, bảo hiểm y tế

Chính sách bảo hiểm xã hội, bảo hiểm y tế là hai chính sách nhân văn, giữ vai trò trụ cột chính của hệ thống an sinh xã hội, gắn liền với quyền lợi của mỗi người dân. Để các chính sách này thực sự đi vào cuộc sống, thời gian qua, công tác truyền thông được Bảo hiểm xã hội tỉnh Lào Cai tổ chức đồng bộ, linh hoạt, sát với điều kiện thực tế và phù hợp với đặc điểm dân cư của từng địa bàn.

Trao gửi yêu thương

Trao gửi yêu thương

Chương trình “Trao gửi yêu thương tới người cao tuổi" do Hội Phụ nữ Công an tỉnh phối hợp cùng Hội Phụ nữ phường Văn Phú, Trung tâm Công tác xã hội và Bảo trợ xã hội số 1 tỉnh Lào Cai tổ chức ngày 27/1 vừa qua, không chỉ là hoạt động thiện nguyện thông thường, mà còn là hành trình mang hơi ấm đến với những mảnh đời già yếu, neo đơn.

Gieo mầm tri thức qua những trang sách

Gieo mầm tri thức qua những trang sách

Trong bối cảnh phương thức học tập của học sinh chịu nhiều tác động từ môi trường số, việc đưa sách trở lại thành thói quen đọc của học sinh trong nhà trường được ngành giáo dục tỉnh Lào Cai xác định là cách làm hiệu quả để học sinh tiếp cận tri thức bền vững và hình thành năng lực tự học góp xây dựng con người Lào Cai ham học, sáng tạo và nhân ái.

Những "thủ lĩnh trẻ" ở Cát Thịnh

Những "thủ lĩnh trẻ" ở Cát Thịnh

Những con đường bê tông dẫn vào các thôn vùng cao xã Cát Thịnh hôm nay đã mở ra diện mạo mới, thuận tiện giao thông và mang đến nhịp sống sôi động, tươi mới hơn. Góp phần tạo nên sự đổi thay ấy là lớp cán bộ trẻ ở thôn, bản - các bí thư chi bộ, trưởng thôn tuy tuổi đời còn trẻ nhưng mang trong mình khát vọng mạnh mẽ làm thay đổi diện mạo vùng đất này.

Sửa đổi Quy chế tuyển sinh đại học: Giảm áp lực, chi phí, đảm bảo quyền lợi thí sinh

Sửa đổi Quy chế tuyển sinh đại học: Giảm áp lực, chi phí, đảm bảo quyền lợi thí sinh

Bộ Giáo dục và Đào tạo vừa công bố dự thảo Quy chế tuyển sinh đại học năm 2026 với rất nhiều điểm mới được điều chỉnh, bổ sung như: thí sinh đăng ký tối đa 10 nguyện vọng; việc xét tuyển bằng học bạ phải sử dụng điểm trung bình chung 6 học kỳ của tối thiểu 3 môn, trong đó bắt buộc phải có môn Toán hoặc Ngữ văn, đồng thời thí sinh phải có ba môn thi tốt nghiệp ở tổ hợp tương ứng đạt tối thiểu 16 điểm; mỗi trường sử dụng không quá 5 phương thức xét tuyển…

fb yt zl tw