Việt Nam phát triển thành công phần mềm dịch ngôn ngữ hiếm khu vực Đông Nam Á

Viện Công nghệ thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam cho biết, các nhà khoa học đã thành công trong việc ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến để xây dựng các mô hình dịch máy tự động có chất lượng cao cho các cặp ngôn ngữ như Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia.

Dịch máy (hay còn gọi là dịch tự động) là việc dịch một văn bản từ một ngôn ngữ này (ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch. Hiện nay có nhiều sản phẩm dịch tự động được sử dụng phổ biến như Google Translate, Bing Translator… với chất lượng dịch rất tốt cho các câu đơn. Tuy nhiên, các hệ thống dịch máy chất lượng cao này cần các bộ dữ liệu song ngữ quy mô lớn, lên tới hàng triệu cặp câu để huấn luyện mô hình.

Theo PGS.TS Nguyễn Trường Thắng - Viện trưởng Viện Công nghệ thông tin, Viện Hàn lâm KH&CN Việt Nam, hiện rất nhiều ngôn ngữ trên thế giới không có đủ tài nguyên như vậy. Việc xây dựng mô hình dịch máy hiệu quả cho những ngôn ngữ nghèo tài nguyên, trong đó có các ngôn ngữ của khu vực Đông Nam Á là công việc hết sức cấp thiết và gặp nhiều thách thức.

Cũng theo PGS.TS Nguyễn Trường Thắng, để khắc phục các tồn tại này, nhóm các nhà nghiên cứu tại Viện Công nghệ thông tin (CNTT) đã phát triển một hệ thống dịch thuật lấy tiếng Việt làm trung tâm, có khả năng dịch thuật hai chiều giữa tiếng Việt và các ngôn ngữ nghèo tài nguyên của khu vực Đông Nam Á với chất lượng tương đương với các sản phẩm thương mại nổi tiếng trên thế giới.

"Chúng tôi định hướng những ngôn ngữ hiếm như tiếng Lào, tiếng Khmer… và sau này là những ngôn ngữ của các dân tộc thiểu số của Việt Nam là tiếng Mường, tiếng Thái… Vì đây là những ngôn ngữ mà nước ngoài không bao giờ làm, và nếu họ có làm thì họ cũng không hiểu đặc thù ngôn ngữ của Việt Nam, mà hiện nay cũng đã có một số đối tác quan tâm. Chúng ta lựa chọn hướng đi là nội địa hóa, nhưng phù hợp với năng lực và hướng đi của chúng ta", PGS.TS Nguyễn Trường Thắng cho biết.

Tính đến thời điểm hiện tại, hệ thống đã có khả năng dịch hai chiều giữa các cặp ngôn ngữ bao gồm Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia. Nhóm nghiên cứu cũng cho biết, hệ thống được nghiên cứu phát triển dựa trên các tiến bộ mới nhất hiện nay trên thế giới trong lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và dịch máy nói riêng. Các ngôn ngữ như tiếng Lào, tiếng Thái và tiếng Khmer mang lại những thách thức rất lớn khi xây dựng mô hình dịch máy, không chỉ vì sự khan hiếm của dữ liệu song ngữ mà còn vì những ngôn ngữ này rất phong phú về mặt hình thái, thiếu sự phân tách từ, phân tách câu và tính đa nghĩa. Tuy nhiên, mô hình dịch máy của Viện CNTT đã học được cách thích ứng với tất cả những đặc điểm đặc biệt này.

PGS.TS Chu Hoàng Hà - Phó Chủ tịch Viện Hàn lâm KH&CN Việt Nam nói: "Chúng ta có thể tạo ra những phần mềm dịch thuật rất chính xác với những ngôn ngữ của các dân tộc ASEAN và cũng có thể là ngôn ngữ của các dân tộc Việt Nam nữa, từ đó giúp cho việc giao tiếp thuận lợi hơn. Đặc biệt với sự áp dụng của mô hình ngôn ngữ lớn thì giúp cho việc dịch thuật chính xác hơn nhiều, giúp cho các hoạt động trao đổi, giao tiếp, ngoại giao".

Các nhà khoa học cũng cho biết, hệ thống dịch máy có thể dễ dàng mở rộng sang các ngôn ngữ đích mới bao gồm các ngôn ngữ dân tộc thiểu số tại Việt Nam (thường là rất nghèo tài nguyên dữ liệu) như tiếng Mường, tiếng Thái,… và cả các ngôn ngữ nước ngoài phổ biến như tiếng Trung, tiếng Pháp, tiếng Nga khi cần. Đặc biệt, hệ thống có khả năng tinh chỉnh để thích ứng với các miền ngôn ngữ chuyên sâu như y tế, luật… theo yêu cầu riêng của đối tác.

Có thể bạn quan tâm

Tin cùng chuyên mục

Thời tiết ngày 21/1: Rét đậm, rét hại bao trùm Bắc Bộ, gió Đông Bắc mạnh trên biển

Thời tiết ngày 21/1: Rét đậm, rét hại bao trùm Bắc Bộ, gió Đông Bắc mạnh trên biển

Theo Trung tâm Dự báo Khí tượng Thủy văn Quốc gia, hiện nay 21/1, không khí lạnh đã ảnh hưởng đến một số nơi ở khu vực Đông Bắc Bắc Bộ, gây mưa rải rác và làm nhiệt độ giảm rõ rệt. Nhiệt độ phổ biến tại Bắc Bộ dao động 18 - 21 độ C, riêng một số nơi đã giảm 3 - 4 độ C so với những ngày trước.

Đường sắt tổ chức chạy 906 chuyến tàu dịp Tết Nguyên đán Bính Ngọ 2026

Đường sắt tổ chức chạy 906 chuyến tàu dịp Tết Nguyên đán Bính Ngọ 2026

Ngày 20/1, ông Đào Anh Tuấn, Tổng giám đốc Công ty Cổ phần Vận tải đường sắt cho biết, để phục vụ nhu cầu đi lại của người dân dịp Tết Nguyên đán Bính Ngọ 2026, ngành đường sắt sẽ tổ chức chạy 906 chuyến tàu trên tuyến Hà Nội - TP Hồ Chí Minh, cung ứng khoảng 384.000 chỗ đi suốt, tăng 7% về số chuyến và số chỗ so với Tết Nguyên đán năm 2025.

Hội Chữ thập đỏ tỉnh Lào Cai trao 200 suất quà cho nạn nhân da cam/Dioxin và hội viên Hội Người mù

Hội Chữ thập đỏ tỉnh Lào Cai trao 200 suất quà cho nạn nhân da cam/Dioxin và hội viên Hội Người mù

Hòa chung không khí toàn Đảng, toàn dân, toàn quân hướng về Đại hội đại biểu toàn quốc lần thứ XIV của Đảng, thực hiện chương trình công tác an sinh xã hội năm 2026 và nhân dịp chuẩn bị đón Xuân Bính Ngọ, ngày 20/1, Hội Chữ thập đỏ tỉnh Lào Cai tổ chức chương trình trao quà Tết cho nạn nhân da cam/dioxin và hội viên Hội Người mù trên địa bàn tỉnh.

Lào Cai chủ động ứng phó rét đậm, rét hại

Lào Cai chủ động ứng phó rét đậm, rét hại

Trước diễn biến không khí lạnh tăng cường mạnh, có khả năng gây rét đậm, rét hại trên diện rộng, ngày 20/1/2026, Chủ tịch UBND tỉnh Lào Cai đã ban hành Công điện hỏa tốc yêu cầu các sở, ngành, địa phương chủ động triển khai đồng bộ các biện pháp ứng phó, bảo vệ sức khỏe Nhân dân và hạn chế thấp nhất thiệt hại trong sản xuất.

Chọn môn thi thứ ba vào lớp 10: Làm sao để giảm áp lực?

Chọn môn thi thứ ba vào lớp 10: Làm sao để giảm áp lực?

Việc lựa chọn môn thi thứ ba vào lớp 10 tại nhiều địa phương đang bộc lộ không ít bất cập, khiến học sinh và phụ huynh băn khoăn, lo lắng. Từ thực tế đó, nhiều chuyên gia cho rằng cần sớm ổn định chính sách theo hướng chỉ thi 2 - 3 môn cốt lõi, công bố sớm và mở thêm những lối đi sau THCS để giảm áp lực.

Cán bộ, công chức, viên chức, lực lượng vũ trang xã Lâm Giang tham gia làm đất, tiến hành gieo trồng hoa

Xã Lâm Giang phát động phong trào "Trồng hoa đón Tết, gắn kết lòng dân"

Hướng tới mục tiêu xây dựng cảnh quan nông thôn “Sáng, xanh, sạch đẹp, văn minh”, tạo điểm nhấn chào mừng Xuân Bính Ngọ 2026 và từng bước phát triển du lịch địa phương, xã Lâm Giang, tỉnh Lào Cai đã tổ chức phát động phong trào “Trồng hoa đón Tết, gắn kết lòng dân” trong khuôn viên quần thể di tích lịch sử đền Phúc Linh.

Đấu giá biển số xe năm 2025 thu hơn 5.870 tỷ đồng

Đấu giá biển số xe năm 2025 thu hơn 5.870 tỷ đồng

Năm 2025 tiếp tục ghi dấu ấn đậm nét của hoạt động đấu giá biển số xe tại Việt Nam, khi các phiên đấu giá do Công ty Đấu giá Hợp danh Việt Nam (VPA) tổ chức không chỉ duy trì quy mô lớn mà còn đạt hiệu quả kinh tế, xã hội rõ rệt, góp phần quan trọng vào ngân sách nhà nước cũng như thúc đẩy minh bạch trong quản lý tài sản công.

fb yt zl tw