Việt Nam phát triển thành công phần mềm dịch ngôn ngữ hiếm khu vực Đông Nam Á

Viện Công nghệ thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam cho biết, các nhà khoa học đã thành công trong việc ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến để xây dựng các mô hình dịch máy tự động có chất lượng cao cho các cặp ngôn ngữ như Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia.

0:00 / 0:00
0:00
  • Nam miền Bắc
  • Nữ miền Bắc
  • Nữ miền Nam
  • Nam miền Nam

Dịch máy (hay còn gọi là dịch tự động) là việc dịch một văn bản từ một ngôn ngữ này (ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch. Hiện nay có nhiều sản phẩm dịch tự động được sử dụng phổ biến như Google Translate, Bing Translator… với chất lượng dịch rất tốt cho các câu đơn. Tuy nhiên, các hệ thống dịch máy chất lượng cao này cần các bộ dữ liệu song ngữ quy mô lớn, lên tới hàng triệu cặp câu để huấn luyện mô hình.

Theo PGS.TS Nguyễn Trường Thắng - Viện trưởng Viện Công nghệ thông tin, Viện Hàn lâm KH&CN Việt Nam, hiện rất nhiều ngôn ngữ trên thế giới không có đủ tài nguyên như vậy. Việc xây dựng mô hình dịch máy hiệu quả cho những ngôn ngữ nghèo tài nguyên, trong đó có các ngôn ngữ của khu vực Đông Nam Á là công việc hết sức cấp thiết và gặp nhiều thách thức.

Cũng theo PGS.TS Nguyễn Trường Thắng, để khắc phục các tồn tại này, nhóm các nhà nghiên cứu tại Viện Công nghệ thông tin (CNTT) đã phát triển một hệ thống dịch thuật lấy tiếng Việt làm trung tâm, có khả năng dịch thuật hai chiều giữa tiếng Việt và các ngôn ngữ nghèo tài nguyên của khu vực Đông Nam Á với chất lượng tương đương với các sản phẩm thương mại nổi tiếng trên thế giới.

"Chúng tôi định hướng những ngôn ngữ hiếm như tiếng Lào, tiếng Khmer… và sau này là những ngôn ngữ của các dân tộc thiểu số của Việt Nam là tiếng Mường, tiếng Thái… Vì đây là những ngôn ngữ mà nước ngoài không bao giờ làm, và nếu họ có làm thì họ cũng không hiểu đặc thù ngôn ngữ của Việt Nam, mà hiện nay cũng đã có một số đối tác quan tâm. Chúng ta lựa chọn hướng đi là nội địa hóa, nhưng phù hợp với năng lực và hướng đi của chúng ta", PGS.TS Nguyễn Trường Thắng cho biết.

Tính đến thời điểm hiện tại, hệ thống đã có khả năng dịch hai chiều giữa các cặp ngôn ngữ bao gồm Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia. Nhóm nghiên cứu cũng cho biết, hệ thống được nghiên cứu phát triển dựa trên các tiến bộ mới nhất hiện nay trên thế giới trong lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và dịch máy nói riêng. Các ngôn ngữ như tiếng Lào, tiếng Thái và tiếng Khmer mang lại những thách thức rất lớn khi xây dựng mô hình dịch máy, không chỉ vì sự khan hiếm của dữ liệu song ngữ mà còn vì những ngôn ngữ này rất phong phú về mặt hình thái, thiếu sự phân tách từ, phân tách câu và tính đa nghĩa. Tuy nhiên, mô hình dịch máy của Viện CNTT đã học được cách thích ứng với tất cả những đặc điểm đặc biệt này.

PGS.TS Chu Hoàng Hà - Phó Chủ tịch Viện Hàn lâm KH&CN Việt Nam nói: "Chúng ta có thể tạo ra những phần mềm dịch thuật rất chính xác với những ngôn ngữ của các dân tộc ASEAN và cũng có thể là ngôn ngữ của các dân tộc Việt Nam nữa, từ đó giúp cho việc giao tiếp thuận lợi hơn. Đặc biệt với sự áp dụng của mô hình ngôn ngữ lớn thì giúp cho việc dịch thuật chính xác hơn nhiều, giúp cho các hoạt động trao đổi, giao tiếp, ngoại giao".

Các nhà khoa học cũng cho biết, hệ thống dịch máy có thể dễ dàng mở rộng sang các ngôn ngữ đích mới bao gồm các ngôn ngữ dân tộc thiểu số tại Việt Nam (thường là rất nghèo tài nguyên dữ liệu) như tiếng Mường, tiếng Thái,… và cả các ngôn ngữ nước ngoài phổ biến như tiếng Trung, tiếng Pháp, tiếng Nga khi cần. Đặc biệt, hệ thống có khả năng tinh chỉnh để thích ứng với các miền ngôn ngữ chuyên sâu như y tế, luật… theo yêu cầu riêng của đối tác.

Có thể bạn quan tâm

Tin cùng chuyên mục

Hoa mận “trắng trời” Tả Van Chư

Hoa mận “trắng trời” Tả Van Chư

Lên “cao nguyên trắng” Bắc Hà dịp này, cùng với muôn ngàn hoa lá, sắc trắng của hoa mận ngập tràn đất trời, khiến người phương xa không khỏi ngỡ ngàng. Cùng với những vùng mận khác, vùng mận Tả Van Chư cũng đang lung linh sắc trắng. Hoa mận nở tràn trên sườn núi, lưng đèo, trước hiên nhà, khiến các bản làng ở Tả Van Chư đẹp xinh như một miền cổ tích.

Tăng cường quản lý giá thuốc

Tăng cường quản lý giá thuốc

Theo Cục Quản lý dược (Bộ Y tế), năm 2023, Cục đã tiếp nhận, rà soát, công bố theo quy định tổng số 6.143 hồ sơ kê khai giá thuốc, 548 hồ sơ kê khai lại giá thuốc và 2.300 hồ sơ bổ sung, thay đổi thông tin giá thuốc đã kê khai, kê khai lại; triển khai tổng số 18 đoàn kiểm tra hậu kiểm về giá thuốc.

Cô Thủy MC và hành trình làm đẹp giọng nói

Cô Thủy MC và hành trình làm đẹp giọng nói

“Các bạn nhỏ ơi!" là câu chào thân thuộc của cô giáo Đỗ Thu Thủy, giáo viên Trường Tiểu học Hoàng Văn Thụ (thành phố Lào Cai) trên kênh TikTok có hơn 1,1 triệu người yêu thích qua các video truyền dạy tiếng Việt mang tên “Cô Thủy MC”.

Văn Bàn nâng tỷ lệ bao phủ bảo hiểm y tế

Văn Bàn nâng tỷ lệ bao phủ bảo hiểm y tế

Từ một huyện có tỷ lệ bao phủ bảo hiểm y tế (BHYT) thấp nhất tỉnh, đến thời điểm hiện tại, Văn Bàn đã hoàn thành vượt chỉ tiêu kế hoạch tỉnh giao. Tính đến tháng 12/2023, tỷ lệ bao phủ BHYT của huyện đã đạt 97,1%.

Vui khỏe ngày xuân

Vui khỏe ngày xuân

Mỗi độ xuân về, đồng bào các dân tộc trên địa bàn tỉnh lại được nô nức vào mùa của những lễ hội. Trong không gian văn hóa nhiều sắc màu, người dân có dịp thể hiện tài năng, sức khỏe cũng như sự khéo léo qua những trò chơi, môn thể thao truyền thống.

Đóng điểm đấu nối đường nhánh vào cao tốc Nội Bài – Lào Cai

Đóng điểm đấu nối đường nhánh vào cao tốc Nội Bài – Lào Cai

Ngày 20/2, Văn phòng Quản lý đường bộ I.3 và VECS (Công ty Cổ phần dịch vụ đường cao tốc Việt Nam) phối hợp với các lực lượng: Công an tỉnh, Ban An toàn giao thông tỉnh, Sở Giao thông – Vận tải, Ban Quản lý Khu kinh tế tỉnh, Trạm Biên phòng Cửa khẩu Quốc tế Kim Thành tiến hành đóng điểm đấu nối đường nhánh vào cao tốc Nội Bài – Lào Cai tại Km 262+480, thuộc địa phận phường Duyên Hải, thành phố Lào Cai.

Kiểm soát cơ sở giết mổ động vật vẫn khó

Kiểm soát cơ sở giết mổ động vật vẫn khó

Trước thực tế nhiều mẫu thịt lợn lấy từ các chợ trên địa bàn thành phố Lào Cai trong thời gian gần đây có nhiễm vi rút gây bệnh dịch tả lợn châu Phi, khiến nguy cơ lây lan dịch bệnh và không đảm bảo an toàn thực phẩm rất lớn, UBND tỉnh đã chỉ đạo các địa phương tăng cường quản lý, kiểm soát giết mổ động vật.

Hậu phương vững chắc cho lực lượng chữa cháy rừng Hoàng Liên

Hậu phương vững chắc cho lực lượng chữa cháy rừng Hoàng Liên

Không trực tiếp làm nhiệm vụ trên chiến tuyến chống giặc lửa nhưng hàng trăm cán bộ, giáo viên, người dân, các doanh nghiệp, cơ sở kinh doanh trên địa bàn thị xã Sa Pa và các địa phương trong tỉnh đã ủng hộ nhu yếu phẩm, nước uống đóng chai, nấu hàng nghìn suất cơm đảm bảo dinh dưỡng kịp thời tiếp tế phục vụ gần 900 người trực tiếp tham gia chiến đấu với giặc lửa để cứu rừng Hoàng Liên.

fb yt zl tw