Việt Nam phát triển thành công phần mềm dịch ngôn ngữ hiếm khu vực Đông Nam Á

Viện Công nghệ thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam cho biết, các nhà khoa học đã thành công trong việc ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến để xây dựng các mô hình dịch máy tự động có chất lượng cao cho các cặp ngôn ngữ như Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia.

Dịch máy (hay còn gọi là dịch tự động) là việc dịch một văn bản từ một ngôn ngữ này (ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch. Hiện nay có nhiều sản phẩm dịch tự động được sử dụng phổ biến như Google Translate, Bing Translator… với chất lượng dịch rất tốt cho các câu đơn. Tuy nhiên, các hệ thống dịch máy chất lượng cao này cần các bộ dữ liệu song ngữ quy mô lớn, lên tới hàng triệu cặp câu để huấn luyện mô hình.

Theo PGS.TS Nguyễn Trường Thắng - Viện trưởng Viện Công nghệ thông tin, Viện Hàn lâm KH&CN Việt Nam, hiện rất nhiều ngôn ngữ trên thế giới không có đủ tài nguyên như vậy. Việc xây dựng mô hình dịch máy hiệu quả cho những ngôn ngữ nghèo tài nguyên, trong đó có các ngôn ngữ của khu vực Đông Nam Á là công việc hết sức cấp thiết và gặp nhiều thách thức.

Cũng theo PGS.TS Nguyễn Trường Thắng, để khắc phục các tồn tại này, nhóm các nhà nghiên cứu tại Viện Công nghệ thông tin (CNTT) đã phát triển một hệ thống dịch thuật lấy tiếng Việt làm trung tâm, có khả năng dịch thuật hai chiều giữa tiếng Việt và các ngôn ngữ nghèo tài nguyên của khu vực Đông Nam Á với chất lượng tương đương với các sản phẩm thương mại nổi tiếng trên thế giới.

"Chúng tôi định hướng những ngôn ngữ hiếm như tiếng Lào, tiếng Khmer… và sau này là những ngôn ngữ của các dân tộc thiểu số của Việt Nam là tiếng Mường, tiếng Thái… Vì đây là những ngôn ngữ mà nước ngoài không bao giờ làm, và nếu họ có làm thì họ cũng không hiểu đặc thù ngôn ngữ của Việt Nam, mà hiện nay cũng đã có một số đối tác quan tâm. Chúng ta lựa chọn hướng đi là nội địa hóa, nhưng phù hợp với năng lực và hướng đi của chúng ta", PGS.TS Nguyễn Trường Thắng cho biết.

Tính đến thời điểm hiện tại, hệ thống đã có khả năng dịch hai chiều giữa các cặp ngôn ngữ bao gồm Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia. Nhóm nghiên cứu cũng cho biết, hệ thống được nghiên cứu phát triển dựa trên các tiến bộ mới nhất hiện nay trên thế giới trong lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và dịch máy nói riêng. Các ngôn ngữ như tiếng Lào, tiếng Thái và tiếng Khmer mang lại những thách thức rất lớn khi xây dựng mô hình dịch máy, không chỉ vì sự khan hiếm của dữ liệu song ngữ mà còn vì những ngôn ngữ này rất phong phú về mặt hình thái, thiếu sự phân tách từ, phân tách câu và tính đa nghĩa. Tuy nhiên, mô hình dịch máy của Viện CNTT đã học được cách thích ứng với tất cả những đặc điểm đặc biệt này.

PGS.TS Chu Hoàng Hà - Phó Chủ tịch Viện Hàn lâm KH&CN Việt Nam nói: "Chúng ta có thể tạo ra những phần mềm dịch thuật rất chính xác với những ngôn ngữ của các dân tộc ASEAN và cũng có thể là ngôn ngữ của các dân tộc Việt Nam nữa, từ đó giúp cho việc giao tiếp thuận lợi hơn. Đặc biệt với sự áp dụng của mô hình ngôn ngữ lớn thì giúp cho việc dịch thuật chính xác hơn nhiều, giúp cho các hoạt động trao đổi, giao tiếp, ngoại giao".

Các nhà khoa học cũng cho biết, hệ thống dịch máy có thể dễ dàng mở rộng sang các ngôn ngữ đích mới bao gồm các ngôn ngữ dân tộc thiểu số tại Việt Nam (thường là rất nghèo tài nguyên dữ liệu) như tiếng Mường, tiếng Thái,… và cả các ngôn ngữ nước ngoài phổ biến như tiếng Trung, tiếng Pháp, tiếng Nga khi cần. Đặc biệt, hệ thống có khả năng tinh chỉnh để thích ứng với các miền ngôn ngữ chuyên sâu như y tế, luật… theo yêu cầu riêng của đối tác.

Có thể bạn quan tâm

Tin cùng chuyên mục

Người "gieo" ước mơ ở Mù Cang Chải

Người "gieo" ước mơ ở Mù Cang Chải

Hơn 10 năm gắn bó với vùng cao, cô giáo Nguyễn Thị Phương Huế - Trường THPT Mù Cang Chải đã truyền lửa đam mê môn Lịch sử tới học sinh qua từng bài giảng và đạt nhiều thành tích trong sự nghiệp giáo dục.

Người giữ lửa cho những bài học lịch sử ở trường nội trú Lào Cai

Người giữ lửa cho những bài học lịch sử ở trường nội trú Lào Cai

Gần 30 năm gắn bó với nghề, cô Nguyễn Thị Thanh Hòa – giáo viên Lịch sử Trường Phổ thông Dân tộc nội trú THPT Yên Bái – luôn được đồng nghiệp và học sinh tin yêu. Ở môi trường nội trú còn nhiều thiếu thốn, cô Hòa tận tụy và kiên nhẫn trở thành điểm tựa tinh thần cho học trò dân tộc thiểu số.

Việt Nam sẽ sản xuất vắc xin ung thư phổi

Việt Nam sẽ sản xuất vắc xin ung thư phổi

Cùng với đẩy mạnh chuyển đổi số trong y tế, nhiều nghiên cứu ứng dụng trong phòng bệnh truyền nhiễm, điều trị ung thư triển khai tại Việt Nam. 600 tỉ đồng được chi cho chuyển đổi số và nghiên cứu khoa học ngành y tế, trong năm 2026.

Bệnh viện Đa khoa khu vực Mường Khương tiếp nhận thêm 5 máy chạy thận nhân tạo và 01 máy lọc máu liên tục

Bệnh viện Đa khoa khu vực Mường Khương tiếp nhận thêm 5 máy chạy thận nhân tạo và 01 máy lọc máu liên tục

Bệnh viện Đa khoa khu vực Mường Khương vừa được trang bị thêm 5 máy chạy thận nhân tạo và 01 máy lọc máu liên tục, góp phần nâng cao năng lực điều trị cho bệnh nhân suy thận mãn tính và thực hiện một số kỹ thuật đặc biệt trên địa bàn. Đây là bước bổ sung quan trọng sau khi bệnh viện chính thức triển khai dịch vụ kỹ thuật thận nhân tạo từ ngày 19/11/2024.

Truyền thông sáng tạo, thu hút bạn đọc

Truyền thông sáng tạo, thu hút bạn đọc

Thời gian qua, Thư viện tỉnh Lào Cai đã chủ động giới thiệu tới bạn đọc, người sử dụng về các hoạt động và nguồn lực thông tin hiện có, chú trọng ứng dụng công nghệ thông tin, giúp đơn vị thu hút ngày càng đông bạn đọc.

Nâng cao năng lực điều trị từ cơ sở

Nâng cao năng lực điều trị từ cơ sở

Trong bối cảnh chuyển đổi số mạnh mẽ của ngành y tế, việc ứng dụng công nghệ hội chẩn từ xa đang mở ra hướng đi mới nhằm nâng cao chất lượng khám, chữa bệnh, đặc biệt tại địa bàn vùng sâu, vùng xa, nơi người dân còn gặp nhiều khó khăn trong tiếp cận dịch vụ y tế chất lượng cao. Bệnh viện Đa khoa khu vực Mường Khương đang phát huy hiệu quả rõ rệt mô hình này.

Cầu Yên Bái ký ức thời kỳ đổi mới

Cầu Yên Bái ký ức thời kỳ đổi mới

Khi đông chớm lạnh, tôi tìm về bến xưa. Chẳng rõ bởi hoài niệm ăn sâu, hay bởi những dấu xưa là mạch nguồn nuôi dưỡng tháng ngày hiện tại. Đi từ bến phà Âu Lâu theo đường nhựa dọc sông Hồng lên tới cầu Yên Bái, tôi nghe như có tiếng thì thầm vọng về từ quá khứ. Tiếng thì thầm của những ngày gian khó, của niềm vui vỡ òa khi cầu được khánh thành.

Báu vật nơi lưng trời

Báu vật nơi lưng trời

Đất trời ban cho Suối Giàng (xã Văn Chấn) loại đặc sản hiếm có là cây chè Shan tuyết cổ thụ. Không chỉ mang hương vị núi rừng mà cây chè Shan tuyết còn chứa đựng câu chuyện về văn hóa bản địa, được người dân nơi đây nâng niu, gìn giữ tự bao đời.

Thành công từ sự đồng thuận

Thành công từ sự đồng thuận

Xác định phương châm “Dân biết, dân bàn, dân làm, dân kiểm tra, dân thụ hưởng” là yếu tố quyết định, Ủy ban MTTQ Việt Nam xã Xuân Ái đã đổi mới cách thức tuyên truyền, đưa nội dung xây dựng nông thôn mới (NTM) đến với người dân bằng nhiều hình thức, quyết tâm cùng cấp ủy, chính quyền đưa Xuân Ái đạt chuẩn xã NTM nâng cao vào năm 2030.

Bãi rác Báo Đáp gây ô nhiễm cho cánh đồng Đìu

Bãi rác Báo Đáp gây ô nhiễm cho cánh đồng Đìu

Rác thải mỗi ngày tràn xuống cánh đồng Đìu, thôn Yên Hưng, xã Mậu A gây ô nhiễm nghiêm trọng, ảnh hưởng đến sản xuất và đời sống người dân. Thực trạng kéo dài nhiều năm, đòi hỏi sự vào cuộc quyết liệt của chính quyền xã Trấn Yên và xã Mậu A cùng các cơ quan chức năng sớm xử lý dứt điểm.

fb yt zl tw