Việt Nam phát triển thành công phần mềm dịch ngôn ngữ hiếm khu vực Đông Nam Á

Viện Công nghệ thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam cho biết, các nhà khoa học đã thành công trong việc ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến để xây dựng các mô hình dịch máy tự động có chất lượng cao cho các cặp ngôn ngữ như Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia.

Dịch máy (hay còn gọi là dịch tự động) là việc dịch một văn bản từ một ngôn ngữ này (ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch. Hiện nay có nhiều sản phẩm dịch tự động được sử dụng phổ biến như Google Translate, Bing Translator… với chất lượng dịch rất tốt cho các câu đơn. Tuy nhiên, các hệ thống dịch máy chất lượng cao này cần các bộ dữ liệu song ngữ quy mô lớn, lên tới hàng triệu cặp câu để huấn luyện mô hình.

Theo PGS.TS Nguyễn Trường Thắng - Viện trưởng Viện Công nghệ thông tin, Viện Hàn lâm KH&CN Việt Nam, hiện rất nhiều ngôn ngữ trên thế giới không có đủ tài nguyên như vậy. Việc xây dựng mô hình dịch máy hiệu quả cho những ngôn ngữ nghèo tài nguyên, trong đó có các ngôn ngữ của khu vực Đông Nam Á là công việc hết sức cấp thiết và gặp nhiều thách thức.

Cũng theo PGS.TS Nguyễn Trường Thắng, để khắc phục các tồn tại này, nhóm các nhà nghiên cứu tại Viện Công nghệ thông tin (CNTT) đã phát triển một hệ thống dịch thuật lấy tiếng Việt làm trung tâm, có khả năng dịch thuật hai chiều giữa tiếng Việt và các ngôn ngữ nghèo tài nguyên của khu vực Đông Nam Á với chất lượng tương đương với các sản phẩm thương mại nổi tiếng trên thế giới.

"Chúng tôi định hướng những ngôn ngữ hiếm như tiếng Lào, tiếng Khmer… và sau này là những ngôn ngữ của các dân tộc thiểu số của Việt Nam là tiếng Mường, tiếng Thái… Vì đây là những ngôn ngữ mà nước ngoài không bao giờ làm, và nếu họ có làm thì họ cũng không hiểu đặc thù ngôn ngữ của Việt Nam, mà hiện nay cũng đã có một số đối tác quan tâm. Chúng ta lựa chọn hướng đi là nội địa hóa, nhưng phù hợp với năng lực và hướng đi của chúng ta", PGS.TS Nguyễn Trường Thắng cho biết.

Tính đến thời điểm hiện tại, hệ thống đã có khả năng dịch hai chiều giữa các cặp ngôn ngữ bao gồm Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia. Nhóm nghiên cứu cũng cho biết, hệ thống được nghiên cứu phát triển dựa trên các tiến bộ mới nhất hiện nay trên thế giới trong lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và dịch máy nói riêng. Các ngôn ngữ như tiếng Lào, tiếng Thái và tiếng Khmer mang lại những thách thức rất lớn khi xây dựng mô hình dịch máy, không chỉ vì sự khan hiếm của dữ liệu song ngữ mà còn vì những ngôn ngữ này rất phong phú về mặt hình thái, thiếu sự phân tách từ, phân tách câu và tính đa nghĩa. Tuy nhiên, mô hình dịch máy của Viện CNTT đã học được cách thích ứng với tất cả những đặc điểm đặc biệt này.

PGS.TS Chu Hoàng Hà - Phó Chủ tịch Viện Hàn lâm KH&CN Việt Nam nói: "Chúng ta có thể tạo ra những phần mềm dịch thuật rất chính xác với những ngôn ngữ của các dân tộc ASEAN và cũng có thể là ngôn ngữ của các dân tộc Việt Nam nữa, từ đó giúp cho việc giao tiếp thuận lợi hơn. Đặc biệt với sự áp dụng của mô hình ngôn ngữ lớn thì giúp cho việc dịch thuật chính xác hơn nhiều, giúp cho các hoạt động trao đổi, giao tiếp, ngoại giao".

Các nhà khoa học cũng cho biết, hệ thống dịch máy có thể dễ dàng mở rộng sang các ngôn ngữ đích mới bao gồm các ngôn ngữ dân tộc thiểu số tại Việt Nam (thường là rất nghèo tài nguyên dữ liệu) như tiếng Mường, tiếng Thái,… và cả các ngôn ngữ nước ngoài phổ biến như tiếng Trung, tiếng Pháp, tiếng Nga khi cần. Đặc biệt, hệ thống có khả năng tinh chỉnh để thích ứng với các miền ngôn ngữ chuyên sâu như y tế, luật… theo yêu cầu riêng của đối tác.

Có thể bạn quan tâm

Tin cùng chuyên mục

Kịp thời hỗ trợ công dân đi lạc từ Tuyên Quang lên Lào Cai trở về nhà an toàn

Kịp thời hỗ trợ công dân đi lạc từ Tuyên Quang lên Lào Cai trở về nhà an toàn

Sáng 15/6, Công an xã Tả Phìn, tỉnh Lào Cai nhận được tin báo của quần chúng nhân dân về việc phát hiện một người nữ đi lang thang tại khu vực thôn Giàng Tra 1. Ngay sau khi tiếp nhận thông tin, Công an xã Tả Phìn đã nhanh chóng có mặt, đưa công dân về trụ sở để xác minh nhân thân, lai lịch.

Có điểm thi lớp 10: Trượt nguyện vọng 1, thí sinh nên làm gì?

Có điểm thi lớp 10: Trượt nguyện vọng 1, thí sinh nên làm gì?

Không trúng tuyển nguyện vọng 1 vào lớp 10 công lập không có nghĩa là “hết cửa”. Việc quan trọng nhất lúc này là phụ huynh, học sinh phải bình tĩnh phân biệt điểm thi, điểm xét tuyển, điểm chuẩn; sau đó kiểm tra cơ hội ở nguyện vọng tiếp theo, tuyển bổ sung, trường ngoài công lập, GDTX hoặc phúc khảo nếu có căn cứ.

Trẻ em cần một mùa hè đúng nghĩa

Trẻ em cần một mùa hè đúng nghĩa

Kỳ nghỉ hè vốn là thời gian để học sinh nghỉ ngơi, tái tạo năng lượng sau một năm học căng thẳng. Tuy nhiên, với không ít trẻ em hiện nay, mùa hè đang dần biến thành "học kỳ thứ ba" dưới áp lực từ các lớp học thêm, học trước chương trình.

Khát vọng rút ngắn con đường tiếp cận y tế của đồng bào vùng cao Nậm Chày

Khát vọng rút ngắn con đường tiếp cận y tế của đồng bào vùng cao Nậm Chày

Tại vùng cao Nậm Chày, nơi các bản làng nằm cheo leo bên sườn núi, không ít trẻ em vẫn cất tiếng khóc chào đời ngay trong căn nhà gỗ đơn sơ thay vì tại cơ sở y tế. Nơi đây, người bệnh phải đi hàng chục cây số mới mua được thuốc và những người đang cai nghiện ma túy vẫn ngày ngày vượt núi để được uống một liều Methadone. Đằng sau những cung đường quanh co ấy là câu chuyện gian nan tiếp cận y tế và khát khao được chăm sóc sức khỏe của người dân địa phương.

Hành trình trưởng thành từ những trải nghiệm đặc biệt

Hành trình trưởng thành từ những trải nghiệm đặc biệt

Sau 15 năm tổ chức, Chương trình “Học kỳ trong quân đội” đã trở thành một trong những sân chơi trải nghiệm hè uy tín, ý nghĩa dành cho thanh thiếu niên. Không chỉ giúp các em rèn luyện kỹ năng sống, nâng cao tính tự lập và ý thức kỷ luật, chương trình còn là môi trường để các em trưởng thành hơn về nhận thức, cảm xúc và trách nhiệm với bản thân, gia đình, xã hội.

Mưa dông bao trùm Lào Cai từ tối nay, có nơi lượng mưa vượt 120mm

Mưa dông bao trùm Lào Cai từ tối nay, có nơi lượng mưa vượt 120mm

Từ chiều tối 14/6 đến sáng 16/6, tỉnh Lào Cai được dự báo xuất hiện một đợt mưa vừa, mưa to diện rộng, cục bộ có nơi mưa rất to với lượng mưa trên 120mm. Nguy cơ xảy ra sạt lở đất, ngập úng cục bộ và các hiện tượng thời tiết cực đoan được cơ quan khí tượng cảnh báo ở mức cao.

Một giọt máu cho đi, một cuộc đời ở lại

Một giọt máu cho đi, một cuộc đời ở lại

Có những nghĩa cử không ồn ào nhưng đủ sức lan tỏa yêu thương và níu giữ sự sống. Tại Lào Cai, nhiều cán bộ, viên chức, người lao động vẫn đều đặn hiến máu mỗi khi có yêu cầu cấp thiết. Nhân Ngày Thế giới tôn vinh người hiến máu 14/6, câu chuyện của họ cho thấy tinh thần nhân ái và nét đẹp cộng đồng từ những giọt máu hồng.

fb yt zl tw