Việt Nam phát triển thành công phần mềm dịch ngôn ngữ hiếm khu vực Đông Nam Á

Viện Công nghệ thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam cho biết, các nhà khoa học đã thành công trong việc ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến để xây dựng các mô hình dịch máy tự động có chất lượng cao cho các cặp ngôn ngữ như Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia.

Dịch máy (hay còn gọi là dịch tự động) là việc dịch một văn bản từ một ngôn ngữ này (ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch. Hiện nay có nhiều sản phẩm dịch tự động được sử dụng phổ biến như Google Translate, Bing Translator… với chất lượng dịch rất tốt cho các câu đơn. Tuy nhiên, các hệ thống dịch máy chất lượng cao này cần các bộ dữ liệu song ngữ quy mô lớn, lên tới hàng triệu cặp câu để huấn luyện mô hình.

Theo PGS.TS Nguyễn Trường Thắng - Viện trưởng Viện Công nghệ thông tin, Viện Hàn lâm KH&CN Việt Nam, hiện rất nhiều ngôn ngữ trên thế giới không có đủ tài nguyên như vậy. Việc xây dựng mô hình dịch máy hiệu quả cho những ngôn ngữ nghèo tài nguyên, trong đó có các ngôn ngữ của khu vực Đông Nam Á là công việc hết sức cấp thiết và gặp nhiều thách thức.

Cũng theo PGS.TS Nguyễn Trường Thắng, để khắc phục các tồn tại này, nhóm các nhà nghiên cứu tại Viện Công nghệ thông tin (CNTT) đã phát triển một hệ thống dịch thuật lấy tiếng Việt làm trung tâm, có khả năng dịch thuật hai chiều giữa tiếng Việt và các ngôn ngữ nghèo tài nguyên của khu vực Đông Nam Á với chất lượng tương đương với các sản phẩm thương mại nổi tiếng trên thế giới.

"Chúng tôi định hướng những ngôn ngữ hiếm như tiếng Lào, tiếng Khmer… và sau này là những ngôn ngữ của các dân tộc thiểu số của Việt Nam là tiếng Mường, tiếng Thái… Vì đây là những ngôn ngữ mà nước ngoài không bao giờ làm, và nếu họ có làm thì họ cũng không hiểu đặc thù ngôn ngữ của Việt Nam, mà hiện nay cũng đã có một số đối tác quan tâm. Chúng ta lựa chọn hướng đi là nội địa hóa, nhưng phù hợp với năng lực và hướng đi của chúng ta", PGS.TS Nguyễn Trường Thắng cho biết.

Tính đến thời điểm hiện tại, hệ thống đã có khả năng dịch hai chiều giữa các cặp ngôn ngữ bao gồm Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia. Nhóm nghiên cứu cũng cho biết, hệ thống được nghiên cứu phát triển dựa trên các tiến bộ mới nhất hiện nay trên thế giới trong lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và dịch máy nói riêng. Các ngôn ngữ như tiếng Lào, tiếng Thái và tiếng Khmer mang lại những thách thức rất lớn khi xây dựng mô hình dịch máy, không chỉ vì sự khan hiếm của dữ liệu song ngữ mà còn vì những ngôn ngữ này rất phong phú về mặt hình thái, thiếu sự phân tách từ, phân tách câu và tính đa nghĩa. Tuy nhiên, mô hình dịch máy của Viện CNTT đã học được cách thích ứng với tất cả những đặc điểm đặc biệt này.

PGS.TS Chu Hoàng Hà - Phó Chủ tịch Viện Hàn lâm KH&CN Việt Nam nói: "Chúng ta có thể tạo ra những phần mềm dịch thuật rất chính xác với những ngôn ngữ của các dân tộc ASEAN và cũng có thể là ngôn ngữ của các dân tộc Việt Nam nữa, từ đó giúp cho việc giao tiếp thuận lợi hơn. Đặc biệt với sự áp dụng của mô hình ngôn ngữ lớn thì giúp cho việc dịch thuật chính xác hơn nhiều, giúp cho các hoạt động trao đổi, giao tiếp, ngoại giao".

Các nhà khoa học cũng cho biết, hệ thống dịch máy có thể dễ dàng mở rộng sang các ngôn ngữ đích mới bao gồm các ngôn ngữ dân tộc thiểu số tại Việt Nam (thường là rất nghèo tài nguyên dữ liệu) như tiếng Mường, tiếng Thái,… và cả các ngôn ngữ nước ngoài phổ biến như tiếng Trung, tiếng Pháp, tiếng Nga khi cần. Đặc biệt, hệ thống có khả năng tinh chỉnh để thích ứng với các miền ngôn ngữ chuyên sâu như y tế, luật… theo yêu cầu riêng của đối tác.

Có thể bạn quan tâm

Tin cùng chuyên mục

Lào Cai tăng cường bảo đảm công tác y tế dịp nghỉ lễ Giỗ Tổ Hùng Vương và ngày 30/4 - 01/5

Lào Cai tăng cường bảo đảm công tác y tế dịp nghỉ lễ Giỗ Tổ Hùng Vương và ngày 30/4 - 01/5

Thực hiện chỉ đạo của UBND tỉnh về tổ chức nghỉ lễ Giỗ Tổ Hùng Vương và kỷ niệm Ngày Chiến thắng 30/4, Ngày Quốc tế Lao động 01/5, Sở Y tế Lào Cai đã ban hành văn bản yêu cầu các đơn vị y tế trên địa bàn chủ động triển khai các biện pháp bảo đảm công tác y tế trong thời gian nghỉ lễ.

Mưa dông, sạt lở gây thiệt hại tại nhiều địa phương, Bắc Bộ tiếp tục mưa lớn cục bộ

Mưa dông, sạt lở gây thiệt hại tại nhiều địa phương, Bắc Bộ tiếp tục mưa lớn cục bộ

Theo Cục Quản lý đê điều và phòng chống thiên tai, Bộ Nông nghiệp và Môi trường và các địa phương, tính đến 11 giờ ngày 23/4, mưa to kèm theo dông lốc, mưa đá cục bộ gió giật mạnh và sụt lún, sạt lở bờ sông đã làm 1 người bị thương và gây nhiều thiệt hại cho các địa phương.

Thi tốt nghiệp trên máy tính - Thách thức đối với thầy trò vùng cao

Thi tốt nghiệp trên máy tính - Thách thức đối với thầy trò vùng cao

Từ năm 2027, hình thức thi trên máy tính sẽ chính thức được áp dụng trong kỳ thi tốt nghiệp THPT. Đây được xác định là bước ngoặt quan trọng trong lộ trình chuyển đổi số ngành giáo dục, giúp nâng cao tính khách quan, minh bạch và tiệm cận với xu thế hiện đại. Tuy nhiên, với nhiều trường học khu vực vùng cao, chủ trương này đang đặt ra nhiều thách thức, khi điều kiện hạ tầng công nghệ thông tin còn hạn chế, học sinh thiếu kỹ năng sử dụng máy tính, đội ngũ giáo viên tin học còn thiếu.

Trường Cao đẳng Nghề Yên Bái khai mạc Hội thi tay nghề học sinh, sinh viên năm học 2025 - 2026

Trường Cao đẳng Nghề Yên Bái khai mạc Hội thi tay nghề học sinh, sinh viên năm học 2025 - 2026

Sáng 22/4, Trường Cao đẳng Nghề Yên Bái đã khai mạc Hội thi tay nghề học sinh, sinh viên cấp trường năm học 2025 - 2026. Đây là hoạt động chuyên môn thường niên mang tính trọng điểm nhằm đánh giá chất lượng đào tạo thực hành, đồng thời tạo tiền đề để lựa chọn những thí sinh xuất sắc tham gia các kỳ thi kỹ năng nghề ở cấp cao hơn.

Chàng trai 21 tuổi đều đặn cắt tóc miễn phí cho học sinh

Chàng trai 21 tuổi đều đặn cắt tóc miễn phí cho học sinh

Đều đặn 3 ngày cuối tuần, vào 16 giờ, tại khu vực Nhà thi đấu đa năng Trấn Yên lại xuất hiện một tiệm  cắt tóc đặc biệt với chiếc ghế nhựa đơn sơ, vài chiếc kéo, tông đơ và chiếc lược quen thuộc. Người thợ chính là Vương Sĩ Trường, 21 tuổi, ở thôn 7, xã Quy Mông, hiện đang theo học nghề tại xã Trấn Yên.

Lào Cai hỗ trợ xóa nhà tạm, nhà dột nát cho con đẻ người hoạt động kháng chiến bị nhiễm chất độc hóa học

Lào Cai hỗ trợ xóa nhà tạm, nhà dột nát cho con đẻ người hoạt động kháng chiến bị nhiễm chất độc hóa học

Ngày 21/4, UBND tỉnh ban hành Kế hoạch số 171/KH-UBND về việc hỗ trợ xóa nhà tạm, nhà dột nát cho con đẻ của người hoạt động kháng chiến bị nhiễm chất độc hóa học trên địa bàn tỉnh, nhằm bảo đảm an sinh xã hội, nâng cao chất lượng cuộc sống cho các đối tượng chính sách.

fb yt zl tw