Việt Nam phát triển thành công phần mềm dịch ngôn ngữ hiếm khu vực Đông Nam Á

Viện Công nghệ thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam cho biết, các nhà khoa học đã thành công trong việc ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến để xây dựng các mô hình dịch máy tự động có chất lượng cao cho các cặp ngôn ngữ như Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia.

Dịch máy (hay còn gọi là dịch tự động) là việc dịch một văn bản từ một ngôn ngữ này (ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch. Hiện nay có nhiều sản phẩm dịch tự động được sử dụng phổ biến như Google Translate, Bing Translator… với chất lượng dịch rất tốt cho các câu đơn. Tuy nhiên, các hệ thống dịch máy chất lượng cao này cần các bộ dữ liệu song ngữ quy mô lớn, lên tới hàng triệu cặp câu để huấn luyện mô hình.

Theo PGS.TS Nguyễn Trường Thắng - Viện trưởng Viện Công nghệ thông tin, Viện Hàn lâm KH&CN Việt Nam, hiện rất nhiều ngôn ngữ trên thế giới không có đủ tài nguyên như vậy. Việc xây dựng mô hình dịch máy hiệu quả cho những ngôn ngữ nghèo tài nguyên, trong đó có các ngôn ngữ của khu vực Đông Nam Á là công việc hết sức cấp thiết và gặp nhiều thách thức.

Cũng theo PGS.TS Nguyễn Trường Thắng, để khắc phục các tồn tại này, nhóm các nhà nghiên cứu tại Viện Công nghệ thông tin (CNTT) đã phát triển một hệ thống dịch thuật lấy tiếng Việt làm trung tâm, có khả năng dịch thuật hai chiều giữa tiếng Việt và các ngôn ngữ nghèo tài nguyên của khu vực Đông Nam Á với chất lượng tương đương với các sản phẩm thương mại nổi tiếng trên thế giới.

"Chúng tôi định hướng những ngôn ngữ hiếm như tiếng Lào, tiếng Khmer… và sau này là những ngôn ngữ của các dân tộc thiểu số của Việt Nam là tiếng Mường, tiếng Thái… Vì đây là những ngôn ngữ mà nước ngoài không bao giờ làm, và nếu họ có làm thì họ cũng không hiểu đặc thù ngôn ngữ của Việt Nam, mà hiện nay cũng đã có một số đối tác quan tâm. Chúng ta lựa chọn hướng đi là nội địa hóa, nhưng phù hợp với năng lực và hướng đi của chúng ta", PGS.TS Nguyễn Trường Thắng cho biết.

Tính đến thời điểm hiện tại, hệ thống đã có khả năng dịch hai chiều giữa các cặp ngôn ngữ bao gồm Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia. Nhóm nghiên cứu cũng cho biết, hệ thống được nghiên cứu phát triển dựa trên các tiến bộ mới nhất hiện nay trên thế giới trong lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và dịch máy nói riêng. Các ngôn ngữ như tiếng Lào, tiếng Thái và tiếng Khmer mang lại những thách thức rất lớn khi xây dựng mô hình dịch máy, không chỉ vì sự khan hiếm của dữ liệu song ngữ mà còn vì những ngôn ngữ này rất phong phú về mặt hình thái, thiếu sự phân tách từ, phân tách câu và tính đa nghĩa. Tuy nhiên, mô hình dịch máy của Viện CNTT đã học được cách thích ứng với tất cả những đặc điểm đặc biệt này.

PGS.TS Chu Hoàng Hà - Phó Chủ tịch Viện Hàn lâm KH&CN Việt Nam nói: "Chúng ta có thể tạo ra những phần mềm dịch thuật rất chính xác với những ngôn ngữ của các dân tộc ASEAN và cũng có thể là ngôn ngữ của các dân tộc Việt Nam nữa, từ đó giúp cho việc giao tiếp thuận lợi hơn. Đặc biệt với sự áp dụng của mô hình ngôn ngữ lớn thì giúp cho việc dịch thuật chính xác hơn nhiều, giúp cho các hoạt động trao đổi, giao tiếp, ngoại giao".

Các nhà khoa học cũng cho biết, hệ thống dịch máy có thể dễ dàng mở rộng sang các ngôn ngữ đích mới bao gồm các ngôn ngữ dân tộc thiểu số tại Việt Nam (thường là rất nghèo tài nguyên dữ liệu) như tiếng Mường, tiếng Thái,… và cả các ngôn ngữ nước ngoài phổ biến như tiếng Trung, tiếng Pháp, tiếng Nga khi cần. Đặc biệt, hệ thống có khả năng tinh chỉnh để thích ứng với các miền ngôn ngữ chuyên sâu như y tế, luật… theo yêu cầu riêng của đối tác.

Có thể bạn quan tâm

Tin cùng chuyên mục

Mưa lũ làm 10.055 ha lúa, hoa màu bị thiệt hại

Mưa lũ làm 10.055 ha lúa, hoa màu bị thiệt hại

Theo thống kê sơ bộ của Cục Quản lý đê điều và Phòng, chống thiên tai, Bộ Nông nghiệp và Môi trường, tính đến 8 giờ 30 phút ngày 20/11, mưa lũ đã làm 10.055 ha lúa, hoa màu bị thiệt hại; trong đó, tỉnh Khánh Hòa là địa phương thiệt hại nhiều nhất với 7.951 ha; 6.511 con gia súc, gia cầm bị chết, cuốn trôi.

Cô giáo trẻ năng động, sáng tạo

Cô giáo trẻ năng động, sáng tạo

Với lòng yêu mến trẻ và tâm huyết với nghề, cô giáo Nguyễn Thị Thúy Ngân, Trường Mầm non Sơn Ca, xã Púng Luông đã xây dựng và áp dụng những sáng kiến hữu ích, đưa các phương pháp giáo dục tiên tiến vào từng bài giảng, biến mỗi giờ học thành chuyến phiêu lưu đầy hứng thú cho các em nhỏ vùng cao.

Các vấn đề sức khỏe thường gặp trong mùa lạnh

Các vấn đề sức khỏe thường gặp trong mùa lạnh

Mùa lạnh, cơ thể dễ gặp cảm lạnh, cúm, viêm họng, khô da, đau xương khớp hay rối loạn tiêu hóa, đặc biệt ở người già, trẻ nhỏ, phụ nữ mang thai và những người làm việc ngoài trời. Giữ ấm cơ thể, bổ sung vitamin C và duy trì thói quen vận động sẽ giúp bạn khỏe mạnh, an toàn suốt mùa đông.

Quan tâm, chăm lo sự nghiệp giáo dục

Kỷ niệm 43 năm Ngày Nhà giáo Việt Nam (20/11/1982 - 20/11/2025): Quan tâm, chăm lo sự nghiệp giáo dục

Lào Cai là tỉnh vùng cao, biên giới, nơi có nhiều dân tộc sinh sống, trong đó phần lớn là đồng bào dân tộc thiểu số. Địa bàn rộng, giao thông khó khăn, khí hậu khắc nghiệt, đời sống của người dân còn nhiều thiếu thốn… khiến sự nghiệp giáo dục gặp không ít trở ngại. Tuy nhiên, với sự quan tâm đặc biệt của Đảng và Nhà nước, cùng nỗ lực vượt khó, ngành giáo dục Lào Cai đã từng bước khẳng định vị thế và là điểm sáng của vùng Trung du, miền núi phía Bắc và cả nước.

Học sinh trường THPT Hoàng Văn Thụ với ngoại khóa "Sắc màu văn hóa Việt"

Ngoại khóa "Sắc màu văn hóa Việt" - sân chơi học đường

Như lời tri ân ý nghĩa gửi đến các thầy cô giáo nhân kỷ niệm ngày Nhà giáo Việt Nam 20/11 và là diễn đàn để thế hệ trẻ thể hiện trách nhiệm giữ gìn bản sắc văn hóa dân tộc - Trường THPT Hoàng Văn Thụ (xã Lục Yên, tỉnh Lào Cai) đã tổ chức thành công hoạt động ngoại khóa mang tên "Sắc màu văn hóa Việt". 

Tạo mọi điều kiện để nhà giáo yên tâm với nghề

Tạo mọi điều kiện để nhà giáo yên tâm với nghề

Năm 2025 là năm có nhiều tin vui với ngành Giáo dục và Đào tạo khi những chính sách của Đảng, Nhà nước có tác động tích cực đến đời sống giáo viên, thu hút, giữ chân nguồn nhân lực và cải thiện điều kiện làm việc, nhất là ở những vùng khó khăn.

Nhà giáo tận tụy và giàu nghị lực

Nhà giáo tận tụy và giàu nghị lực

Ở Trường Tiểu học Trần Phú, xã Lục Yên, câu chuyện về cô Hiệu trưởng - Nhà giáo ưu tú Nguyễn Thị Kim Thanh luôn được nhắc đến bằng sự trân trọng và cảm phục. Lạc quan vượt qua bạo bệnh, cô Kim Thanh đã truyền cảm hứng về ý chí kiên cường để tiếp tục hành trình mang kiến thức đến với các thế hệ học trò.

Dạy trẻ đặc biệt bằng cả trái tim

Dạy trẻ đặc biệt bằng cả trái tim

Nuôi dưỡng và dạy trẻ đặc biệt là hành trình rất vất vả. Nhờ sự đồng cảm, tình yêu thương mà nhiều giáo viên đã vượt qua khó khăn, đồng hành giúp các em nhỏ kém may mắn có cơ hội hoà nhập cuộc sống.

Gian nan “gieo chữ” trên núi Láo Vàng

Gian nan “gieo chữ” trên núi Láo Vàng

Láo Vàng - chỉ cái tên thôi đã khiến người ta hình dung về một vùng đất xa xôi, heo hút. Quả thực, ai đã đến Láo Vàng rồi đều thật khó quên thôn người Dao đỏ nằm chênh vênh trên sườn núi xa xôi, khó khăn nhất của xã Phìn Ngan cũ, nay là xã Bát Xát. Vậy nhưng, ở nơi ấy, có điểm trường mầm non trong ngôi nhà tạm quây bằng tôn, ngày ngày các cô giáo vẫn lên lớp dạy trẻ những con chữ đầu đời.

Khát vọng chuyển đổi số của giáo dục vùng cao

Khát vọng chuyển đổi số của giáo dục vùng cao

Hiện nay, công tác chuyển đổi số trong giáo dục đang diễn ra mạnh mẽ ở tất cả các địa phương. Tại nhiều vùng sâu, vùng xa, vượt lên mọi khó khăn, cách trở, các thầy cô giáo vẫn kiên trì học hỏi, chủ động tìm cách kết nối, đưa học trò chạm vào thế giới số ngay từ ngưỡng cửa trường làng.

Bảo vệ người yếu thế trên không gian mạng

Bảo vệ người yếu thế trên không gian mạng

Không gian mạng là môi trường quan trọng thúc đẩy sự phát triển của kinh tế - xã hội nhưng cũng là nơi các tổ chức tội phạm công nghệ cao tận dụng để thực hiện hành vi lừa đảo trực tuyến, gây ảnh hưởng tiêu cực đến cuộc sống của người dân, đặc biệt là nhóm người yếu thế như người cao tuổi, trẻ em.

fb yt zl tw