Việt Nam phát triển thành công phần mềm dịch ngôn ngữ hiếm khu vực Đông Nam Á

Viện Công nghệ thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam cho biết, các nhà khoa học đã thành công trong việc ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến để xây dựng các mô hình dịch máy tự động có chất lượng cao cho các cặp ngôn ngữ như Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia.

Dịch máy (hay còn gọi là dịch tự động) là việc dịch một văn bản từ một ngôn ngữ này (ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch. Hiện nay có nhiều sản phẩm dịch tự động được sử dụng phổ biến như Google Translate, Bing Translator… với chất lượng dịch rất tốt cho các câu đơn. Tuy nhiên, các hệ thống dịch máy chất lượng cao này cần các bộ dữ liệu song ngữ quy mô lớn, lên tới hàng triệu cặp câu để huấn luyện mô hình.

Theo PGS.TS Nguyễn Trường Thắng - Viện trưởng Viện Công nghệ thông tin, Viện Hàn lâm KH&CN Việt Nam, hiện rất nhiều ngôn ngữ trên thế giới không có đủ tài nguyên như vậy. Việc xây dựng mô hình dịch máy hiệu quả cho những ngôn ngữ nghèo tài nguyên, trong đó có các ngôn ngữ của khu vực Đông Nam Á là công việc hết sức cấp thiết và gặp nhiều thách thức.

Cũng theo PGS.TS Nguyễn Trường Thắng, để khắc phục các tồn tại này, nhóm các nhà nghiên cứu tại Viện Công nghệ thông tin (CNTT) đã phát triển một hệ thống dịch thuật lấy tiếng Việt làm trung tâm, có khả năng dịch thuật hai chiều giữa tiếng Việt và các ngôn ngữ nghèo tài nguyên của khu vực Đông Nam Á với chất lượng tương đương với các sản phẩm thương mại nổi tiếng trên thế giới.

"Chúng tôi định hướng những ngôn ngữ hiếm như tiếng Lào, tiếng Khmer… và sau này là những ngôn ngữ của các dân tộc thiểu số của Việt Nam là tiếng Mường, tiếng Thái… Vì đây là những ngôn ngữ mà nước ngoài không bao giờ làm, và nếu họ có làm thì họ cũng không hiểu đặc thù ngôn ngữ của Việt Nam, mà hiện nay cũng đã có một số đối tác quan tâm. Chúng ta lựa chọn hướng đi là nội địa hóa, nhưng phù hợp với năng lực và hướng đi của chúng ta", PGS.TS Nguyễn Trường Thắng cho biết.

Tính đến thời điểm hiện tại, hệ thống đã có khả năng dịch hai chiều giữa các cặp ngôn ngữ bao gồm Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia. Nhóm nghiên cứu cũng cho biết, hệ thống được nghiên cứu phát triển dựa trên các tiến bộ mới nhất hiện nay trên thế giới trong lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và dịch máy nói riêng. Các ngôn ngữ như tiếng Lào, tiếng Thái và tiếng Khmer mang lại những thách thức rất lớn khi xây dựng mô hình dịch máy, không chỉ vì sự khan hiếm của dữ liệu song ngữ mà còn vì những ngôn ngữ này rất phong phú về mặt hình thái, thiếu sự phân tách từ, phân tách câu và tính đa nghĩa. Tuy nhiên, mô hình dịch máy của Viện CNTT đã học được cách thích ứng với tất cả những đặc điểm đặc biệt này.

PGS.TS Chu Hoàng Hà - Phó Chủ tịch Viện Hàn lâm KH&CN Việt Nam nói: "Chúng ta có thể tạo ra những phần mềm dịch thuật rất chính xác với những ngôn ngữ của các dân tộc ASEAN và cũng có thể là ngôn ngữ của các dân tộc Việt Nam nữa, từ đó giúp cho việc giao tiếp thuận lợi hơn. Đặc biệt với sự áp dụng của mô hình ngôn ngữ lớn thì giúp cho việc dịch thuật chính xác hơn nhiều, giúp cho các hoạt động trao đổi, giao tiếp, ngoại giao".

Các nhà khoa học cũng cho biết, hệ thống dịch máy có thể dễ dàng mở rộng sang các ngôn ngữ đích mới bao gồm các ngôn ngữ dân tộc thiểu số tại Việt Nam (thường là rất nghèo tài nguyên dữ liệu) như tiếng Mường, tiếng Thái,… và cả các ngôn ngữ nước ngoài phổ biến như tiếng Trung, tiếng Pháp, tiếng Nga khi cần. Đặc biệt, hệ thống có khả năng tinh chỉnh để thích ứng với các miền ngôn ngữ chuyên sâu như y tế, luật… theo yêu cầu riêng của đối tác.

Có thể bạn quan tâm

Tin cùng chuyên mục

Sức lan tỏa từ một cuộc thi

Sức lan tỏa từ một cuộc thi

Diễn ra từ ngày 27/2 đến 15/3, Cuộc thi trực tuyến tìm hiểu về bầu cử đại biểu Quốc hội khóa XVI và đại biểu HĐND các cấp nhiệm kỳ 2026 - 2031 do Ban Tuyên giáo và Ban Dân vận Trung ương tổ chức đã tạo nên luồng sinh khí mới trong công tác tuyên truyền. Không chỉ là sân chơi trí tuệ, cuộc thi còn góp phần khơi dậy tinh thần trách nhiệm và củng cố niềm tin của cử tri trước ngày hội lớn của đất nước.

Trường Tiểu học Kim Đồng tổ chức hoạt động ngoại khóa “Tháng Ba biên giới - Dòng sông hoa gạo”

Trường Tiểu học Kim Đồng tổ chức hoạt động ngoại khóa “Tháng Ba biên giới - Dòng sông hoa gạo”

Chiều 12/3, tại công viên Thủy Hoa, Trường Tiểu học Kim Đồng, phường Lào Cai đã tổ chức hoạt động ngoại khóa với chủ đề “Tháng Ba biên giới - Dòng sông hoa gạo” nhằm giáo dục truyền thống yêu quê hương, đất nước, nâng cao nhận thức về chủ quyền biên giới quốc gia và bồi dưỡng ý thức trách nhiệm công dân cho học sinh.

Tằng Loỏng: Xây dựng “Xã không ma túy”

Tằng Loỏng: Xây dựng “Xã không ma túy”

Thực hiện Kế hoạch số 73/KH-UBND ngày 13/2/2026 của UBND tỉnh và Kế hoạch số 373/KH-CAT-PV01-PC04 ngày 14/2/2026 của Công an tỉnh về các giải pháp xây dựng “xã, phường không ma túy” trên địa bàn tỉnh Lào Cai, Công an xã Tằng Loỏng đã triển khai đồng bộ nhiều giải pháp phòng, chống ma túy, phát huy vai trò nòng cốt của lực lượng công an và sức mạnh toàn dân. Từ khu dân cư đến toàn địa bàn quyết tâm giữ vững an ninh, trật tự xã hội.

Chọn ngành học đại học: Rộng cửa xét tuyển nhưng cần tính đường dài

Chọn ngành học đại học: Rộng cửa xét tuyển nhưng cần tính đường dài

Nhiều ngành đào tạo tại các trường đại học hiện nay có cơ hội xét tuyển khá rộng với nhiều phương thức và tổ hợp môn khác nhau. Tuy nhiên, theo các chuyên gia giáo dục, việc chọn ngành không chỉ dừng ở khả năng trúng tuyển mà cần cân nhắc kỹ năng lực bản thân, yêu cầu nghề nghiệp và sự cạnh tranh của thị trường lao động trong tương lai.

Khuyến cáo cộng đồng người Việt tại Israel cảnh giác trước nguy cơ tấn công bằng tên lửa

Khuyến cáo cộng đồng người Việt tại Israel cảnh giác trước nguy cơ tấn công bằng tên lửa

Sáng 12/3, Đại sứ quán Việt Nam tại Israel đã phát đi thông báo gửi tới cộng đồng người Việt Nam đang sinh sống, học tập và làm việc tại Israel, khuyến cáo nâng cao cảnh giác trước tình hình an ninh diễn biến phức tạp do các cuộc tấn công bằng tên lửa và thiết bị bay không người lái gia tăng trong những ngày gần đây.

Hai chị em sinh đôi cùng chinh phục “bảng vàng” Quốc gia

Hai chị em sinh đôi cùng chinh phục “bảng vàng” Quốc gia

Trong danh sách học sinh đạt giải tại Kỳ thi chọn học sinh giỏi quốc gia năm học 2025 - 2026 của Trường THPT Chuyên Lào Cai, câu chuyện về cặp chị em sinh đôi người dân tộc Dao - Bàn Hải Linh và Bàn Hà Linh đã để lại dấu ấn đặc biệt. Cùng ghi tên mình vào “bảng vàng” thành tích môn Địa lý của nhà trường, Hải Linh đã xuất sắc giành giải Nhì, trong khi Hà Linh đạt giải Ba. Thành tích ấy để lại dấu ấn đặc biệt, truyền cảm hứng mạnh mẽ về tinh thần nỗ lực học tập cho học sinh toàn trường.

Công tác chăm sóc người có công đi vào thực chất, hiệu quả

Công tác chăm sóc người có công đi vào thực chất, hiệu quả

Sau hợp nhất, số lượng người có công trên địa bàn tăng lên đáng kể. Những năm qua, tỉnh Lào Cai luôn quan tâm thực hiện đầy đủ, kịp thời và minh bạch các chính sách ưu đãi của Nhà nước đối với người có công với cách mạng. Qua đó, thể hiện sâu sắc đạo lý “Uống nước nhớ nguồn” và sự tri ân đối với những người đã cống hiến xương máu cho nền độc lập dân tộc.

Nam học sinh Việt Nam giành Huy chương Bạc Olympic Trí tuệ nhân tạo quốc tế

Nam học sinh Việt Nam giành Huy chương Bạc Olympic Trí tuệ nhân tạo quốc tế

Trần Thuận Hiếu, học sinh lớp 12 Tin của Trường trung học phổ thông Chuyên Hà Nội-Amsterdam, vừa giành Huy chương Bạc tại kỳ thi Olympic Trí tuệ nhân tạo (AI) quốc tế. Thành tích nổi bật này đã góp phần giúp nam sinh nhận được học bổng toàn phần trị giá khoảng 12 tỷ đồng từ University of Chicago (Hoa Kỳ).

Một số điểm mới trong Quy chế thi tốt nghiệp THPT

Một số điểm mới trong Quy chế thi tốt nghiệp THPT

Bộ Giáo dục và Đào tạo (GD&ĐT) vừa ban hành Thông tư số 13/2026/TT-BGDĐT sửa đổi, bổ sung một số điều của Quy chế thi tốt nghiệp trung học phổ thông (THPT) ban hành kèm theo Thông tư số 24/2024/TT-BGDĐT ngày 24/12/2024 của Bộ trưởng Bộ GD&ĐT.

fb yt zl tw