Việt Nam phát triển thành công phần mềm dịch ngôn ngữ hiếm khu vực Đông Nam Á

Viện Công nghệ thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam cho biết, các nhà khoa học đã thành công trong việc ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến để xây dựng các mô hình dịch máy tự động có chất lượng cao cho các cặp ngôn ngữ như Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia.

Dịch máy (hay còn gọi là dịch tự động) là việc dịch một văn bản từ một ngôn ngữ này (ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch. Hiện nay có nhiều sản phẩm dịch tự động được sử dụng phổ biến như Google Translate, Bing Translator… với chất lượng dịch rất tốt cho các câu đơn. Tuy nhiên, các hệ thống dịch máy chất lượng cao này cần các bộ dữ liệu song ngữ quy mô lớn, lên tới hàng triệu cặp câu để huấn luyện mô hình.

Theo PGS.TS Nguyễn Trường Thắng - Viện trưởng Viện Công nghệ thông tin, Viện Hàn lâm KH&CN Việt Nam, hiện rất nhiều ngôn ngữ trên thế giới không có đủ tài nguyên như vậy. Việc xây dựng mô hình dịch máy hiệu quả cho những ngôn ngữ nghèo tài nguyên, trong đó có các ngôn ngữ của khu vực Đông Nam Á là công việc hết sức cấp thiết và gặp nhiều thách thức.

Cũng theo PGS.TS Nguyễn Trường Thắng, để khắc phục các tồn tại này, nhóm các nhà nghiên cứu tại Viện Công nghệ thông tin (CNTT) đã phát triển một hệ thống dịch thuật lấy tiếng Việt làm trung tâm, có khả năng dịch thuật hai chiều giữa tiếng Việt và các ngôn ngữ nghèo tài nguyên của khu vực Đông Nam Á với chất lượng tương đương với các sản phẩm thương mại nổi tiếng trên thế giới.

"Chúng tôi định hướng những ngôn ngữ hiếm như tiếng Lào, tiếng Khmer… và sau này là những ngôn ngữ của các dân tộc thiểu số của Việt Nam là tiếng Mường, tiếng Thái… Vì đây là những ngôn ngữ mà nước ngoài không bao giờ làm, và nếu họ có làm thì họ cũng không hiểu đặc thù ngôn ngữ của Việt Nam, mà hiện nay cũng đã có một số đối tác quan tâm. Chúng ta lựa chọn hướng đi là nội địa hóa, nhưng phù hợp với năng lực và hướng đi của chúng ta", PGS.TS Nguyễn Trường Thắng cho biết.

Tính đến thời điểm hiện tại, hệ thống đã có khả năng dịch hai chiều giữa các cặp ngôn ngữ bao gồm Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia. Nhóm nghiên cứu cũng cho biết, hệ thống được nghiên cứu phát triển dựa trên các tiến bộ mới nhất hiện nay trên thế giới trong lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và dịch máy nói riêng. Các ngôn ngữ như tiếng Lào, tiếng Thái và tiếng Khmer mang lại những thách thức rất lớn khi xây dựng mô hình dịch máy, không chỉ vì sự khan hiếm của dữ liệu song ngữ mà còn vì những ngôn ngữ này rất phong phú về mặt hình thái, thiếu sự phân tách từ, phân tách câu và tính đa nghĩa. Tuy nhiên, mô hình dịch máy của Viện CNTT đã học được cách thích ứng với tất cả những đặc điểm đặc biệt này.

PGS.TS Chu Hoàng Hà - Phó Chủ tịch Viện Hàn lâm KH&CN Việt Nam nói: "Chúng ta có thể tạo ra những phần mềm dịch thuật rất chính xác với những ngôn ngữ của các dân tộc ASEAN và cũng có thể là ngôn ngữ của các dân tộc Việt Nam nữa, từ đó giúp cho việc giao tiếp thuận lợi hơn. Đặc biệt với sự áp dụng của mô hình ngôn ngữ lớn thì giúp cho việc dịch thuật chính xác hơn nhiều, giúp cho các hoạt động trao đổi, giao tiếp, ngoại giao".

Các nhà khoa học cũng cho biết, hệ thống dịch máy có thể dễ dàng mở rộng sang các ngôn ngữ đích mới bao gồm các ngôn ngữ dân tộc thiểu số tại Việt Nam (thường là rất nghèo tài nguyên dữ liệu) như tiếng Mường, tiếng Thái,… và cả các ngôn ngữ nước ngoài phổ biến như tiếng Trung, tiếng Pháp, tiếng Nga khi cần. Đặc biệt, hệ thống có khả năng tinh chỉnh để thích ứng với các miền ngôn ngữ chuyên sâu như y tế, luật… theo yêu cầu riêng của đối tác.

Có thể bạn quan tâm

Tin cùng chuyên mục

Bác sĩ Tô Hiền và ca cấp cứu giữa tầng mây

Bác sĩ Tô Hiền và ca cấp cứu giữa tầng mây

Chiếc máy bay đang ở độ cao hơn chục nghìn mét, giữa khoang hành khách đông kín, một người đàn ông quốc tịch Hàn Quốc bất ngờ gục xuống, mất ý thức. Không có phòng cấp cứu, không có đầy đủ thiết bị y tế như trong bệnh viện. Chỉ có những phút giây ngắn ngủi để giành giật sự sống. Trong khoảnh khắc ấy, một người phụ nữ nhanh chóng rời ghế ngồi, lao về phía bệnh nhân. Đó là bác sĩ Tô Hiền - Trưởng khoa Sản thuộc Trung tâm Sản - Nhi, Bệnh viện Đa khoa số 1 tỉnh Lào Cai.

Ngày hội thể thao trên quê hương Mường Lò

Ngày hội thể thao trên quê hương Mường Lò

Giải vô địch xe đạp đường trường và địa hình các câu lạc bộ quốc gia năm 2026 đang chứng kiến những màn tranh tài kịch tính. Trên cung đường dài đầy thử thách, bên cạnh những màn rượt đuổi về chiến thuật và tốc độ, điều để lại ấn tượng nhất chính là nỗ lực phi thường của các vận động viên và tình cảm nồng hậu, ấm áp từ người dân địa phương. 

Cảnh báo lũ trên các sông tỉnh Lào Cai từ đêm 29/6 đến ngày 02/7

Cảnh báo lũ trên các sông tỉnh Lào Cai từ đêm 29/6 đến ngày 02/7

Đài Khí tượng thủy văn tỉnh Lào Cai vừa phát cảnh báo từ đêm 29/6 đến ngày 02/7, trên các sông, suối trên địa bàn tỉnh có khả năng xuất hiện một đợt lũ với biên độ từ 1 - 3 m. Trong đợt lũ này, mực nước đỉnh lũ trên sông Thao tại trạm Lào Cai và trạm Yên Bái, cùng sông Ngòi Thia dự báo ở dưới mức báo động 1; trong khi một số sông, suối nhỏ có khả năng đạt hoặc vượt báo động 1.

Phát triển năng lực ngoại ngữ trong kỷ nguyên số

Phát triển năng lực ngoại ngữ trong kỷ nguyên số

Cùng với xu thế hội nhập quốc tế ngày càng sâu rộng, tiếng Anh và tiếng Trung đang trở thành lựa chọn của nhiều bạn trẻ. Việc học ngoại ngữ tại các trung tâm không chỉ giúp nâng cao khả năng giao tiếp, củng cố kiến thức ngôn ngữ mà còn tạo nền tảng để tiếp cận tri thức mới, mở rộng cơ hội học tập và nghề nghiệp trong tương lai.

Nguồn lực nội sinh cho Lào Cai

Nguồn lực nội sinh cho Lào Cai

Lào Cai - vùng đất biên cương của Tổ quốc không chỉ có những bàn tay lao động cần cù mà còn có những khối óc sáng tạo đưa khoa học - kỹ thuật đến gần hơn với đời sống. Toàn tỉnh hiện với gần 44.000 trí thức đang hoạt động trong các lĩnh vực nông nghiệp, công nghiệp, y tế, giáo dục, công nghệ thông tin... đây là nguồn lực quý cho sự phát triển bền vững của địa phương.

CẢNH BÁO: Lào Cai có mưa dông diện rộng, nguy cơ lốc, sét, mưa đá và mưa lớn cục bộ trong vài giờ tới

CẢNH BÁO: Lào Cai có mưa dông diện rộng, nguy cơ lốc, sét, mưa đá và mưa lớn cục bộ trong vài giờ tới

Đài Khí tượng thủy văn tỉnh Lào Cai vừa phát thông báo trong 3 giờ qua, qua theo dõi ảnh vệ tinh, số liệu định vị sét và radar thời tiết cho thấy nhiều vùng mây đối lưu đã và đang phát triển trên địa bàn tỉnh Lào Cai, gây mưa rào, cục bộ có mưa vừa, mưa to và dông tại hầu hết các thôn, bản, tổ dân phố thuộc các xã, phường trên địa bàn tỉnh.

fb yt zl tw