Việt Nam phát triển thành công phần mềm dịch ngôn ngữ hiếm khu vực Đông Nam Á

Viện Công nghệ thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam cho biết, các nhà khoa học đã thành công trong việc ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến để xây dựng các mô hình dịch máy tự động có chất lượng cao cho các cặp ngôn ngữ như Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia.

Dịch máy (hay còn gọi là dịch tự động) là việc dịch một văn bản từ một ngôn ngữ này (ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch. Hiện nay có nhiều sản phẩm dịch tự động được sử dụng phổ biến như Google Translate, Bing Translator… với chất lượng dịch rất tốt cho các câu đơn. Tuy nhiên, các hệ thống dịch máy chất lượng cao này cần các bộ dữ liệu song ngữ quy mô lớn, lên tới hàng triệu cặp câu để huấn luyện mô hình.

Theo PGS.TS Nguyễn Trường Thắng - Viện trưởng Viện Công nghệ thông tin, Viện Hàn lâm KH&CN Việt Nam, hiện rất nhiều ngôn ngữ trên thế giới không có đủ tài nguyên như vậy. Việc xây dựng mô hình dịch máy hiệu quả cho những ngôn ngữ nghèo tài nguyên, trong đó có các ngôn ngữ của khu vực Đông Nam Á là công việc hết sức cấp thiết và gặp nhiều thách thức.

Cũng theo PGS.TS Nguyễn Trường Thắng, để khắc phục các tồn tại này, nhóm các nhà nghiên cứu tại Viện Công nghệ thông tin (CNTT) đã phát triển một hệ thống dịch thuật lấy tiếng Việt làm trung tâm, có khả năng dịch thuật hai chiều giữa tiếng Việt và các ngôn ngữ nghèo tài nguyên của khu vực Đông Nam Á với chất lượng tương đương với các sản phẩm thương mại nổi tiếng trên thế giới.

"Chúng tôi định hướng những ngôn ngữ hiếm như tiếng Lào, tiếng Khmer… và sau này là những ngôn ngữ của các dân tộc thiểu số của Việt Nam là tiếng Mường, tiếng Thái… Vì đây là những ngôn ngữ mà nước ngoài không bao giờ làm, và nếu họ có làm thì họ cũng không hiểu đặc thù ngôn ngữ của Việt Nam, mà hiện nay cũng đã có một số đối tác quan tâm. Chúng ta lựa chọn hướng đi là nội địa hóa, nhưng phù hợp với năng lực và hướng đi của chúng ta", PGS.TS Nguyễn Trường Thắng cho biết.

Tính đến thời điểm hiện tại, hệ thống đã có khả năng dịch hai chiều giữa các cặp ngôn ngữ bao gồm Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia. Nhóm nghiên cứu cũng cho biết, hệ thống được nghiên cứu phát triển dựa trên các tiến bộ mới nhất hiện nay trên thế giới trong lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và dịch máy nói riêng. Các ngôn ngữ như tiếng Lào, tiếng Thái và tiếng Khmer mang lại những thách thức rất lớn khi xây dựng mô hình dịch máy, không chỉ vì sự khan hiếm của dữ liệu song ngữ mà còn vì những ngôn ngữ này rất phong phú về mặt hình thái, thiếu sự phân tách từ, phân tách câu và tính đa nghĩa. Tuy nhiên, mô hình dịch máy của Viện CNTT đã học được cách thích ứng với tất cả những đặc điểm đặc biệt này.

PGS.TS Chu Hoàng Hà - Phó Chủ tịch Viện Hàn lâm KH&CN Việt Nam nói: "Chúng ta có thể tạo ra những phần mềm dịch thuật rất chính xác với những ngôn ngữ của các dân tộc ASEAN và cũng có thể là ngôn ngữ của các dân tộc Việt Nam nữa, từ đó giúp cho việc giao tiếp thuận lợi hơn. Đặc biệt với sự áp dụng của mô hình ngôn ngữ lớn thì giúp cho việc dịch thuật chính xác hơn nhiều, giúp cho các hoạt động trao đổi, giao tiếp, ngoại giao".

Các nhà khoa học cũng cho biết, hệ thống dịch máy có thể dễ dàng mở rộng sang các ngôn ngữ đích mới bao gồm các ngôn ngữ dân tộc thiểu số tại Việt Nam (thường là rất nghèo tài nguyên dữ liệu) như tiếng Mường, tiếng Thái,… và cả các ngôn ngữ nước ngoài phổ biến như tiếng Trung, tiếng Pháp, tiếng Nga khi cần. Đặc biệt, hệ thống có khả năng tinh chỉnh để thích ứng với các miền ngôn ngữ chuyên sâu như y tế, luật… theo yêu cầu riêng của đối tác.

Có thể bạn quan tâm

Tin cùng chuyên mục

Lớp học bước vào kỷ nguyên số

Lớp học bước vào kỷ nguyên số

Không còn gói gọn trong trang giáo án hay bảng đen phấn trắng, lớp học ở Lào Cai hôm nay đang khoác lên mình diện mạo mới: hiện đại, linh hoạt và số hóa. Từ phòng học thông minh, thí nghiệm ảo đến những bài giảng E-learning hấp dẫn, công nghệ đang mang đến môi trường học tập mở, nơi mỗi học sinh được khơi dậy đam mê, chủ động sáng tạo và kết nối tri thức nhân loại.

Bão Fengshen vào Biển Đông, trở thành bão số 12 trong năm 2025

Bão Fengshen vào Biển Đông, trở thành bão số 12 trong năm 2025

Chiều 19/10, bão Fengshen đã đi vào vùng biển phía Đông khu vực Bắc Biển Đông, trở thành cơn bão số 12 năm 2025. Dự báo, bão đang di chuyển theo hướng Tây Bắc với tốc độ 20–25 km/h, sức gió mạnh nhất cấp 9, giật cấp 11, dự báo tiếp tục mạnh lên và gây gió lớn, sóng cao tại khu vực Hoàng Sa và ven biển Trung Bộ.

Các tỉnh miền Bắc đón đợt lạnh đầu mùa, vùng núi có nơi dưới 16 độ C

Các tỉnh miền Bắc đón đợt lạnh đầu mùa, vùng núi có nơi dưới 16 độ C

Chiều tối và đêm 19/10, không khí lạnh sẽ ảnh hưởng đến khu vực Đông Bắc Bộ và được tăng cường mạnh hơn trong các ngày 20 - 22/10, mở rộng phạm vi đến Bắc Trung Bộ và một số nơi ở Tây Bắc Bộ, Trung Trung Bộ. Đợt không khí lạnh này kết hợp với hoàn lưu bão Fengshen, gây ra mưa to, gió mạnh, nguy cơ ngập úng, lũ quét và sạt lở ở nhiều nơi

Ngày trời nắng, sáng sớm có sương mù

Dự báo thời tiết đêm nay và ngày mai (20/10): Ngày trời nắng, sáng sớm có sương mù

Theo dự báo của Đài Khí tượng - Thủy văn tỉnh Lào Cai, do ảnh hưởng của rìa Tây Nam lưỡi áp cao lục địa tăng cường xuống phía Nam, đêm nay và ngày mai, các địa phương trong tỉnh nhiều mây, đêm về sáng có mưa, mưa rào và dông rải rác, trưa chiều giảm mây, hửng nắng. Gió nhẹ. Vùng núi cao đêm về sáng trời rét.

Sắc màu cuối tuần ở Chợ văn hóa vùng cao Hợp Thành - Tả Phời

Sắc màu cuối tuần ở Chợ văn hóa vùng cao Hợp Thành - Tả Phời

Chợ văn hóa vùng cao Hợp Thành - Tả Phời (nay thuộc địa phận xã Hợp Thành) không chỉ là nơi giao thương hàng hóa mà còn là điểm hẹn văn hóa rực rỡ sắc màu, thể hiện rõ bản sắc của đồng bào các dân tộc vùng cao. Chợ họp vào Chủ nhật hàng tuần, thu hút đông đảo người dân địa phương và du khách, đặc biệt là người dân từ các phường lân cận như Cam Đường, Lào Cai vào mua bán, giao lưu.

Lào Cai huy động hơn 70% nguồn lực xã hội hóa để hỗ trợ nhà ở cho người dân khó khăn

Lào Cai huy động hơn 70% nguồn lực xã hội hóa để hỗ trợ nhà ở cho người dân khó khăn

Trong giai đoạn 2021 - 2025, toàn tỉnh Lào Cai đã hỗ trợ xây dựng 26.831 căn nhà cho các đối tượng chính sách và người dân có hoàn cảnh khó khăn về nhà ở. Kết quả này thể hiện tinh thần trách nhiệm cao và sự vào cuộc đồng bộ của cả hệ thống chính trị, cùng sự chung tay, đồng lòng của nhân dân.

Nâng cao chất lượng điều dưỡng, hướng tới cá thể hóa trong chăm sóc, điều trị

Nâng cao chất lượng điều dưỡng, hướng tới cá thể hóa trong chăm sóc, điều trị

Tăng cường năng lực điều dưỡng, trao quyền chủ động cho điều dưỡng là yếu tố quan trọng để nâng cao chất lượng chăm sóc toàn diện cho người bệnh. Đây là thông tin được chia sẻ tại Hội nghị Khoa học Điều dưỡng 2025 do Bệnh viện Đại học Phenikaa (PhenikaaMec) tổ chức ngày 18/10.

Nâng cao chất lượng điều trị và phục vụ người bệnh

Nâng cao chất lượng điều trị và phục vụ người bệnh

Nhiều năm qua, mặc dù còn khó khăn về cơ sở vật chất, nhân lực, trang thiết bị phục vụ công tác khám, chữa bệnh song các y, bác sĩ Phòng khám Đa khoa khu vực Hưng Khánh, Trung tâm Y tế khu vực Trấn Yên luôn làm tốt công tác chăm sóc sức khỏe Nhân dân.

fb yt zl tw