CMC đạt tốp 12 thế giới về nhận dạng văn bản

Mô hình CATI-VLM (Visual Document Understanding) do Viện Ứng dụng công nghệ CMC(CMC ATI) phát triển đã vượt qua nhiều đối thủ quốc tế đạt tốp 12 thế giới và tốp 1 Việt Nam trong bảng xếp hạng vừa được Robust Reading Competition (RRC) công bố tháng 6/2025 tại hạng mục Document Visual Question Answering (DocVQA)

Trong bối cảnh và chuyển đổi ứng dụng trí tuệ nhân tạo tại Việt Nam đang diễn ra mạnh mẽ, công nghệ OCR (Nhận dạng ký tự quang học) ngày càng giữ vai trò quan trọng trong việc số hóa tài liệu, tự động hóa quy trình nghiệp vụ, tiết kiệm chi phí và nâng cao hiệu quả quản trị. Tuy nhiên, với đặc thù tiếng Việt có dấu và chữ viết tay, bài toán nhận dạng không chỉ dừng lại ở việc 'đọc chữ', mà đòi hỏi mô hình phải có khả năng hiểu ngữ cảnh toàn diện.

Mới đây, Viện Ứng dụng công nghệ CMC (CMC ATI) đã công bố mô hình CATI-VLM (Visual Document Understanding) - do đội ngũ nghiên cứu phát triển từ kho dữ liệu lớn 5TB, vượt qua nhiều đối thủ quốc tế đạt tốp 12 thế giới và tốp 1 Việt Nam trong bảng xếp hạng vừa được Robust Reading Competition (RRC) công bố tháng 6/2025 tại hạng mục Document Visual Question Answering (DocVQA).

Robust Reading Competition (RRC) là một sân chơi khoa học uy tín, (https://rrc.cvc.uab.es/) được tổ chức bởi Trung tâm Thị giác máy tính (CVC) thuộc Đại học Autònoma de Barcelona (UAB) Tây Ban Nha, một cơ sở nghiên cứu có uy tín của thế giới trong lĩnh vực thị giác máy tính.

Cuộc thi khởi xướng từ năm 2011, được tổ chức thường niên trong khuôn khổ Hội nghị Quốc tế về phân tích và nhận dạng văn bản ICDAR – một trong những diễn đàn hàng đầu thế giới trong lĩnh vực thị giác máy tính. Cuộc thi thu hút đông đảo các nhà nghiên cứu, kỹ sư từ các trường đại học, viện nghiên cứu và các tập đoàn công nghệ lớn như Đại học Thanh Hoa, Hyundai Motor Group, Tencent… Các bài toán của RRC được thiết kế để thúc đẩy tiến bộ công nghệ, gắn chặt với bài toán thực tiễn từ dịch thuật, quản trị dữ liệu doanh nghiệp đến phân tích đô thị và xử lý tài liệu lịch sử.

Tiến sĩ Đặng Minh Tuấn, Viện trưởng CMC ATI chia sẻ: "Chúng tôi rất vui mừng khi năng lực nghiên cứu của đội ngũ CMC được khẳng định qua một sân chơi uy tín toàn cầu như RRC. Chỉ trong thời gian ngắn, đội ngũ nghiên cứu đã đạt thứ hạng cao, cho thấy năng lực cạnh tranh quốc tế với các tên tuổi lớn từ các quốc gia phát triển. Quan trọng hơn, đây là minh chứng rõ ràng cho khả năng làm chủ công nghệ để giải quyết các bài toán đặc thù của tiếng Việt và các lĩnh vực chuyên ngành tại Việt Nam."

Tiến sĩ Đặng Minh Tuấn, Viện trưởng CMC ATI.
Tiến sĩ Đặng Minh Tuấn, Viện trưởng CMC ATI.

CATI-VLM khác biệt so với OCR truyền thống ở chỗ không chỉ trích xuất ký tự, mà còn hiểu nhiều lớp thông tin: nội dung văn bản, yếu tố phi văn bản (ô tick, checkbox, biểu đồ, chữ ký, công thức), bố cục (cấu trúc trang, bảng biểu, form mẫu) và phong cách (font chữ, phần highlight…). Mô hình có thể trả lời câu hỏi trực quan đặt ra trên hình ảnh tài liệu, tương tự ChatGPT, mà không cần học trước từng form cụ thể.

Đáng chú ý, trên bảng xếp hạng RRC, CATI-VLM chỉ với 3 tỷ tham số nhưng đạt độ chính xác cao nhất ở 4/7 bộ dữ liệu, vượt trội nhiều mô hình Big Tech như Deepseek (27 tỷ tham số), GPT-4 Vision Turbo + Amazon Textract OCR (tốp 34) hay Baidu (tốp 22).

Thành tích cũng cho thấy cách tiếp cận thực chất, tập trung làm chủ lõi công nghệ, tối ưu hóa mô hình phù hợp với điều kiện hạ tầng của Việt Nam thay vì chạy theo quy mô tham số.

Ví dụ mẫu đơn tuyển sinh Đại học
Ví dụ mẫu đơn tuyển sinh Đại học
Văn bản đã được nhận dạng từ chữ viết tay ở hình trên.
Văn bản đã được nhận dạng từ chữ viết tay ở hình trên.

Ông Nguyễn Trung Chính, Chủ tịch Hội đồng quản trị, Chủ tịch Điều hành Tập đoàn Công nghệ CMC, nhấn mạnh: "Đây là thành quả của hơn một thập niên kiên trì đầu tư nghiên cứu-phát triển (R&D) công nghệ. Việc CMC đạt thành tích cao tại sân chơi công nghệ quốc tế khẳng định chiến lược làm chủ công nghệ Việt, đi đôi với định hướng Chuyển đổi AI và tiến ra thị trường toàn cầu. Chúng tôi tin trí tuệ Việt Nam hoàn toàn đủ năng lực sánh vai Big Tech toàn cầu, tạo vị thế xứng đáng trên bản đồ công nghệ thế giới."

CATI-VLM sẽ được ứng dụng trong chuỗi sản phẩm thuộc hệ sinh thái C.OpenAI, gồm: Trợ lý ảo CLS rà soát văn bản pháp luật, CMC SmartDoc – nền tảng chuyển đổi số tài liệu, Hệ quản trị tri thức CMC KMS, hệ thống báo cáo tự động cho văn phòng thông minh và các ứng dụng Agentic Documents thế hệ mới.

nhandan.vn

Có thể bạn quan tâm

Tin cùng chuyên mục

Công ước Hà Nội: Chiến lược an ninh mạng trong thế giới siêu kết nối

Công ước Hà Nội: Chiến lược an ninh mạng trong thế giới siêu kết nối

Trong các phòng họp trên toàn thế giới, một nhận thức mới đang hình thành: an ninh mạng không còn là một vấn đề thuần túy kỹ thuật. Các sự kiện toàn cầu - từ xung đột, lệnh trừng phạt đến các cuộc bầu cử - giờ đây đang lan tỏa rộng khắp trên không gian mạng, đe dọa ảnh hưởng tới cả những quốc gia, tổ chức hay doanh nghiệp không liên quan trực tiếp. Thực tế này đang làm thay đổi cơ bản cách các bên tiếp cận vấn đề an ninh mạng.

Livestream bán hàng nâng cao giá trị thương hiệu nông sản

Livestream bán hàng nâng cao giá trị thương hiệu nông sản

Không cần chờ thương lái hay vất vả mang hàng ra chợ, nhiều nông dân và hợp tác xã ở Lào Cai giờ đây đã tự tin dùng điện thoại để livestream bán nông sản. Cách làm này giúp nâng cao giá trị nông sản đặc hữu của tỉnh và đưa sản phẩm dễ dàng tiếp cận người tiêu dùng hơn.

EU tiên phong ứng dụng AI trong y tế

EU tiên phong ứng dụng AI trong y tế

Ủy ban châu Âu (EC) vừa chính thức ra mắt sáng kiến COMPASS-AI nhằm đẩy mạnh ứng dụng trí tuệ nhân tạo (AI) trong lĩnh vực chăm sóc sức khỏe, đánh dấu bước tiến quan trọng trong chiến lược Ứng dụng AI của Liên minh châu Âu (EU).

Tỉnh Lào Cai tham dự Ngày Chuyển đổi số quốc gia năm 2025

Tỉnh Lào Cai tham dự Ngày Chuyển đổi số quốc gia năm 2025

Sáng 21/10, Bộ Khoa học và Công nghệ tổ chức Chương trình chào mừng Ngày Chuyển đổi số quốc gia năm 2025 với chủ đề: "Chuyển đổi số: Nhanh hơn - hiệu quả hơn - gần dân hơn". Chương trình được tổ chức theo hình thức trực tiếp kết hợp trực tuyến tới tất cả các tỉnh, thành phố trên cả nước.

Trịnh Tường đẩy mạnh chuyển đổi số

Trịnh Tường đẩy mạnh chuyển đổi số

Thực hiện Nghị quyết 57-NQ/TW ngày 22/12/2024 của Bộ Chính trị về đột phá phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia, xã Trịnh Tường đã chủ động cụ thể hóa bằng nhiều kế hoạch, mô hình và phong trào thiết thực, đưa chuyển đổi số trở thành hành động cụ thể, tạo sức lan tỏa mạnh mẽ trong cộng đồng dân cư.

Tiên phong làm chủ công nghệ

Tiên phong làm chủ công nghệ

Việc xây dựng nền hành chính hiện đại, hiệu quả, lấy người dân làm trung tâm phục vụ đang trở thành yêu cầu cấp thiết. Đồng hành với tiến trình đó, tuổi trẻ Lào Cai không ngừng phát huy vai trò xung kích, tiên phong trong công cuộc chuyển đổi số (CĐS), thể hiện tinh thần trách nhiệm, trí tuệ và khát vọng cống hiến vì sự phát triển của quê hương.

Gieo “mầm số” từ Nghị quyết của Đảng

Gieo “mầm số” từ Nghị quyết của Đảng

Thực hiện Nghị quyết 57 của Bộ Chính trị về đột phá phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia, Đảng bộ phường Trung Tâm (Lào Cai) đã chủ động cụ thể hóa bằng nhiều kế hoạch, mô hình và phong trào thiết thực, đưa chuyển đổi số trở thành hành động cụ thể, lan tỏa từ tổ chức Đảng đến người dân.

Phát triển máy in sinh học siêu nhỏ có thể chữa lành loét dạ dày

Phát triển máy in sinh học siêu nhỏ có thể chữa lành loét dạ dày

Các nhà khoa học tại Trường Bách khoa liên bang Lausanne (EPFL) của Thụy Sĩ cho biết, trong tương lai, những tổn thương đường tiêu hóa như loét hoặc xuất huyết có thể được điều trị bằng máy in sinh học cỡ viên thuốc, có khả năng được điều khiển đến vị trí vết thương để in mô giúp phục hồi.

Điện mặt trời nông nghiệp - giải pháp cho năng lượng sạch và sinh kế bền vững

Điện mặt trời nông nghiệp - giải pháp cho năng lượng sạch và sinh kế bền vững

Kết hợp điện mặt trời với sản xuất nông nghiệp đang trở thành hướng đi chiến lược của nhiều quốc gia trong quá trình chuyển dịch năng lượng xanh. Tại Việt Nam, mô hình điện mặt trời nông nghiệp không chỉ giúp tạo nguồn điện sạch mà còn nâng cao năng suất, đa dạng hóa sinh kế và góp phần giảm phát thải khí nhà kính.

Số hóa tại xã biên giới Trịnh Tường

Số hóa tại xã biên giới Trịnh Tường

Trong bối cảnh cuộc cách mạng công nghệ đang diễn ra mạnh mẽ, Trịnh Tường - xã biên giới của tỉnh, đã đẩy mạnh triển khai mô hình chuyển đổi số tại các thôn. Đây là nỗ lực đáng chú ý nhằm tạo ra sự thay đổi về công nghệ, giúp người dân dễ dàng tiếp cận các dịch vụ hành chính công thuận tiện và hiệu quả.

Lào Cai đẩy mạnh tuyên truyền sử dụng “Sổ tay đảng viên điện tử”

Lào Cai đẩy mạnh tuyên truyền sử dụng “Sổ tay đảng viên điện tử”

Thực hiện Quy định số 339-QĐ/TW ngày 10/7/2025 của Ban Bí thư về sử dụng ứng dụng “Sổ tay đảng viên điện tử” và Hướng dẫn số 26-HD/BTGDVTW của Ban Tuyên giáo và Dân vận Trung ương, Ban Tuyên giáo và Dân vận Tỉnh ủy Lào Cai đã ban hành Hướng dẫn số 13-HD/BTGDVTU ngày 11/9/2025 về công tác tuyên truyền, hướng dẫn sử dụng ứng dụng này.

Mậu A lan tỏa phong trào "Bình dân học vụ số"

Mậu A lan tỏa phong trào "Bình dân học vụ số"

Phong trào “Bình dân học vụ số” tại xã Mậu A đang mang đến những thay đổi tích cực trong cách tiếp cận công nghệ, đặc biệt là với người cao tuổi, lao động phổ thông và các hộ ở vùng sâu, vùng xa. Phong trào góp phần thúc đẩy quá trình chuyển đổi số ở cơ sở, từng bước hình thành xã hội số từ cộng đồng.

Đẩy mạnh ứng dụng chuyển đổi số trong quản lý thuế

Đẩy mạnh ứng dụng chuyển đổi số trong quản lý thuế

Với phương châm “lấy người nộp thuế làm trung tâm phục vụ”, Thuế cơ sở 6 tỉnh Lào Cai đang nỗ lực đẩy mạnh ứng dụng công nghệ số vào quản lý, cải cách thủ tục hành chính, tạo thuận lợi cho người dân và doanh nghiệp. Qua đó đã góp phần thay đổi thói quen của người nộp thuế, nâng cao hiệu quả quản lý thuế.

Lào Cai hưởng ứng "Ngày hội toàn dân học tập số" và trao giải các cuộc thi sáng tạo

Lào Cai hưởng ứng "Ngày hội toàn dân học tập số" và trao giải các cuộc thi sáng tạo

Chiều 15/10, tỉnh Lào Cai tổ chức Chương trình hưởng ứng “Ngày hội toàn dân học tập số” gắn với “Ngày hội đổi mới sáng tạo quốc gia 1/10”, “Ngày Chuyển đổi số quốc gia 10/10” và tổng kết, trao giải Cuộc thi sáng tạo kỹ thuật, Cuộc thi sáng tạo thanh, thiếu niên, nhi đồng tỉnh Lào Cai năm 2025. Chương trình được kết nối trực tuyến đến 99 điểm cầu xã, phường trên địa bàn toàn tỉnh.

Tân Hợp lan tỏa phong trào “Bình dân học vụ số”

Tân Hợp lan tỏa phong trào “Bình dân học vụ số”

Phong trào “Bình dân học vụ số” ở xã Tân Hợp, tỉnh Lào Cai đã và đang lan tỏa rộng khắp, thúc đẩy chuyển đổi số ở cơ sở. Đây là bước đi ý nghĩa, mở ra cơ hội tiếp cận tri thức số cho người dân khu vực nông thôn, để không ai bị bỏ lại phía sau trong hành trình phát triển.

Xây dựng nguồn nhân lực cho kỷ nguyên số

Xây dựng nguồn nhân lực cho kỷ nguyên số

Thời gian qua, tỉnh đã triển khai đồng bộ nhiều chương trình đào tạo, bồi dưỡng kỹ năng số cho đội ngũ cán bộ, công chức, viên chức và cộng đồng. Cùng với đó, từng bước hoàn thiện cơ chế, chính sách thu hút, đãi ngộ nhân lực chất lượng cao, hướng đến mục tiêu phát triển bền vững, xây dựng chính quyền số, kinh tế số và xã hội số hiện đại.

fb yt zl tw