CMC đạt tốp 12 thế giới về nhận dạng văn bản

Mô hình CATI-VLM (Visual Document Understanding) do Viện Ứng dụng công nghệ CMC(CMC ATI) phát triển đã vượt qua nhiều đối thủ quốc tế đạt tốp 12 thế giới và tốp 1 Việt Nam trong bảng xếp hạng vừa được Robust Reading Competition (RRC) công bố tháng 6/2025 tại hạng mục Document Visual Question Answering (DocVQA)

Trong bối cảnh và chuyển đổi ứng dụng trí tuệ nhân tạo tại Việt Nam đang diễn ra mạnh mẽ, công nghệ OCR (Nhận dạng ký tự quang học) ngày càng giữ vai trò quan trọng trong việc số hóa tài liệu, tự động hóa quy trình nghiệp vụ, tiết kiệm chi phí và nâng cao hiệu quả quản trị. Tuy nhiên, với đặc thù tiếng Việt có dấu và chữ viết tay, bài toán nhận dạng không chỉ dừng lại ở việc 'đọc chữ', mà đòi hỏi mô hình phải có khả năng hiểu ngữ cảnh toàn diện.

Mới đây, Viện Ứng dụng công nghệ CMC (CMC ATI) đã công bố mô hình CATI-VLM (Visual Document Understanding) - do đội ngũ nghiên cứu phát triển từ kho dữ liệu lớn 5TB, vượt qua nhiều đối thủ quốc tế đạt tốp 12 thế giới và tốp 1 Việt Nam trong bảng xếp hạng vừa được Robust Reading Competition (RRC) công bố tháng 6/2025 tại hạng mục Document Visual Question Answering (DocVQA).

Robust Reading Competition (RRC) là một sân chơi khoa học uy tín, (https://rrc.cvc.uab.es/) được tổ chức bởi Trung tâm Thị giác máy tính (CVC) thuộc Đại học Autònoma de Barcelona (UAB) Tây Ban Nha, một cơ sở nghiên cứu có uy tín của thế giới trong lĩnh vực thị giác máy tính.

Cuộc thi khởi xướng từ năm 2011, được tổ chức thường niên trong khuôn khổ Hội nghị Quốc tế về phân tích và nhận dạng văn bản ICDAR – một trong những diễn đàn hàng đầu thế giới trong lĩnh vực thị giác máy tính. Cuộc thi thu hút đông đảo các nhà nghiên cứu, kỹ sư từ các trường đại học, viện nghiên cứu và các tập đoàn công nghệ lớn như Đại học Thanh Hoa, Hyundai Motor Group, Tencent… Các bài toán của RRC được thiết kế để thúc đẩy tiến bộ công nghệ, gắn chặt với bài toán thực tiễn từ dịch thuật, quản trị dữ liệu doanh nghiệp đến phân tích đô thị và xử lý tài liệu lịch sử.

Tiến sĩ Đặng Minh Tuấn, Viện trưởng CMC ATI chia sẻ: "Chúng tôi rất vui mừng khi năng lực nghiên cứu của đội ngũ CMC được khẳng định qua một sân chơi uy tín toàn cầu như RRC. Chỉ trong thời gian ngắn, đội ngũ nghiên cứu đã đạt thứ hạng cao, cho thấy năng lực cạnh tranh quốc tế với các tên tuổi lớn từ các quốc gia phát triển. Quan trọng hơn, đây là minh chứng rõ ràng cho khả năng làm chủ công nghệ để giải quyết các bài toán đặc thù của tiếng Việt và các lĩnh vực chuyên ngành tại Việt Nam."

Tiến sĩ Đặng Minh Tuấn, Viện trưởng CMC ATI.
Tiến sĩ Đặng Minh Tuấn, Viện trưởng CMC ATI.

CATI-VLM khác biệt so với OCR truyền thống ở chỗ không chỉ trích xuất ký tự, mà còn hiểu nhiều lớp thông tin: nội dung văn bản, yếu tố phi văn bản (ô tick, checkbox, biểu đồ, chữ ký, công thức), bố cục (cấu trúc trang, bảng biểu, form mẫu) và phong cách (font chữ, phần highlight…). Mô hình có thể trả lời câu hỏi trực quan đặt ra trên hình ảnh tài liệu, tương tự ChatGPT, mà không cần học trước từng form cụ thể.

Đáng chú ý, trên bảng xếp hạng RRC, CATI-VLM chỉ với 3 tỷ tham số nhưng đạt độ chính xác cao nhất ở 4/7 bộ dữ liệu, vượt trội nhiều mô hình Big Tech như Deepseek (27 tỷ tham số), GPT-4 Vision Turbo + Amazon Textract OCR (tốp 34) hay Baidu (tốp 22).

Thành tích cũng cho thấy cách tiếp cận thực chất, tập trung làm chủ lõi công nghệ, tối ưu hóa mô hình phù hợp với điều kiện hạ tầng của Việt Nam thay vì chạy theo quy mô tham số.

Ví dụ mẫu đơn tuyển sinh Đại học
Ví dụ mẫu đơn tuyển sinh Đại học
Văn bản đã được nhận dạng từ chữ viết tay ở hình trên.
Văn bản đã được nhận dạng từ chữ viết tay ở hình trên.

Ông Nguyễn Trung Chính, Chủ tịch Hội đồng quản trị, Chủ tịch Điều hành Tập đoàn Công nghệ CMC, nhấn mạnh: "Đây là thành quả của hơn một thập niên kiên trì đầu tư nghiên cứu-phát triển (R&D) công nghệ. Việc CMC đạt thành tích cao tại sân chơi công nghệ quốc tế khẳng định chiến lược làm chủ công nghệ Việt, đi đôi với định hướng Chuyển đổi AI và tiến ra thị trường toàn cầu. Chúng tôi tin trí tuệ Việt Nam hoàn toàn đủ năng lực sánh vai Big Tech toàn cầu, tạo vị thế xứng đáng trên bản đồ công nghệ thế giới."

CATI-VLM sẽ được ứng dụng trong chuỗi sản phẩm thuộc hệ sinh thái C.OpenAI, gồm: Trợ lý ảo CLS rà soát văn bản pháp luật, CMC SmartDoc – nền tảng chuyển đổi số tài liệu, Hệ quản trị tri thức CMC KMS, hệ thống báo cáo tự động cho văn phòng thông minh và các ứng dụng Agentic Documents thế hệ mới.

nhandan.vn

Có thể bạn quan tâm

Tin cùng chuyên mục

19 nhiệm vụ cần làm ngay để thúc đẩy khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số

19 nhiệm vụ cần làm ngay để thúc đẩy khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số

Đó là ý kiến chỉ đạo của đồng chí Hoàng Giang - Phó Bí thư Thường trực Tỉnh ủy, Chủ tịch HĐND tỉnh, Phó Trưởng Ban Thường trực Ban Chỉ đạo phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số tỉnh Lào Cai tại Thông báo số 455 -TB/BCĐ về kết quả phiên họp chuyên đề đánh giá tiến độ, kết quả triển khai một số nhiệm vụ theo Nghị quyết số 57-NQ/TW của Bộ Chính trị; bàn giải pháp đẩy nhanh thực hiện trong thời gian tới, tổ chức ngày 28/4 vừa qua.

Lào Cai: Kỹ năng số lan tỏa từ những cách học giản dị

Lào Cai: Kỹ năng số lan tỏa từ những cách học giản dị

Ở các bản làng vùng cao Lào Cai, chuyển đổi số đang đến gần người dân bằng những cách rất đời thường. Người lớn tuổi học dùng điện thoại từ con cháu, nông dân tự xem video để làm kinh tế, cán bộ thôn bản “cầm tay chỉ việc” hướng dẫn dịch vụ công trực tuyến. Từ những cách học giản dị, gắn với nhu cầu thực tế, bà con đang từng bước ứng dụng công nghệ vào sản xuất, kinh doanh và sinh hoạt hằng ngày, đưa kỹ năng số lan tỏa tự nhiên, bền vững trong cộng đồng.

Đổi mới phương pháp đánh giá kết quả học tập

Trường Chính trị tỉnh: Đổi mới phương pháp đánh giá kết quả học tập

Thời gian qua, Trường Chính trị tỉnh đã triển khai nhiều giải pháp đổi mới, trong đó nổi bật là mô hình “Ứng dụng chuyển đổi số vào đánh giá kết quả học tập của học viên trong chương trình Trung cấp Lý luận chính trị”. Đây được xem là bước tiến quan trọng, góp phần nâng cao chất lượng đào tạo, đồng thời bảo đảm tính khách quan, minh bạch và chính xác trong công tác kiểm tra, đánh giá.

Lào Cai: Chuyển đổi số trong quản trị công - đòn bẩy cho phát triển kinh tế bền vững

Lào Cai: Chuyển đổi số trong quản trị công - đòn bẩy cho phát triển kinh tế bền vững

Từ việc ứng dụng các nền tảng số trong giải quyết thủ tục hành chính, quản lý đất đai đến triển khai công nghệ cảm biến giám sát môi trường, tỉnh Lào Cai đang từng bước hình thành hệ sinh thái số minh bạch, hiệu quả, trở thành động lực thu hút các nhà đầu tư theo hướng bền vững.

Kể chuyện văn hoá Dao bằng công nghệ số

Kể chuyện văn hoá Dao bằng công nghệ số

Giữ gìn bản sắc văn hoá là nhiệm vụ quan trọng trong đời sống mỗi dân tộc. Trước đây, các giá trị này thường được trao truyền từ thế hệ này sang thế hệ khác qua phương thức truyền miệng hoặc bằng chính việc sống cùng những văn hoá ấy. Ngày nay, trong bối cảnh công nghệ phát triển mạnh mẽ, thế hệ trẻ các dân tộc Lào Cai, trong đó có dân tộc Dao, đã chủ động đổi mới cách thức bảo tồn di sản. Vẫn là lưu giữ và trao truyền, nhưng họ đang thực hiện điều đó thông qua nền tảng công nghệ số.

Tăng tốc triển khai Nghị quyết 57 tại Cam Đường

Tăng tốc triển khai Nghị quyết 57 tại Cam Đường

Ngày 24/4, UBND phường Cam Đường phối hợp với Sở Khoa học và Công nghệ tổ chức buổi làm việc nhằm tháo gỡ khó khăn, vướng mắc trong quá trình triển khai Nghị quyết số 57 của Bộ Chính trị về phát triển khoa học công nghệ, đổi mới sáng tạo và chuyển đổi số trên địa bàn.

Chuyển đổi số – đòn bẩy nâng cao chất lượng công tác thanh tra

Chuyển đổi số – đòn bẩy nâng cao chất lượng công tác thanh tra

Sau khi vận hành mô hình chính quyền địa phương hai cấp, yêu cầu về chất lượng chuyên môn, nghiệp vụ ngày càng cao, Thanh tra tỉnh Lào Cai đã đẩy mạnh ứng dụng khoa học – công nghệ, đổi mới sáng tạo và chuyển đổi số vào hoạt động chuyên môn, tạo chuyển biến rõ nét trong công tác chỉ đạo, điều hành, góp phần nâng cao chất lượng hoạt động thanh tra.

Lào Cai hướng tới mô hình “Văn phòng Tỉnh ủy số”

Lào Cai hướng tới mô hình “Văn phòng Tỉnh ủy số”

Trước yêu cầu nâng cao chất lượng tham mưu, tổng hợp và phục vụ, Văn phòng Tỉnh ủy Lào Cai triển khai xây dựng mô hình “Văn phòng Tỉnh ủy số” theo hướng đồng bộ, hiện đại. Đây không chỉ là bước chuyển trong ứng dụng công nghệ, còn là quá trình đổi mới toàn diện phương thức làm việc, tổ chức dữ liệu và điều hành, nhằm bảo đảm thông tin kịp thời, chính xác, phục vụ hiệu quả công tác lãnh đạo, chỉ đạo trong giai đoạn mới.

Đoàn công tác Sở Nội vụ tỉnh Lào Cai kiểm tra, hướng dẫn nghiệp vụ tại xã Trịnh Tường

Đoàn công tác Sở Nội vụ tỉnh Lào Cai kiểm tra, hướng dẫn nghiệp vụ tại xã Trịnh Tường

Ngày 20/4, Đoàn công tác của Sở Nội vụ tỉnh Lào Cai do bà Bùi Phương Loan - Phó Giám đốc Trung tâm Dịch vụ tổng hợp Nội vụ tỉnh làm trưởng đoàn đã kiểm tra, hướng dẫn nghiệp vụ công tác chỉnh lý, số hóa, giao nhận tài liệu và thành lập các tổ, đội thực hiện nhiệm vụ tại xã Trịnh Tường.

Ứng dụng chuyển đổi số trong quản lý hồ sơ bảo trợ xã hội

Ứng dụng chuyển đổi số trong quản lý hồ sơ bảo trợ xã hội

Trong bối cảnh đẩy mạnh chuyển đổi số quốc gia, việc ứng dụng công nghệ thông tin vào công tác quản lý hồ sơ và khai thác thông tin đang trở thành xu hướng tất yếu. Tại Trung tâm Công tác xã hội và Bảo trợ xã hội số 2 tỉnh Lào Cai, quá trình này đã và đang mang lại những chuyển biến rõ nét, góp phần nâng cao hiệu quả quản lý, giảm áp lực hành chính và phục vụ người dân ngày càng tốt hơn.

fb yt zl tw