CMC đạt tốp 12 thế giới về nhận dạng văn bản

Mô hình CATI-VLM (Visual Document Understanding) do Viện Ứng dụng công nghệ CMC(CMC ATI) phát triển đã vượt qua nhiều đối thủ quốc tế đạt tốp 12 thế giới và tốp 1 Việt Nam trong bảng xếp hạng vừa được Robust Reading Competition (RRC) công bố tháng 6/2025 tại hạng mục Document Visual Question Answering (DocVQA)

Trong bối cảnh và chuyển đổi ứng dụng trí tuệ nhân tạo tại Việt Nam đang diễn ra mạnh mẽ, công nghệ OCR (Nhận dạng ký tự quang học) ngày càng giữ vai trò quan trọng trong việc số hóa tài liệu, tự động hóa quy trình nghiệp vụ, tiết kiệm chi phí và nâng cao hiệu quả quản trị. Tuy nhiên, với đặc thù tiếng Việt có dấu và chữ viết tay, bài toán nhận dạng không chỉ dừng lại ở việc 'đọc chữ', mà đòi hỏi mô hình phải có khả năng hiểu ngữ cảnh toàn diện.

Mới đây, Viện Ứng dụng công nghệ CMC (CMC ATI) đã công bố mô hình CATI-VLM (Visual Document Understanding) - do đội ngũ nghiên cứu phát triển từ kho dữ liệu lớn 5TB, vượt qua nhiều đối thủ quốc tế đạt tốp 12 thế giới và tốp 1 Việt Nam trong bảng xếp hạng vừa được Robust Reading Competition (RRC) công bố tháng 6/2025 tại hạng mục Document Visual Question Answering (DocVQA).

Robust Reading Competition (RRC) là một sân chơi khoa học uy tín, (https://rrc.cvc.uab.es/) được tổ chức bởi Trung tâm Thị giác máy tính (CVC) thuộc Đại học Autònoma de Barcelona (UAB) Tây Ban Nha, một cơ sở nghiên cứu có uy tín của thế giới trong lĩnh vực thị giác máy tính.

Cuộc thi khởi xướng từ năm 2011, được tổ chức thường niên trong khuôn khổ Hội nghị Quốc tế về phân tích và nhận dạng văn bản ICDAR – một trong những diễn đàn hàng đầu thế giới trong lĩnh vực thị giác máy tính. Cuộc thi thu hút đông đảo các nhà nghiên cứu, kỹ sư từ các trường đại học, viện nghiên cứu và các tập đoàn công nghệ lớn như Đại học Thanh Hoa, Hyundai Motor Group, Tencent… Các bài toán của RRC được thiết kế để thúc đẩy tiến bộ công nghệ, gắn chặt với bài toán thực tiễn từ dịch thuật, quản trị dữ liệu doanh nghiệp đến phân tích đô thị và xử lý tài liệu lịch sử.

Tiến sĩ Đặng Minh Tuấn, Viện trưởng CMC ATI chia sẻ: "Chúng tôi rất vui mừng khi năng lực nghiên cứu của đội ngũ CMC được khẳng định qua một sân chơi uy tín toàn cầu như RRC. Chỉ trong thời gian ngắn, đội ngũ nghiên cứu đã đạt thứ hạng cao, cho thấy năng lực cạnh tranh quốc tế với các tên tuổi lớn từ các quốc gia phát triển. Quan trọng hơn, đây là minh chứng rõ ràng cho khả năng làm chủ công nghệ để giải quyết các bài toán đặc thù của tiếng Việt và các lĩnh vực chuyên ngành tại Việt Nam."

Tiến sĩ Đặng Minh Tuấn, Viện trưởng CMC ATI.
Tiến sĩ Đặng Minh Tuấn, Viện trưởng CMC ATI.

CATI-VLM khác biệt so với OCR truyền thống ở chỗ không chỉ trích xuất ký tự, mà còn hiểu nhiều lớp thông tin: nội dung văn bản, yếu tố phi văn bản (ô tick, checkbox, biểu đồ, chữ ký, công thức), bố cục (cấu trúc trang, bảng biểu, form mẫu) và phong cách (font chữ, phần highlight…). Mô hình có thể trả lời câu hỏi trực quan đặt ra trên hình ảnh tài liệu, tương tự ChatGPT, mà không cần học trước từng form cụ thể.

Đáng chú ý, trên bảng xếp hạng RRC, CATI-VLM chỉ với 3 tỷ tham số nhưng đạt độ chính xác cao nhất ở 4/7 bộ dữ liệu, vượt trội nhiều mô hình Big Tech như Deepseek (27 tỷ tham số), GPT-4 Vision Turbo + Amazon Textract OCR (tốp 34) hay Baidu (tốp 22).

Thành tích cũng cho thấy cách tiếp cận thực chất, tập trung làm chủ lõi công nghệ, tối ưu hóa mô hình phù hợp với điều kiện hạ tầng của Việt Nam thay vì chạy theo quy mô tham số.

Ví dụ mẫu đơn tuyển sinh Đại học
Ví dụ mẫu đơn tuyển sinh Đại học
Văn bản đã được nhận dạng từ chữ viết tay ở hình trên.
Văn bản đã được nhận dạng từ chữ viết tay ở hình trên.

Ông Nguyễn Trung Chính, Chủ tịch Hội đồng quản trị, Chủ tịch Điều hành Tập đoàn Công nghệ CMC, nhấn mạnh: "Đây là thành quả của hơn một thập niên kiên trì đầu tư nghiên cứu-phát triển (R&D) công nghệ. Việc CMC đạt thành tích cao tại sân chơi công nghệ quốc tế khẳng định chiến lược làm chủ công nghệ Việt, đi đôi với định hướng Chuyển đổi AI và tiến ra thị trường toàn cầu. Chúng tôi tin trí tuệ Việt Nam hoàn toàn đủ năng lực sánh vai Big Tech toàn cầu, tạo vị thế xứng đáng trên bản đồ công nghệ thế giới."

CATI-VLM sẽ được ứng dụng trong chuỗi sản phẩm thuộc hệ sinh thái C.OpenAI, gồm: Trợ lý ảo CLS rà soát văn bản pháp luật, CMC SmartDoc – nền tảng chuyển đổi số tài liệu, Hệ quản trị tri thức CMC KMS, hệ thống báo cáo tự động cho văn phòng thông minh và các ứng dụng Agentic Documents thế hệ mới.

nhandan.vn

Có thể bạn quan tâm

Tin cùng chuyên mục

Cứ 4 lao động Singapore thì có 3 người sử dụng AI

Cứ 4 lao động Singapore thì có 3 người sử dụng AI

Tại Singapore, cứ 4 người lao động thì có 3 người sử dụng công cụ trí tuệ nhân tạo (AI) trong công việc. Bộ trưởng Bộ Phát triển Kỹ thuật số và Thông tin Josephine Teo ngày 5/9 cho biết nhu cầu đối với lực lượng lao động vừa có chuyên môn sâu vừa thành thạo sử dụng AI ngày càng lớn.

Hạt giống vô tính hứa hẹn thay đổi nông nghiệp toàn cầu

Hạt giống vô tính hứa hẹn thay đổi nông nghiệp toàn cầu

Theo Nature, một thử nghiệm sắp diễn ra tại miền Đông Australia có thể mở ra kỷ nguyên mới cho nông nghiệp: những cây cao lương được chỉnh sửa gen để tự tạo ra hạt giống là bản sao di truyền của chính chúng, thay vì sinh sản hữu tính. Mỗi bông cây có thể cho ra hàng nghìn hạt “nhân bản”, giữ nguyên đặc tính của thế hệ trước.

Người già tiếp cận mạng xã hội

Người già tiếp cận mạng xã hội

Mạng xã hội, nếu được sử dụng đúng cách, không chỉ là công cụ để người cao tuổi “bắt kịp thời đại”, mà còn là nơi nuôi dưỡng tinh thần tích cực, tăng cường tương tác xã hội và kéo gần khoảng cách giữa các thế hệ. Khi người cao tuổi biết tự bảo vệ mình trước cạm bẫy công nghệ, mạng xã hội sẽ thực sự trở thành không gian lành mạnh, an toàn và nhiều giá trị.

Triển lãm "95 năm Cờ Đảng soi đường" công nghệ tương tác 3D xuất hiện trên không gian số

Triển lãm "95 năm Cờ Đảng soi đường" công nghệ tương tác 3D xuất hiện trên không gian số

Lần đầu tiên tại Việt Nam, một triển lãm số 3D Đảng được giới thiệu tới công chúng. Chỉ với vài thao tác, công chúng có thể “dạo bước” giữa những khung cảnh lịch sử, tương tác với các hiện vật như đang có mặt trực tiếp tại triển lãm, qua đó mở ra góc nhìn toàn diện về chặng đường 95 năm lịch sử vẻ vang của Đảng và dân tộc ta.

Đột phá trong kỷ nguyên số

Đột phá trong kỷ nguyên số

Khoa học công nghệ Việt Nam đang ghi dấu ấn mạnh mẽ với hàng loạt thành tựu về các các lĩnh vực trí tuệ nhân tạo, dữ liệu lớn, sinh học, năng lượng nguyên tử... tạo nền tảng thúc đẩy chuyển đổi số, nâng cao sức cạnh tranh quốc gia.

Tăng cường đảm bảo an toàn thông tin, an ninh mạng trong dịp nghỉ lễ 2/9

Công an tỉnh Lào Cai: Tăng cường đảm bảo an toàn thông tin, an ninh mạng trong dịp nghỉ lễ 2/9

Kỳ nghỉ lễ 2/9 hằng năm là thời điểm Lào Cai đón một lượng lớn người dân và du khách. Các hoạt động du lịch, mua sắm trực tuyến, giao dịch điện tử và trao đổi thông tin trên mạng xã hội trở nên sôi động hơn bao giờ hết. Đây cũng chính là khoảng thời gian mà các đối tượng xấu gia tăng hoạt động lừa đảo, tấn công mạng, phát tán thông tin xấu độc, gây mất an ninh trật tự trên không gian mạng.

Quân khu 2 kiểm tra công tác cải cách hành chính và chuyển đổi số tại Bộ CHQS tỉnh Lào Cai

Quân khu 2 kiểm tra công tác cải cách hành chính và chuyển đổi số tại Bộ CHQS tỉnh Lào Cai

Ngày 28/8, Đoàn công tác Quân khu 2 do Thiếu tướng Phạm Hùng Hưng - Phó Tư lệnh Quân khu 2, Phó Trưởng ban Thường trực Ban Chỉ đạo phát triển công nghệ, đổi mới sáng tạo, chuyển đổi số (CĐS), thực hiện Đề án 06 và cải cách hành chính (CCHC) Quân khu làm Trưởng đoàn đã kiểm tra công tác CCHC và CĐS tại Bộ CHQS tỉnh Lào Cai.

Công nghệ đánh thức di sản ở bảo tàng

Công nghệ đánh thức di sản ở bảo tàng

Không gian bảo tàng đang thay đổi mạnh mẽ nhờ sự hỗ trợ của công nghệ số. Từ những phòng trưng bày tĩnh, nay bảo tàng đã trở thành không gian tương tác sống động, đưa di sản đến gần hơn với công chúng, đặc biệt là giới trẻ.

fb yt zl tw