[논문리뷰] HunyuanOCR Technical Report

수정: 2025년 11월 26일

링크: 논문 PDF로 바로 열기

저자: Tencent Hunyuan Vision Team

핵심 연구 목표

기존 파이프라인 기반 OCR 시스템의 에러 전파높은 유지보수 비용 문제를 해결하고, 대규모 일반 VLM의 높은 컴퓨팅 자원 요구사항 과 OCR 특화 VLM의 불완전한 엔드투엔드 최적화 한계를 극복하는 것을 목표로 합니다. 1B 파라미터 규모의 경량 엔드투엔드 VLM 인 HunyuanOCR을 통해 상업적 수준의 성능을 달성하고, OCR 작업에 대한 다양한 기능 범위높은 추론 효율성 을 제공하고자 합니다.

핵심 방법론

HunyuanOCR은 0.4B 파라미터 Vision Transformer (ViT)0.5B 파라미터 Hunyuan Language Model (LLM)Adaptive MLP Connector 로 연결한 효율적이고 경량화된 아키텍처를 채택합니다. 하이브리드 생성-판별적 공동 훈련 전략 을 기반으로 4단계 사전 훈련GRPO (Group Relative Policy Optimization) 알고리즘 을 활용한 온라인 강화 학습 을 수행하며, 각 OCR 태스크(텍스트 스포팅, 문서 파싱, IE, VQA, 번역)에 정교하게 설계된 보상 함수 를 적용하여 모델 성능을 최적화합니다.

주요 결과

HunyuanOCR은 다양한 벤치마크에서 최고 수준의 성능 을 입증했습니다. 특히, 텍스트 스포팅에서 70.92% 의 전반적인 정확도를 달성하여 기존 파이프라인 및 일반 VLM을 크게 능가했습니다. 문서 파싱에서는 OmniDocBench 에서 94.10% , Wild-OmniDocBench 에서 85.21% , DocML 에서 91.03% 의 성능을 보여 경량 모델 임에도 더 큰 OCR 특화 VLM들을 뛰어넘었습니다. 정보 추출(IE) 및 VQA 태스크에서는 카드/영수증 IE와 비디오 자막 추출에서 대규모 VLM보다 평균 2점 이상 높은 성능 을 달성했으며, ICDAR 2025 문서 이미지 기계 번역 대회 에서 1위 를 차지했습니다.

AI 실무자를 위한 시사점

HunyuanOCR은 1B 파라미터 의 경량 모델로 다양한 OCR 태스크를 엔드투엔드로 통합 처리 하여 배포 복잡성을 줄이고 추론 효율성 을 크게 향상시킵니다. 이는 리소스 제약이 있는 환경 이나 온디바이스 AI 애플리케이션 에 특히 유용하며, 자연어 지시(prompting) 를 통한 유연한 활용이 가능합니다. 강화 학습 의 성공적인 적용은 OCR과 같은 구조화된 태스크에서 VLM의 정확도와 안정성을 높이는 새로운 방향을 제시합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#Optical Character Recognition#Multimodal Large Language Model#End-to-End Learning#Reinforcement Learning#Document Parsing#Information Extraction#Text Spotting

Review 의 다른글