[논문리뷰] Ovis2.5 Technical Report

2025년 8월 19일수정: 2025년 8월 19일

링크: 논문 PDF로 바로 열기

저자: Yang Li, cqgwin, Suikong, xxyyy123, runninglsy

핵심 연구 목표

Ovis2.5는 이전 Ovis 버전의 한계, 특히 고정 해상도 이미지 처리와 선형 사고 체인(CoT) 기반 추론의 문제를 해결하고자 합니다. 이를 위해 네이티브 해상도 시각 인코더 를 통합하여 세부 정보 및 전역 레이아웃 보존 능력을 강화하고, 반성적(reflective) 추론 능력 을 통해 복잡한 다중 모달 문제 해결 역량을 향상시키는 것을 목표로 합니다.

핵심 방법론

시각 인코더로 NaViT 를 채택하여 이미지의 네이티브, 가변 해상도 처리를 가능하게 했으며, LLM 백본은 Qwen3 로 업그레이드했습니다. 모델 훈련은 시각/다중 모달 사전 훈련, 지시 튜닝, DPO(Direct Preference Optimization) 및 GRPO(Group Relative Policy Optimization) 를 포함하는 5단계 커리큘럼 을 따릅니다. 또한, 다중 모달 데이터 패킹 과 하이브리드 병렬 처리 를 통해 3-4배의 훈련 속도 향상을 달성했습니다.

주요 결과

OpenCompass 다중 모달 리더보드 에서 Ovis2.5-9B 는 평균 78.3점 을 달성하며 40B 파라미터 미만 오픈소스 MLLM 중 최고 성능 을 기록했습니다. Ovis2.5-2B 는 73.9점 으로 해당 크기에서 SOTA 를 수립했으며, 특히 STEM 벤치마크 , OCRBench v2(87.9점) , 복잡한 차트 분석 및 영상 작업 에서 선도적인 결과를 보였습니다.

AI 실무자를 위한 시사점

네이티브 해상도 처리 는 차트, 문서 등 시각적으로 밀집된 콘텐츠 분석에 필수적인 세부 정보를 보존하여 실제 애플리케이션의 정확도를 크게 향상시킬 수 있습니다. 추론 시 선택 가능한 "사고 모드(thinking mode)" 는 복잡한 문제에 대해 정확도와 지연 시간 간의 균형을 제공하여 다양한 배포 시나리오에 유연성을 부여합니다. 또한, Ovis2.5-9B 와 Ovis2.5-2B 의 공개는 특히 리소스 제약이 있는 온디바이스 환경을 위한 고성능 오픈소스 솔루션을 제공합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Next Visual Granularity Generation
현재글 : [논문리뷰] Ovis2.5 Technical Report
다음글 [논문리뷰] Precise Action-to-Video Generation Through Visual Action Prompts