[논문리뷰] Latent Implicit Visual Reasoning
링크: 논문 PDF로 바로 열기
저자: Kelvin Li, Chuyi Shang, Leonid Karlinsky, Rogerio Feris, Trevor Darrell, Roei Herzig
핵심 연구 목표
본 논문은 현재 대규모 멀티모달 모델(LMMs) 이 텍스트 중심적 추론에 치우쳐 있어 시각적 정보 처리가 많이 필요한 추론 태스크에서 한계를 보이는 문제를 해결하고자 합니다. 특히, 중간 시각적 추상화를 명시적으로 지정하기 어려운 태스크에서, 수동적인 시각적 감독 없이도 LMMs가 유용한 시각적 추론 정보를 스스로 발견하고 활용 하도록 하는 것이 목표입니다.
핵심 방법론
저자들은 Latent Implicit Visual Reasoning (LIVR) 이라는 새로운 접근 방식을 제안합니다. 이는 LMM에 새로운 잠재 토큰(latent tokens) 을 추가하고, 이 토큰들이 시각적 정보를 처리하도록 강제하는 시각적 병목(visual bottlenecking) 기법을 활용합니다. 2단계 학습 방식 을 사용하며, 1단계에서는 주의 마스크를 수정하여 시각적 정보가 잠재 토큰을 통해서만 흐르도록 강제하고, 2단계에서는 표준 주의 마스크를 사용하여 잠재 토큰이 원래 시각 토큰과 함께 추론에 사용되도록 합니다.
주요 결과
LIVR 은 Qwen2.5-VL-3B-Instruct , Qwen3-VL-4B-Instruct , LLaVA-OneVision-1.5-4B-Instruct 등 세 가지 LMM 백본에 걸쳐 아홉 가지 시각 중심 태스크에서 표준 직접 미세 조정(Direct SFT) 방식보다 일관되게 우수한 성능을 보였습니다. 특히, Qwen2.5-VL-3B-Instruct 에서는 평균 6.24%의 정확도 향상 을 달성했으며, Jigsaw 태스크에서 12% , Functional Correspondence 태스크에서 13.02% 의 상당한 개선을 보였습니다.
AI 실무자를 위한 시사점
이 연구는 명시적인 시각적 감독 없이도 LMM의 시각적 추론 능력을 크게 향상 시킬 수 있는 실용적인 방법을 제시합니다. 태스크 독립적(task-agnostic) 이므로 바운딩 박스나 헬퍼 이미지와 같은 추가적인 어노테이션 비용 없이 다양한 시각 태스크에 적용 가능하여 개발 및 배포 비용을 절감 할 수 있습니다. 특히 복잡하거나 추상적인 시각적 구조를 요구하는 태스크에서 기존 LMM의 한계를 극복 하는 데 중요한 기반 기술로 활용될 수 있습니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
Review 의 다른글
- 이전글 [논문리뷰] How Much 3D Do Video Foundation Models Encode?
- 현재글 : [논문리뷰] Latent Implicit Visual Reasoning
- 다음글 [논문리뷰] Schoenfeld's Anatomy of Mathematical Reasoning by Language Models