[논문리뷰] When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs

2025년 9월 23일수정: 2025년 9월 23일

링크: 논문 PDF로 바로 열기

저자: Abhirama Subramanyam Penamakuri, Navlika Singh, Piyush Arora, Anand Mishra

핵심 연구 목표

본 논문은 시각 질문 답변(VQA) 태스크에서 Small Vision-Language Models (S-VLMs) 의 성능을 향상시키는 것을 목표로 합니다. 이는 Large Vision-Language Models (L-VLMs) 의 높은 계산 비용과 성능 격차 문제를 해결하기 위해, 레이블이 없는 이미지 와 효과적인 지식 전이 를 활용하여 S-VLMs를 개선하는 데 중점을 둡니다.

핵심 방법론

제안하는 Model Parity Aligner (MPA) 는 세 가지 모듈로 구성됩니다. 먼저 Pseudo Annotator (PA) 는 L-VLM을 사용하여 레이블이 없는 이미지에 대한 질문-답변 쌍을 생성합니다. 다음으로 Parity Identifier (PI) 는 S-VLM과 L-VLM의 답변을 비교하여 L-VLM은 정답이지만 S-VLM은 오답인 '지식 격차' 샘플을 식별하고 노이즈를 필터링합니다. 마지막으로 Parity Leveler (PL) 는 PI에서 식별된 지식 격차 샘플을 사용하여 S-VLM을 파인튜닝하여 L-VLM의 추론 능력을 모방하도록 합니다.

주요 결과

MPA는 TextVQA, ST-VQA, ChartQA, OKVQA 등 4가지 VQA 벤치마크에서 S-VLMs의 성능을 일관되게 향상시켰으며, 최대 15.2% (ChartQA의 TinyLLaVA-2B)의 절대 성능 향상과 평균 3.4% 의 개선을 보였습니다. 특히 MPA-정렬된 Qwen2VL-2B (75.4%) 는 더 큰 모델인 Qwen2VL-7B (74.7%) 를 능가하는 성능을 달성했으며, OCR 정확도를 +4.5% 개선하는 등 VQA 외의 기본적인 역량도 전이됨을 입증했습니다.

AI 실무자를 위한 시사점

이 연구는 고비용의 레이블링된 데이터 없이도 S-VLMs 의 성능을 크게 향상시킬 수 있는 효과적인 방법을 제시합니다. 이는 자원 제약이 있는 환경이나 추론 중심 애플리케이션에서 대규모 VLM 의 접근성을 높여 AI 기술의 민주화 에 기여합니다. 특히, 폐쇄형 L-VLM 을 가이드 모델로 활용하여 지식 전이가 가능하다는 점은 실제 산업 응용에 있어 큰 잠재력을 가집니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] VideoFrom3D: 3D Scene Video Generation via Complementary Image and Video Diffusion Models
현재글 : [논문리뷰] When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs
다음글 [논문리뷰] Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR