[논문리뷰] Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning

수정: 2025년 11월 26일

링크: 논문 PDF로 바로 열기

저자: Jiaqi Liu, Kaiwen Xiong, Peng Xia, Yiyang Zhou, Haonian Ji, Lu Feng, Siwei Han, Mingyu Ding, Huaxiu Yao

핵심 연구 목표

본 논문은 기존 비전-언어 에이전트가 인간 주석 기반 지도 학습의 한계와 복잡한 시각적 추론 단계 검증의 어려움, 그리고 평가 환각 문제로 인해 연속적인 자가 발전이 어렵다는 문제를 해결하고자 합니다. 도구 통합 추론을 통해 모델이 스스로 추론 과정을 검증하고 개선할 수 있는 자가 진화 비전-언어 에이전트 프레임워크인 Agent0-VL 을 제안하여, 외부 보상 없이 지속적인 성능 향상을 목표로 합니다.

핵심 방법론

Agent0-VL은 단일 LVLM 내에서 Solver (다중 턴 도구 통합 추론 수행)와 Verifier (생성적 비판 및 도구 기반 피드백을 통한 검증)의 두 가지 역할을 번갈아 수행합니다. 이들은 Self-Evolving Reasoning Cycle (SERC) 이라는 폐쇄 루프 피드백 시스템을 통해 상호 작용하며, 도구 기반 검증 및 선택적 자가 복구 메커니즘 을 활용해 추론 궤적을 개선합니다. 정책 업데이트는 생성된 궤적을 활용하는 Group Relative Policy Optimization (GRPO) 을 통해 이루어집니다.

주요 결과

Agent0-VL-7B는 기준 모델 대비 평균 12.5% 의 성능 향상을 달성했으며, 도구 통합 추론 방법론을 사용한 모델 대비 10.3% 향상되었습니다. 또한, Verifier 모듈이 독립적인 과정 보상 모델(PRM)로 사용될 경우 다른 LVLM의 테스트 시점 스케일링 성능을 평균 7.3% 향상시키는 것으로 나타났습니다. 반복적인 자가 진화(SERC)를 통해 모델은 각 반복마다 5.2%, 4.0%, 2.8% 의 안정적이고 지속적인 성능 향상을 보였습니다.

AI 실무자를 위한 시사점

Agent0-VL은 인간 주석 의존도를 줄이고 모델의 지속적인 자가 발전 능력 을 크게 향상시킬 수 있는 실용적인 프레임워크를 제공합니다. 도구 통합 추론 및 검증 메커니즘을 통해 복잡한 시각-수학적 추론 및 과학적 분석 태스크 에서 신뢰성과 정확성을 높일 수 있습니다. 특히, Verifier 모듈은 다른 VLM의 추론 과정을 평가하고 개선하는 범용적인 보상 모델 로 활용될 수 있어 AI 에이전트 개발 및 배포에 기여할 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#Self-Evolving Agent#Vision-Language Models#Tool-Integrated Reasoning#Reinforcement Learning#Self-Correction#Multimodal AI#Generative AI

Review 의 다른글