[논문리뷰] Orion: A Unified Visual Agent for Multimodal Perception, Advanced Visual Reasoning and Execution

2025년 11월 19일수정: 2025년 11월 19일

링크: 논문 PDF로 바로 열기

저자: Sudeep Pillai, N Dinesh Reddy

핵심 연구 목표

본 논문은 기존의 단일(monolithic) VLM(Vision-Language Model)이 가진 정밀성, 결정론적 제어 및 복합적 시각 작업 처리 능력의 한계를 극복하고자 합니다. 이를 위해 Orion 이라는 통합 시각 에이전트 프레임워크를 제시하며, 수동적인 시각 이해를 넘어 능동적이고 도구 기반의 시각 지능으로 전환하는 것을 목표로 합니다.

핵심 방법론

Orion은 ReAct-style 에이전트 아키텍처 를 기반으로 Plan-Execute-Reflect 의 세 단계를 통해 복합적인 시각 작업을 처리합니다. 이미지, 비디오, 문서 등 다양한 모달리티를 입력받아 객체 탐지, 키포인트, OCR, 세분화, 이미지/비디오 생성 등 수십 가지의 특수 컴퓨터 비전 도구를 동적으로 호출하고 조율합니다. 또한, VLM-as-a-Judge 모델 을 활용하여 중간 및 최종 결과물의 정확성과 일관성을 검증하는 반영(Reflection) 메커니즘 을 통합합니다.

주요 결과

Orion은 MMMU, MMBench, DocVQA, MMLongBench 등 46가지 다양한 시각 태스크 벤치마크에서 GPT-5, Claude 4.5, Gemini 2.5 Pro, Qwen3-VL 과 같은 선도적인 VLM 대비 일관되게 우수한 성능을 달성했습니다. 예를 들어, MMMU_val 에서 72.9% 를 기록하며 Gemini 2.5 Flash(72.7%)와 GPT-5 Mini(67.9%)를 능가했으며, MMBench EN (dev) 에서는 86.3% 를 달성하여 강력한 경쟁 우위를 보였습니다. 특히 환각(hallucination) 발생률을 현저히 낮추고 높은 정확도를 입증했습니다.

AI 실무자를 위한 시사점

Orion은 신경망 인지(neural perception)와 상징적 실행(symbolic execution)을 결합 하여 AI 시스템이 복잡한 시각 태스크를 정밀하게 수행할 수 있는 새로운 패러다임을 제시합니다. 도구 기반 접근 방식 을 통해 생산성 높은 시각 지능 워크플로우를 구현하고, 투명한 실행 추적(transparent execution traces) 을 제공하여 모델의 신뢰성과 책임성을 높입니다. 이는 컴퓨터 비전 전문가가 아닌 사용자도 복잡한 CV 기능을 활용할 수 있도록 하여 시각 AI의 민주화 에 기여할 잠재력이 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models
현재글 : [논문리뷰] Orion: A Unified Visual Agent for Multimodal Perception, Advanced Visual Reasoning and Execution
다음글 [논문리뷰] Proactive Hearing Assistants that Isolate Egocentric Conversations