[논문리뷰] Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark

2025년 10월 31일수정: 2025년 10월 31일

링크: 논문 PDF로 바로 열기

저자: Ziyu Guo*†1, Xinyan Chen2, Renrui Zhang#2, Ruichuan An3, Yu Qi4, Dongzhi Jiang2, Xiangtai Li³, Manyuan Zhang2, Hongsheng Li², Pheng-Ann Heng¹

핵심 연구 목표

본 연구는 최신 비디오 생성 모델, 특히 Veo-3 가 복잡한 시각적 추론 시나리오에서 제로샷 추론자(zero-shot reasoner) 로서 얼마나 준비되었는지를 종합적으로 평가하는 것을 목표로 합니다. Chain-of-Frame (CoF) 추론 개념을 중심으로 모델의 추론 능력, 강점, 실패 모드를 12가지 차원 에 걸쳐 체계적으로 조사하고자 합니다.

핵심 방법론

연구는 Veo-3 모델을 중심으로 진행되었으며, MME-COF 벤치마크 를 구축하여 공간, 기하학, 물리, 시간, 신체 논리 등 12가지 추론 차원 에서 모델을 평가했습니다. 각 추론 케이스에 대해 정교하게 작성된 텍스트 프롬프트 를 사용하고, 생성된 비디오는 'Good', 'Moderate', 'Bad'의 정성적 평가와 성공률(success rate) 을 통해 정량적으로 측정되었습니다. 평가의 표준화를 위해 Gemini-2.5-Pro 를 자동 검증기로 활용하여 Instruction Alignment, Temporal Consistency, Visual Stability, Content Fidelity, Focus Relevance 5가지 기준에 따라 0-4점 척도로 점수를 부여했습니다.

주요 결과

현재 비디오 모델은 단기 시공간 일관성(short-horizon spatial coherence) , 미세한 객체 그라운딩(fine-grained grounding) , 국소적으로 일관된 역동성(locally consistent dynamics) 에서 유망한 추론 패턴을 보였습니다. 그러나 장기적인 인과 추론(long-horizon causal reasoning) , 엄격한 기하학적 제약(strict geometric constraints) , 추상적 논리(abstract logic) 에서는 한계를 드러냈습니다. 전체적으로 모델들의 평균 점수는 4점 만점에 2.0 미만 으로 낮아, 독립적인 제로샷 추론자로는 아직 신뢰할 수 없음을 시사합니다.

AI 실무자를 위한 시사점

비디오 모델은 표면적인 패턴 학습에 기반한 추론 능력을 보이지만, 아직은 원리 기반의 진정한 추론 능력 에는 미치지 못합니다. 복잡한 추론 작업에는 단독으로 사용하기 어렵지만, 짧은 시간 범위의 시각적 일관성 이나 구체적인 객체 인식 및 조작 과 같은 보조적인 시각 엔진으로 활용될 잠재력을 가지고 있습니다. 향후 개발은 장기적인 논리적 일관성 , 정확한 물리/기하학적 제약 준수 , 추상적 개념 이해 에 중점을 두어야 할 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions
현재글 : [논문리뷰] Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark
다음글 [논문리뷰] CLASS-IT: Conversational and Lecture-Aligned Small-Scale Instruction Tuning for BabyLMs