[논문리뷰] TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding

수정: 2025년 11월 21일

링크: 논문 PDF로 바로 열기

저자: Boshen Xu, Zihan Xiao, Jiaze Li, Jianzhong Ju, Zhenbo Luo, Jian Luan, Qin Jin

핵심 연구 목표

본 논문은 기존 MLLM이 긴 비디오 컨텍스트 처리 시 효율성과 효과성 사이의 균형을 맞추기 어려운 문제를 해결하고자 합니다. 특히, 효율적인 모델 아키텍처와 확장된 시간적 컨텍스트를 처리하는 효과적인 메커니즘을 모두 갖춘 하이브리드 Mamba-Transformer VLM인 TimeViper 를 개발하여 긴 비디오 이해의 근본적인 한계를 극복하는 것을 목표로 합니다.

핵심 방법론

TimeViper 는 효율적인 상태 공간 모델과 표현력이 풍부한 어텐션 메커니즘을 결합한 하이브리드 Mamba-Transformer 백본 을 채택합니다. 정보 교환 분석을 통해 "vision-to-text 정보 집계 현상"과 "vision 토큰 중복성"을 발견하고, 이를 해결하기 위해 중복된 비전 토큰을 명령어 토큰으로 압축하는 새로운 토큰 전송 모듈인 TransV 를 제안합니다. TransV 는 얕은 레이어에서는 균일하게 토큰을 드롭하고 깊은 레이어에서는 어텐션 기반으로 토큰을 드롭하여 컨텍스트 길이를 효과적으로 줄입니다.

주요 결과

TimeViperMamba 레이어의 O(n) 계산 및 O(1) 캐시 비용 덕분에 32k 입력/1k 출력 토큰 처리 시 Qwen3-8B 보다 40.1% 더 많은 토큰/초 를 생성하며 10,000 프레임 이상 을 처리할 수 있습니다. 성능 면에서는 VideoMME MCQ 에서 56.2% 정확도 를 달성하여 Video-XL 을 능가했고, VDC 에서 39.7% 정확도 , Charades TVG 에서 40.5% mIoU 를 기록하며 동급 Transformer 기반 MLLM에 필적하는 경쟁력 있는 성능을 보였습니다.

AI 실무자를 위한 시사점

TimeViper 는 긴 비디오 이해를 위한 효율적이고 실용적인 솔루션을 제공하여 비디오 플랫폼, 가정 시나리오, 로봇 에이전트 등 다양한 실제 응용 분야에 직접적으로 기여합니다. 특히, TransV 모듈을 통한 토큰 압축 전략은 대규모 비디오 데이터 처리의 병목 현상을 해소하고, 하이브리드 MLLM 아키텍처 내에서 발생하는 vision-to-text 정보 집계토큰 중복성 에 대한 새로운 이해는 향후 효율적인 멀티모달 모델 설계에 중요한 통찰력을 제공합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#Long Video Understanding#Hybrid Mamba-Transformer#Vision-Language Model#Token Compression#Vision-to-Text Aggregation#Efficient LLM#Multimodal AI

Review 의 다른글