[논문리뷰] InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue

2025년 10월 16일수정: 2025년 10월 16일

링크: 논문 PDF로 바로 열기

저자: Wenwen Tong*, Hewei Guo*, Dongchuan Ran*, Jiangnan Chen*, Jiefan Lu*, Kaibin Wang*, Keqiang Li*, Xiaoxu Zhu*, Jiakui Li*, Kehan Li, Xueheng Li, Lumin Li, Chenxu Guo, Jiasheng Zhou, Jiandong Chen, Xianye Wu, Jiahao Wang, Silei Wu, Lei Chen, Hanming Deng, Yuxuan Song, Dinghao Zhou, Guiping Zhong, Ken Zheng, Shiyin Kang, Lewei Lu

핵심 연구 목표

본 논문은 기존 MLLM의 단일 턴 상호작용 및 제한적인 장기 기억 능력 한계를 극복하고자 합니다. 인간과 유사한 다중 턴 상호작용 및 장기 기억 을 갖춘 오디오-시각 옴니모달 대규모 언어 모델(Omni-MLLM) 인 InteractiveOmni를 개발하여 포괄적인 옴니모달 이해 및 음성 생성 능력을 제공하는 것이 목표입니다.

핵심 방법론

InteractiveOmni는 Vision Encoder (InternViT) , Audio Encoder (Whisper-large-v3) , LLM Decoder (Qwen3-4B/8B) , 그리고 Streaming Speech Decoder (Cosyvoice2) 를 통합한 단일 아키텍처를 채택합니다. 모델은 옴니모달 사전 훈련 을 통한 교차 모달 정렬과 명령어 튜닝 및 DPO (Direct Preference Optimization) 를 활용한 다단계 사후 훈련 전략 으로 학습됩니다. 특히, 모델의 장기 기억 능력 강화를 위해 다중 턴 훈련 데이터셋 을 세심하게 큐레이션했습니다.

주요 결과

InteractiveOmni는 주요 오픈소스 모델들을 크게 능가하며, 특히 장기 기억 능력에서 뛰어난 성능을 보입니다. InteractiveOmni-8B 는 MMMB 벤치마크에서 평균 58.17 점을 달성하여 Gemini-2.5-Flash와 유사한 수준이며, Qwen2.5-Omni-7B ( 25.48 점)를 크게 앞섭니다. MSIB 벤치마크에서는 InteractiveOmni-8B 가 종합 평균 4.03 점으로 최고 성능을 기록했고, InteractiveOmni-4B 는 MMAU 벤치마크에서 평균 72.00 점을 달성하며 7B급 오픈소스 모델들을 능가했습니다.

AI 실무자를 위한 시사점

InteractiveOmni는 차세대 지능형 상호작용 시스템 및 AI 어시스턴트를 위한 접근 가능한 오픈소스 기반을 제공합니다. 특히 InteractiveOmni-4B 가 더 큰 모델들과 유사한 성능을 보이는 매개변수 효율성 은 경량 애플리케이션에 매우 유용합니다. 이 모델은 장기 기억, 문맥 이해, 감성 표현이 풍부한 음성 생성 등 다중 턴 대화에 필수적인 고급 대화 능력을 구현하여 실용적인 AI 개발에 중요한 시사점을 줍니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] HyperAgent: Leveraging Hypergraphs for Topology Optimization in Multi-Agent Communication
현재글 : [논문리뷰] InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue
다음글 [논문리뷰] InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy