[논문리뷰] iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

2025년 11월 26일수정: 2025년 11월 26일

링크: 논문 PDF로 바로 열기

저자: Zhoujie Fu¹,², Xianfang Zeng²,⁺⁺, Jinghong Lan², Xinyao Liao¹,², Cheng Chen¹, Junyi Chen³, Jiacheng Wei¹, Wei Cheng², Shiyu Liu², Yunuo Chen²,³, Gang Yu†,², Guosheng Lin†,¹

핵심 연구 목표

iMontage는 사전 훈련된 비디오 모델을 재활용하여 고도로 동적인 다대다 이미지 생성을 위한 통합 프레임워크를 제시합니다. 이는 기존 비디오 모델이 연속적인 클립 학습으로 인해 갑작스러운 장면 전환이나 큰 동적 변화에 약하다는 한계를 극복하고, 이미지 데이터의 풍부하고 제약 없는 콘텐츠 다양성을 활용하여 이미지 세트에서 자연스러운 전환과 확장된 동적 범위를 모두 달성하고자 합니다.

핵심 방법론

이 프레임워크는 대규모 사전 훈련된 비디오 모델 을 기반으로 하며, 입력 및 출력 이미지를 가상 프레임(pseudo-frames) 으로 처리합니다. 이미지 프레임과 비디오 프레임 간의 개념적 모호성을 방지하기 위해 새로운 회전 위치 임베딩(Rotary Positional Embedding, RoPE) 전략을 도입하여 모델의 사전 훈련된 시간적 일관성 능력을 유지하면서 이미지 세트의 이산적 특성을 명확히 구분합니다. 또한, 광범위하고 동적인 시나리오를 지원하기 위한 데이터 큐레이션 파이프라인 과 다단계 훈련 패러다임(CocktailMix) 을 제안합니다.

주요 결과

iMontage는 이미지 편집, 다대일 이미지 생성, 다대다 이미지 생성 등 다양한 설정에서 강력한 성능을 입증했습니다. 특히, 이미지 편집 벤치마크인 GEdit에서 Motion Change 부문 G-O↑ 5.53 및 Edit overall 부문 G-O↑ 6.94 를 달성했으며, ImgEdit에서 Average↑ 4.11 로 SOTA 성능을 기록했습니다(Table 1). Storyboard generation 평가에서는 Identity Preservation VLMpref↑ 7.909 및 Temporal Consistency VLMpref↑ 9.556 을 기록하여 뛰어난 일관성을 보여주었습니다(Table 3).

AI 실무자를 위한 시사점

iMontage는 기존의 강력한 비디오 모델 을 활용하여 다양한 이미지 생성 및 편집 태스크 를 효과적으로 통합할 수 있는 새로운 접근 방식을 제시합니다. 특히 RoPE 를 통한 시간적 일관성 유지와 동적인 데이터 큐레이션 및 CocktailMix 훈련 전략 은 다양한 난이도의 태스크를 통합 학습하는 데 중요한 실용적 통찰력을 제공합니다. 이는 AI 실무자들이 고도로 동적인 다중 이미지 시퀀스를 생성해야 하는 응용 분야에서 활용될 수 있는 유망한 오픈소스 솔루션입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion
현재글 : [논문리뷰] iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation
다음글 [논문리뷰] Block Cascading: Training Free Acceleration of Block-Causal Video Models