[논문리뷰] Exploring MLLM-Diffusion Information Transfer with MetaCanvas

2025년 12월 15일수정: 2025년 12월 15일

링크: 논문 PDF로 바로 열기

저자: Han Lin, Xichen Pan, Ziqi Huang, Ji Hou, Jialiang Wang, Weifeng Chen, Zecheng He, Felix Juefei-Xu, Junzhe Sun, Zhipeng Fan, Ali Thabet, Mohit Bansal, Chu Wang

핵심 연구 목표

MLLM이 복잡한 시각 정보를 이해하는 데는 뛰어나지만, 이미지 및 비디오 생성 시에는 그 추론 및 계획 능력이 충분히 활용되지 못해 정밀하고 구조화된 제어에 어려움을 겪는 간극을 해결하고자 합니다. 본 연구는 MLLM이 공간 및 시공간 잠재 공간 에서 직접 추론하고 계획하며 diffusion generator 와 긴밀하게 연동될 수 있는 경량 프레임워크인 MetaCanvas 를 제안하여 멀티모달 이해와 생성 사이의 격차를 좁히는 것을 목표로 합니다.

핵심 방법론

MetaCanvas 는 사전 훈련된 MLLM과 diffusion 기반 시각 생성기를 연결하는 경량 아키텍처입니다. MLLM이 원하는 출력의 암시적인 시각적 스케치를 생성하여 공간적/시공간적 선험 지식으로 diffusion 프로세스를 안내하도록 합니다. 이를 위해, learnable multidimensional canvas tokens 를 MLLM 입력 시퀀스에 추가하고, multimodal RoPE 를 사용하여 처리한 뒤, 두 개의 Transformer 블록 으로 구성된 경량 connector module 을 통해 diffusion 모델의 noisy latents에 패치별로 주입합니다. 안정적인 훈련을 위해 zero-initialization 전략을 적용하여 초기에는 주입된 신호가 diffusion 모델의 입력에 영향을 미치지 않도록 합니다.

주요 결과

MetaCanvas 는 GenEval 벤치마크에서 다른 베이스라인보다 빠르게 수렴하고 일관되게 우수한 성능을 보였습니다. 이미지 편집 태스크에서 FLUX.1-Kontext [Dev] 에 MetaCanvas 를 추가한 결과, ImgEdit (Ye et al., 2025) 벤치마크 에서 0.34↑ (Overall) 점수 향상을, GEdit-Bench (Liu et al., 2025) 벤치마크 에서 1.67↑ (G_O) 점수 향상을 달성했습니다. 비디오 편집 태스크에서는 VBench (Huang et al., 2024b) 및 GPT-40 평가에서 편집 정확도 (72.1%) 및 전반적인 사용자 선호도 (60.84%) 측면에서 모든 베이스라인을 크게 능가하는 성능을 보였습니다.

AI 실무자를 위한 시사점

MetaCanvas 는 MLLM의 추론 및 계획 능력을 시각 생성 태스크에 효과적으로 활용하는 방법을 제시하여, MLLM을 단순한 텍스트 인코더를 넘어 잠재 공간 플래너 로 확장합니다. learnable canvas tokens 를 통한 패치별 정보 주입은 복잡한 레이아웃과 정확한 속성 제어가 필요한 생성에서 향상된 구조적 충실도와 세밀한 편집 제어 를 가능하게 합니다. 이 경량 프레임워크는 효율적인 훈련과 MMDiT, cross-attention 등 다양한 diffusion 백본 및 6가지 이미지/비디오 생성 및 편집 태스크에 대한 뛰어난 일반화 능력을 제공하여 실용적인 멀티모달 AI 개발에 기여할 수 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] EgoX: Egocentric Video Generation from a Single Exocentric Video
현재글 : [논문리뷰] Exploring MLLM-Diffusion Information Transfer with MetaCanvas
다음글 [논문리뷰] LEO-RobotAgent: A General-purpose Robotic Agent for Language-driven Embodied Operator