[논문리뷰] VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning

2025년 10월 10일수정: 2025년 10월 10일

링크: 논문 PDF로 바로 열기

저자: Minghong Cai, Qiulin Wang, Zongli Ye, Wenze Liu, Quande Liu, Weicai Ye, Xintao Wang, Pengfei Wan, Kun Gai, Xiangyu Yue

핵심 연구 목표

본 논문은 사용자가 지정한 임의의 공간 및 시간 위치에 패치를 배치하여 비디오를 생성하는 "임의의 시공간 비디오 완성(arbitrary spatio-temporal video completion)" 이라는 새로운 태스크를 제안합니다. 기존 비디오 생성 방식의 파편화된 접근 방식을 통합하고, 인과적 VAE(causal VAE) 에서 발생하는 시간적 모호성 및 공간적 불규칙성 문제를 해결하여 정밀한 제어를 가능하게 하는 것을 목표로 합니다.

핵심 방법론

저자들은 VideoCanvas 라는 프레임워크를 통해 In-Context Conditioning (ICC) 패러다임을 도입하고, 공간과 시간을 분리하는 하이브리드 컨디셔닝 전략 을 제안합니다. 공간적 정렬은 제로 패딩(zero-padding) 된 VAE 인코딩으로, 시간적 모호성은 Temporal RoPE Interpolation 을 통해 조건부 프레임 토큰에 연속적인 분수 시간 인덱스를 할당하여 해결합니다. 이 방식은 사전 훈련된 VAE 및 DiT(Diffusion Transformer) 백본의 아키텍처 변경 없이 효율적인 미세 조정을 가능하게 합니다.

주요 결과

VideoCanvasBench 벤치마크를 통해 검증된 결과, 제안된 Temporal RoPE Interpolation 은 정확한 픽셀-프레임 정렬과 높은 충실도를 달성하여 기존 방식의 PSNR 피크 시프트 문제를 해결했습니다. ICC 는 모든 태스크 카테고리(AnyP2V, AnyI2V, AnyV2V)에서 Latent Replacement 및 Channel Concatenation 을 일관되게 능가하며, 특히 AnyI2V 태스크에서 10.805의 낮은 FVD 와 44.78의 높은 Dynamic Degree 를 기록했습니다. 사용자 연구에서도 ICC 방식이 다른 대안들에 비해 압도적으로 선호되었습니다.

AI 실무자를 위한 시사점

VideoCanvas 는 다양한 비디오 생성 및 편집 태스크를 단일 프레임워크로 통합하는 유연하고 강력한 방법을 제공합니다. 특히 Temporal RoPE Interpolation 은 기존 VAE 의 시간적 제어 한계를 극복하는 혁신적인 접근 방식을 제시하여, 사전 훈련된 대규모 모델 을 재훈련 없이 정밀하게 제어할 수 있는 가능성을 열었습니다. 이는 실무에서 롱폼 비디오 생성, 카메라 제어, 크로스-씬 전환 등 복잡한 비디오 작업에 대한 새로운 솔루션을 제공하며, 향후 데이터 중심 패러다임 과의 시너지를 기대할 수 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] UniVideo: Unified Understanding, Generation, and Editing for Videos
현재글 : [논문리뷰] VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning
다음글 [논문리뷰] When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs