[논문리뷰] Region-Constraint In-Context Generation for Instructional Video Editing

2025년 12월 23일수정: 2025년 12월 23일

링크: 논문 PDF로 바로 열기

저자: Zhongwei Zhang†, Fuchen Long, Wei Li†, Zhaofan Qiu, Wu Liu†, Ting Yao, and Tao Mei

핵심 연구 목표

본 논문은 텍스트 지시만으로 비디오 콘텐츠를 정밀하게 수정 하는 인-컨텍스트 비디오 편집 과정에서 발생하는 문제를 해결하고자 합니다. 구체적으로, 편집 영역이 불정확하고 노이즈 제거 과정 중 편집 및 비편집 영역 간의 토큰 간섭이 발생하는 한계를 극복하는 것을 목표로 합니다.

핵심 방법론

제안하는 ReCo 프레임워크는 소스 및 타겟 비디오를 width-wise로 연결 하여 joint denoising 을 수행하는 인-컨텍스트 생성 패러다임을 사용합니다. 편집 정확도를 높이기 위해, one-step backward denoised latents 에 적용되는 Latent-space regularization 과 DiT 블록의 attention maps 에 적용되는 Attention-space regularization 의 두 가지 영역 제약 항을 도입했습니다. 또한, Wan-T2V-1.3B 를 백본으로 사용하며 500K instruction-video 쌍으로 구성된 대규모 고품질 데이터셋 ReCo-Data 를 구축하여 모델을 훈련했습니다.

주요 결과

ReCo 는 네 가지 주요 비디오 편집 태스크(객체 추가, 교체, 제거, 스타일 전이)에서 기존 최신 방법론(InsViE, Ditto, Lucy-Edit, VACE)들을 일관되게 능가했습니다. 특히 Add 태스크에서 S 점수 8.23 , Replace 태스크에서 8.74 를 달성하여 Edit Accuracy (SEA) 와 Video Naturalness (SVN) 면에서 우수함을 보였습니다. ReCo-Data 는 기존 데이터셋 대비 91.6%의 높은 품질 샘플 비율 을 가지며, 모델은 추상적이고 창의적인 편집 태스크에서도 강력한 일반화 능력을 입증했습니다.

AI 실무자를 위한 시사점

본 연구는 마스크나 복잡한 설정 없이 텍스트 지시만으로 정밀하고 일관된 비디오 편집 을 가능하게 하여 AI 기반 비디오 콘텐츠 생성의 실용성을 높였습니다. Latent-space 및 attention-space 정규화 를 통한 영역 제약 모델링은 인-컨텍스트 생성 모델의 정확도와 품질을 향상시키는 효과적인 방법론으로 활용될 수 있습니다. ReCo-Data 와 같은 대규모 고품질 데이터셋의 구축은 훈련 기반 비디오 편집 모델 개발에 중요한 기여를 하며, 실제 애플리케이션에 적용 가능한 모델 개발에 영감을 줄 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs
현재글 : [논문리뷰] Region-Constraint In-Context Generation for Instructional Video Editing
다음글 [논문리뷰] StoryMem: Multi-shot Long Video Storytelling with Memory