[논문리뷰] StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors

2025년 12월 19일수정: 2025년 12월 19일

링크: 논문 PDF로 바로 열기

저자: Guibao Shen, Yihua Du, Wenhang Ge, Jing He, Chirui Chang, Donghao Zhou, Zhen Yang, Luozhou Wang, Xin Tao, Ying-Cong Chen

핵심 연구 목표

본 논문은 스테레오 비디오 변환 시 기존의 다단계 “Depth-Warp-Inpaint” (DWI) 파이프라인이 겪는 오류 전파, 깊이 모호성, 그리고 병렬 및 수렴 스테레오 형식 간의 불일치 문제를 해결하고자 합니다. 또한, 공정한 벤치마킹과 강력한 모델 훈련을 위한 대규모 통합 데이터셋의 부재를 해소하며, 효율적이고 고품질의 스테레오 비디오 변환 모델을 개발하는 것을 목표로 합니다.

핵심 방법론

저자들은 먼저 병렬 및 수렴 형식을 모두 포함하는 최초의 대규모 통합 데이터셋인 UniStereo 를 구축했습니다. 이를 바탕으로 StereoPilot 이라는 효율적인 피드-포워드 아키텍처 를 제안하며, 명시적인 깊이 맵이나 반복적인 확산 샘플링 없이 대상 뷰를 직접 합성합니다. 모델은 확산 모델의 사전 학습된 생성적 지식 을 활용하며, 학습 가능한 도메인 스위처 와 사이클 일관성 손실 을 도입하여 다양한 스테레오 형식에 원활하게 적응하고 뷰 정렬 일관성을 보장합니다.

주요 결과

StereoPilot 은 모든 정량적 지표(PSNR, SSIM, MS-SSIM, LPIPS, SIOU)에서 최신 기술(SOTA)을 크게 능가했습니다. 특히, Stereo4D 데이터셋에서 PSNR 27.735 , 3DMovie 데이터셋에서 PSNR 27.856 을 달성하며 시각적 충실도에서 우수함을 보였습니다. 또한, 81프레임 비디오 변환에 11초 만을 소요하여 기존 확산 기반 모델(예: StereoDiffusion의 60분)보다 상당히 높은 연산 효율성 을 입증했습니다.

AI 실무자를 위한 시사점

StereoPilot 은 VR 헤드셋 및 3D 영화와 같은 분야에서 2D 비디오를 고품질 3D 스테레오 콘텐츠로 효율적으로 변환할 수 있는 실용적인 솔루션을 제공합니다. 피드-포워드 확산 아키텍처 와 학습 가능한 도메인 스위처 는 기존 DWI 파이프라인의 한계를 극복하는 혁신적인 접근 방식이며, 이는 실제 배포에 있어 중요한 장점이 될 수 있습니다. UniStereo 데이터셋 의 공개는 향후 스테레오 비디오 변환 연구의 표준화된 벤치마킹 및 발전에 크게 기여할 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model
현재글 : [논문리뷰] StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors
다음글 [논문리뷰] The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text