[논문리뷰] TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times

2025년 12월 25일수정: 2025년 12월 25일

링크: 논문 PDF로 바로 열기

저자: Jintao Zhang, Kaiwen Zheng, Kai Jiang, Haoxu Wang, Ion Stoica, Joseph E. Gonzalez, Jianfei Chen, Jun Zhu

핵심 연구 목표

본 논문은 비디오 확산 모델의 엔드-투-엔드 생성 속도를 100~200배 가속화하면서도 비디오 품질을 유지하는 것을 목표로 합니다. 이는 현재 확산 모델의 높은 계산 비용으로 인한 비효율성을 해결하고, 고품질 비디오 생성을 더욱 실용적으로 만드는 데 중점을 둡니다.

핵심 방법론

TurboDiffusion은 여러 가속화 구성요소를 활용합니다. SageAttention 과 Sparse-Linear Attention (SLA) (CUDA에서 SageSLA 로 구현)을 통해 어텐션 계산을 가속화하며, 효율적인 스텝 증류를 위해 rCM 을 채택하여 샘플링 스텝 수를 100단계에서 3~4단계 로 줄였습니다. 또한, 선형 레이어의 가속화와 모델 압축을 위해 모델 파라미터와 활성화를 8비트 W8A8 양자화 하고 INT8 Tensor Cores 를 사용합니다.

주요 결과

TurboDiffusion은 단일 RTX 5090 GPU 에서 비디오 생성 속도를 100배에서 200배 까지 향상시키는 것을 보여주었습니다. 예를 들어, Wan2.1-T2V-1.3B-480P 모델 의 경우 원래 184초 가 걸리던 작업을 1.9초 로 단축하여 약 97배 의 가속을 달성했습니다. Wan2.1-T2V-14B-720P 모델 에서는 4767초 에서 24초 로 줄여 199배 에 달하는 가속을 보여주면서도 비교 가능한 비디오 품질을 유지했습니다.

AI 실무자를 위한 시사점

TurboDiffusion은 고품질 비디오 생성 확산 모델을 단일 RTX 5090 GPU 에서 1분 미만 으로 실행 가능하게 하여, 실용적인 애플리케이션 가능성을 크게 확장했습니다. 이는 AI/ML 엔지니어들이 더욱 빠르고 효율적으로 비디오 콘텐츠를 생성하고 개발할 수 있도록 돕는 중요한 발전입니다. 특히, 저비트 어텐션 , 스텝 증류 , 양자화 등의 기술 조합은 다른 대규모 AI 모델 최적화에도 적용될 수 있는 잠재력을 시사합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior
현재글 : [논문리뷰] TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times
다음글 [논문리뷰] GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training