[논문리뷰] KlingAvatar 2.0 Technical Report

2025년 12월 16일수정: 2025년 12월 16일

링크: 논문 PDF로 바로 열기

저자: Kling Team, Kuaishou Technology

핵심 연구 목표

본 연구는 장시간 고해상도 아바타 비디오 생성 시 발생하는 효율성 부족, 시간적 드리프트, 품질 저하, 프롬프트 불일치 문제를 해결하는 것을 목표로 합니다. 특히, 멀티모달 지침에 효과적으로 부합하며 시각적 선명도, 사실적인 립싱크, 강한 정체성 보존 및 일관된 멀티모달 지침 준수를 제공하는 프레임워크를 개발하고자 합니다.

핵심 방법론

논문은 Spatio-Temporal Cascade Framework 를 제안하여 저해상도 청사진 비디오 키프레임을 생성한 후, 이를 고해상도 및 장시간 서브 클립으로 점진적으로 업스케일링합니다. Co-Reasoning Director 는 세 가지 모달리티별 LLM 전문가 로 구성되어 멀티턴 대화를 통해 상세한 스토리라인을 생성하며, Negative Director 로 지시 사항 준수 정확도를 높입니다. 또한, 깊은 DiT 블록 특징 과 ID-aware attention 을 활용한 마스크 제어형 오디오 주입 으로 다중 캐릭터 제어를 구현합니다. 추론 효율성을 위해 trajectory-preserving distillation 기법도 적용되었습니다.

주요 결과

KlingAvatar 2.0 는 시각적 품질, 카메라 움직임, 립싱크 정확도, 세밀한 입-치아 표현, 생생한 캐릭터 애니메이션 및 오디오-감정 일치 등 다양한 기준에서 HeyGen, Kling-Avatar, OmniHuman-1.5 와 같은 주요 경쟁자 대비 우수한 성능을 달성했습니다. 특히, GSB(Good/Same/Bad) 평가 에서 Kling-Avatar 대비 종합 1.73 , OmniHuman-1.5 대비 종합 1.94 의 높은 점수를 기록하며 사용자 선호도를 입증했습니다. 이는 최대 5분 길이 의 비디오에서 정체성 일관성과 스토리 연속성을 유지하면서 향상된 계산 효율성을 보여줍니다.

AI 실무자를 위한 시사점

KlingAvatar 2.0 는 장시간 고해상도 아바타 비디오 생성의 실질적인 병목 현상을 해결하여 디지털 휴먼 애플리케이션의 상업적 활용 가능성을 크게 높였습니다. 멀티모달 LLM 기반의 디렉터 와 계단식(cascade) 확산 프레임워크 는 복잡한 사용자 지시를 이해하고 고품질 출력을 생성하는 강력한 접근 방식을 제공합니다. 다중 캐릭터 제어 와 효율적인 추론 기술은 가상 비서, 엔터테인먼트, 교육 등 다양한 분야에서 실용적인 가치를 제공할 수 있는 기반을 마련했습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Image Diffusion Preview with Consistency Solver
현재글 : [논문리뷰] KlingAvatar 2.0 Technical Report
다음글 [논문리뷰] Memory in the Age of AI Agents