[논문리뷰] KLASS: KL-Guided Fast Inference in Masked Diffusion Models

2025년 11월 12일수정: 2025년 11월 12일

링크: 논문 PDF로 바로 열기

저자: Seo Hyun Kim, Sunwoo Hong, Hojung Jung, Youngrok Park, Se-Young Yun (KAIST AI)

핵심 연구 목표

Masked Diffusion Models (MDMs)는 다양한 생성 태스크에서 우수한 성능을 보이지만, 느리고 정적인 샘플링 속도 로 인해 추론 과정에 병목 현상이 발생합니다. 본 연구는 이러한 문제를 해결하고, 추가적인 모델 훈련 없이 생성 속도를 크게 가속화 하면서도 샘플 품질을 유지하거나 향상 시키는 빠르고 효과적인 샘플링 방법을 개발하는 것을 목표로 합니다.

핵심 방법론

본 논문은 'KL-Adaptive Stability Sampling' ( KLASS )을 제안하며, 이는 토큰 수준의 KL divergence 와 예측 신뢰도(confidence score) 를 활용하는 적응형 샘플링 전략입니다. 모델은 연속적인 타임스텝 간 조건부 분포의 KL divergence가 낮은 (임계값 이하) 토큰과 높은 신뢰도 (확률 임계값 초과) 로 예측된 토큰을 안정적인 토큰으로 식별하여 병렬적으로 언마스킹합니다. 이력 길이 n 을 사용하여 KL 안정성을 추적하며, 안정적 토큰이 없을 경우 Top-u 토큰을 fallback 으로 언마스킹하는 규칙을 적용합니다.

주요 결과

KLASS는 추론 벤치마크(GSM8K, MATH, HumanEval, MBPP)에서 최대 2.78배의 wall-clock speedup 를 달성했으며, 표준 그리디 디코딩 대비 성능을 향상 시키며 확산 기반 샘플러 중 최첨단 결과 를 기록했습니다. 특히 LLaDA 모델 의 MATH 태스크에서 33.8% 정확도 와 128.62 스텝 을 달성하여, Top-1의 31.4% 정확도, 256 스텝 대비 적은 스텝으로 높은 정확도를 보였습니다. 또한, 텍스트, 이미지, 분자 생성 등 다양한 양식에서도 효과적임을 입증했습니다.

AI 실무자를 위한 시사점

KLASS는 Masked Diffusion Models의 추론 속도를 획기적으로 개선 하면서 생성 품질을 유지하거나 향상 시켜, 복잡한 추론 및 생성 태스크에 대한 MDM의 실용성을 크게 높입니다. 추가 훈련이나 외부 플래너 없이 모델 자체의 잠재력을 활용하므로, 기존 MDM 기반 시스템에 경량화된 통합 이 가능합니다. 이는 대규모 생성 모델의 배포 비용을 절감 하고, 사용자 경험을 개선 하는 데 기여할 수 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Intelligence per Watt: Measuring Intelligence Efficiency of Local AI
현재글 : [논문리뷰] KLASS: KL-Guided Fast Inference in Masked Diffusion Models
다음글 [논문리뷰] Optimizing Diversity and Quality through Base-Aligned Model Collaboration