[논문리뷰] LoPA: Scaling dLLM Inference via Lookahead Parallel Decoding

2025년 12월 23일수정: 2025년 12월 23일

링크: 논문 PDF로 바로 열기

저자: Chenkai Xu, Yijie Jin, Jiajun Li, Yi Tu, Guoping Long, Dandan Tu, Mingcong Song, Hongjie Si, Tianqi Hou, Junchi Yan, Zhijie Deng

핵심 연구 목표

Diffusion Large Language Models (dLLM)은 병렬 추론 잠재력이 높음에도 불구하고, 현재 confidence-driven 디코딩 전략은 1-3 TPF (Tokens Per Forward pass) 에 머물러 실제 병렬성을 충분히 활용하지 못합니다. 본 연구는 dLLM 추론 병렬화의 핵심 병목이 Token Filling Order (TFO) 에 민감하다는 점을 파악하고, 최적의 TFO를 탐색하여 dLLM 추론 속도를 대폭 향상시키는 것을 목표로 합니다.

핵심 방법론

본 논문은 학습-프리(training-free), 플러그앤플레이(plug-and-play) 알고리즘인 Lookahead Parallel Decoding (LoPA) 를 제안합니다. LoPA는 매 반복마다 앵커 브랜치(anchor branch)와 k개의 lookahead 브랜치 를 병렬로 생성하여 다양한 TFO를 탐색하며, 각 브랜치는 상위 k개의 높은 confidence 후보 위치 에서 토큰을 샘플링합니다. 이후 모든 브랜치를 단일 포워드 패스로 병렬 검증하고, 가지 신뢰도(branch confidence) 를 기반으로 미래 병렬화 잠재력이 가장 높은 최적의 경로를 선택합니다. 이를 지원하기 위해 Branch Parallelism (BP) 을 활용하는 LoPA-Dist 라는 다중 장치 추론 시스템을 공동 설계했습니다.

주요 결과

LoPA 는 D2F-Dream 모델에 통합되어 GSM8K 벤치마크에서 TPF를 10.1 까지, HumanEval+ 벤치마크에서 D2F-DiffuCoder의 TPF를 8.3 까지 증가시켰습니다. 특히 D2F-Dream 의 단일 샘플 처리량(single-sample throughput)을 MBPP 에서 1073.9 tokens/s , GSM8K 에서 856.5 tokens/s 까지 가속화하며, 이는 기존 baseline 모델들보다 훨씬 뛰어난 성능입니다. 이러한 속도 향상에도 불구하고, 원본 모델의 성능 스코어를 유지하거나 오히려 능가했습니다.

AI 실무자를 위한 시사점

본 연구는 dLLM 추론의 병렬화 잠재력을 최대한 끌어올리기 위한 핵심 요소로 Token Filling Order (TFO) 의 중요성을 강조하며, 새로운 최적화 방향을 제시합니다. LoPA 는 학습 없이 기존 dLLM에 적용 가능한 플러그앤플레이 방식 으로, 실무 환경에서 기존 모델의 추론 속도를 크게 향상시킬 수 있는 실용적인 솔루션입니다. 특히 1000 tokens/s 이상 의 높은 처리량 달성은 실시간 응답이 필수적인 애플리케이션에 dLLM 적용 가능성을 크게 높이며, 다중 장치 병렬 처리 시스템 설계는 대규모 dLLM 서비스 구축에 대한 구체적인 가이드라인을 제공합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry
현재글 : [논문리뷰] LoPA: Scaling dLLM Inference via Lookahead Parallel Decoding
다음글 [논문리뷰] MatSpray: Fusing 2D Material World Knowledge on 3D Geometry