[논문리뷰] No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping
링크: 논문 PDF로 바로 열기
저자: Thanh-Long V. Le, Myeongho Jeon, Kim Vu, Viet Lai, Eunho Yang
핵심 연구 목표
본 논문은 기존의 Verifiable Rewards를 활용한 강화 학습(RLVR) 방법론, 특히 GRPO 가 모든 롤아웃 응답이 동일한 보상을 받는 " Zero-Variance Prompts "를 무시하여 귀중한 학습 신호를 손실하고 롤아웃 비용을 낭비하는 문제를 해결하고자 합니다. Zero-variance prompts가 정책 최적화에 유용한 피드백을 제공할 수 있음을 입증하고 이를 활용하는 새로운 알고리즘을 제안합니다.
핵심 방법론
저자들은 RL with Zero-Variance Prompts (RL-ZVP) 를 제안하여 zero-variance prompts로부터 학습 신호를 추출합니다. 이 방법은 대조적인 응답이 없더라도 정확한 응답에는 보상을, 오류에는 패널티를 부여하며, 특히 토큰 수준의 특성을 활용한 엔트로피-가이드 Advantage Shaping 을 통해 피드백의 강도를 조절합니다. 구체적으로, 모든 응답이 올바른 경우 토큰 엔트로피를 직접 사용하여 Advantage를 정의하고, 모든 응답이 틀린 경우 -(max(H_i,k) - H_i,t)를 사용하여 고엔트로피 토큰에 대한 패널티를 줄여 탐색 유연성을 유지합니다.
주요 결과
RL-ZVP 는 6가지 수학 추론 벤치마크에서 GRPO 대비 상당한 성능 향상을 달성했습니다. 특히, AIME25 에서 최대 8.61%의 정확도 와 OlympiadBench 에서 7.77%의 Pass Rate 향상을 보였습니다. 또한, prompt-filtering 기반의 다른 베이스라인들보다 일관되게 우수한 성능을 보였으며, 더욱 안정적이고 일관된 학습 과정을 입증했습니다.
AI 실무자를 위한 시사점
이 연구는 지금까지 버려졌던 Zero-Variance Prompts 가 LLM 강화 학습 에서 중요한 학습 신호원이 될 수 있음을 보여줍니다. 엔트로피-가이드 Advantage Shaping 은 미묘하고 정보가 풍부한 신호를 추출하는 효과적인 메커니즘을 제공하여 LLM의 추론 능력을 향상시킬 수 있습니다. 이는 데이터 효율성을 높이고 훈련 안정성을 개선하며, 결과적으로 더욱 정교하고 자신감 있는 추론 행동 을 촉진할 잠재력을 가지고 있습니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
Review 의 다른글
- 이전글 [논문리뷰] MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing
- 현재글 : [논문리뷰] No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping
- 다음글 [논문리뷰] PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning