[논문리뷰] Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models
링크: 논문 PDF로 바로 열기
저자: Zhipeng Chen, Xiaobo Qin, Youbin Wu, Yue Ling, Qinghao Ye, Wayne Xin Zhao, Guang Shi
핵심 연구 목표
본 논문은 RLVR(Verifiable Rewards를 사용한 강화 학습) 환경에서 Pass@1 기반 훈련이 겪는 탐색-활용 균형 문제, 즉 정책이 보수적인 행동을 선호하여 지역 최적점에 수렴하는 문제를 해결하고자 합니다. 이를 위해 Pass@k 지표를 보상으로 사용하여 LLM의 탐색 능력을 향상시키고, 궁극적으로 더 높은 추론 능력을 달성하는 것을 목표로 합니다.
핵심 방법론
저자들은 LLM 훈련에 Pass@k Training 을 제안하며, 이는 k개의 샘플 응답 중 가장 높은 보상을 그룹 보상으로 사용하는 방식입니다. 이 과정의 효율성을 높이기 위해 Full Sampling , Bootstrap Sampling 을 통해 샘플링 방식을 개선했으며, 나아가 샘플링에 의한 분산을 제거하는 Analytical Derivation 을 통해 이점 함수( Apos, Aneg )를 직접 설계했습니다. 이 방법은 DAPO (GRPO의 변형) 프레임워크 내에서 구현됩니다.
주요 결과
Pass@k Training 은 Enigmata 및 Maze 와 같은 추론 태스크에서 Pass@k 성능을 크게 향상 시켰으며, Pass@1 점수도 유지하거나 개선 했습니다. 특히 Qwen2.5-7B-Instruct 모델의 Enigmata Pass@k 정확도는 Pass@1 Training 의 45.9% 에서 63.5% 로, Pass@1 정확도는 37.7% 에서 47.7% 로 향상되었습니다. 또한, Analytical Derivation 기반의 Pass@k Training 은 가장 안정적이고 효율적인 훈련 과정을 보였습니다.
AI 실무자를 위한 시사점
Pass@k Training 은 복잡한 추론 태스크를 위한 LLM을 훈련할 때 탐색과 활용의 균형을 효과적으로 맞추는 실용적인 방법을 제공합니다. 특히 분석적 도출(Analytical Derivation) 을 통한 이점 함수 설계는 훈련 효율성과 안정성을 극대화하여 대규모 컴퓨팅 자원 의존도를 줄일 수 있습니다. 이는 모델 스케일, 아키텍처, 태스크 도메인에 관계없이 효과가 입증되어, 향후 LLM 최적화 및 보상 설계에 새로운 방향을 제시합니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
Review 의 다른글
- 이전글 [논문리뷰] PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts
- 현재글 : [논문리뷰] Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models
- 다음글 [논문리뷰] Processing and acquisition traces in visual encoders: What does CLIP know about your camera?