[논문리뷰] Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

수정: 2025년 12월 18일

링크: 논문 PDF로 바로 열기

저자: Zhenwen Liang, Sidi Lu, Wenhao Yu, Kishan Panaganti, Yujun Zhou, Haitao Mi, Dong Yu

핵심 연구 목표

본 논문은 LLM의 강화 학습(RL) 탐색 메커니즘이 모델의 실제 학습 방식과 근본적으로 일치하지 않는다는 문제를 제기합니다. 기존의 엔트로피 보너스나 외부 의미론적 비교 방식이 피상적인 다양성만 유도하며, 실제 최적화에 기여하는 업데이트 방향의 다양성 을 보장하지 못하기 때문에, 모델 스스로 자신의 파라미터 업데이트 방향을 분석하여 탐색을 안내하는 자율적인(self-guided) 탐색 프레임워크 를 개발하는 것을 목표로 합니다.

핵심 방법론

저자들은 G²RL (Gradient-guided Reinforcement Learning) 이라는 프레임워크를 제안합니다. 이는 각 생성된 응답에 대해 모델의 최종 레이어 민감도(first-order sensitivity) 에서 파생된 시퀀스 레벨 특징 을 구성하고, 이를 통해 트라젝토리가 정책을 어떻게 재구성할지 측정합니다. 샘플링된 그룹 내에서 이 특징들을 비교하여 새로운 기울기 방향 을 제시하는 트라젝토리에는 상한이 있는 곱셈형 보상 스케일러 를 부여하고, 중복되거나 정보성이 낮은 업데이트는 덜 강조하는 방식으로 GRPO 에 통합합니다.

주요 결과

G²RLMATH500, AMC, AIME24, AIME25, GPQA, MMLUPRO 등의 수학 및 일반 추론 벤치마크에서 Qwen3-base 1.7B/4B 모델 에 대해 일관되게 pass@1, maj@16, pass@k 성능을 향상시켰습니다. 특히, AIME25 (4B 모델) 에서 pass@1을 17.5%에서 20.1% 로, maj@16을 23.9%에서 29.0% 로 개선했습니다. 또한, G²RL 은 GRPO 대비 거의 5배 더 많은 직교 또는 반대되는 기울기 방향 을 탐색하면서도 의미론적 일관성을 유지함을 확인했습니다.

AI 실무자를 위한 시사점

LLM 추론 능력 강화 를 위한 RL 훈련 시, 외부 휴리스틱이 아닌 모델의 내부 기울기(gradient) 구조 를 활용한 탐색 전략이 기존 방식보다 더 효과적임을 시사합니다. AI 엔지니어는 G²RL 과 같은 기울기 안내(gradient-guided) 탐색 기법 을 활용하여 모델이 의미적으로는 유사하지만 학습에 기여하는 방향이 다른 해결책 을 탐색하도록 유도함으로써, 학습 효율성최종 성능 을 크게 향상시킬 수 있습니다. 이 방법은 기존 GRPO 와 같은 PPO-스타일 RL 프레임워크에 추가적인 역전파 계산 없이 통합 되어 구현 및 적용 비용이 낮다는 장점이 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#Reinforcement Learning#Large Language Models#Exploration Strategy#Gradient-Guided#Reward Shaping#Reasoning#PPO

Review 의 다른글