[논문리뷰] RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments
링크: 논문 PDF로 바로 열기
저자: Shuyue Stella Li, Lifan Yuan, Yiping Wang, Hamish Ivison, Zhiyuan Zeng
핵심 연구 목표
언어 모델(LM)의 강화 학습(RL) 훈련이 정적 데이터셋에서 포화되고, 검증 가능한 학습 데이터를 수집하는 높은 비용 문제를 해결하고자 합니다. 또한, 문제가 너무 쉽거나 어려울 때 학습 신호가 소실되어 RL 훈련이 정체되는 한계를 극복하고, 모델의 진화하는 능력에 맞춰 문제 난이도를 동적으로 조정하여 일반화 가능한 추론 능력을 지속적으로 향상시키는 것을 목표로 합니다.
핵심 방법론
본 연구는 RLVE (Reinforcement Learning with Adaptive Verifiable Environments) 접근법을 제안합니다. 이는 절차적으로 문제(problem) 를 생성하고 알고리즘적으로 검증 가능한 보상 을 제공하는 환경을 사용하며, 각 환경은 정책 모델의 현재 능력 에 맞춰 문제 난이도 분포를 동적으로 조정합니다. RLVE-GYM 이라는 400개 환경 스위트를 구축하여 환경 엔지니어링 을 통해 교육 도구로 활용하고, DAPO 알고리즘 과 동적 샘플링을 사용하여 학습 효율을 높였습니다.
주요 결과
RLVE 를 사용한 훈련은 기존 1.5B 추론 LM (ProRL-1.5B-v2) 의 기존 RL 훈련을 이어가는 것보다 6개 추론 벤치마크에서 평균 3.37%p 의 절대 성능 향상을 보였습니다. 이는 기존 RL 훈련의 0.49%p 향상 및 3배 이상 많은 연산량 대비 현저히 우수한 결과입니다. 또한, 컴퓨팅 제약 시나리오에서 RLVE 는 DeepMath-103K 데이터셋을 사용한 훈련보다 약 2%p 절대 성능 향상을 달성했습니다.
AI 실무자를 위한 시사점
RLVE 는 LM RL 훈련의 주요 과제인 데이터 포화 및 비효율적인 학습 문제를 해결하는 실용적인 방법을 제시합니다. 적응형 검증 가능 환경 을 통해 데이터 수집 비용을 절감하고, 모델의 능력에 맞춰 지속적인 학습 신호를 제공함으로써 일반화 가능한 추론 능력 을 효과적으로 향상시킬 수 있습니다. 이는 LM 개발에서 환경 엔지니어링 이 데이터 및 프롬프트 엔지니어링만큼 중요한 요소가 될 것임을 시사합니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
Review 의 다른글
- 이전글 [논문리뷰] Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models
- 현재글 : [논문리뷰] RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments
- 다음글 [논문리뷰] RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization