[논문리뷰] GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators

수정: 2025년 12월 23일

링크: 논문 PDF로 바로 열기

저자: Jiacheng Guo, Ling Yang, Peter Chen, Qixin Xiao, Yinjie Wang, Xinzhe Juan, Jiahao Qiu, Ke Shen, Mengdi Wang

핵심 연구 목표

본 논문은 대규모 언어 모델(LLM) 에이전트 훈련의 주요 병목인 높은 비용과 실세계 상호작용 데이터의 정적인 특성을 해결하고자 합니다. 이를 위해 에이전트와 확장 가능한 생성형 환경 시뮬레이터 간의 난이도 정렬 공동 진화(difficulty-aligned co-evolutionary) 프레임워크인 GenEnv 를 제안하며, 에이전트 역량을 데이터 효율적으로 확장하는 것을 목표로 합니다.

핵심 방법론

GenEnv는 데이터 진화 패러다임(Data-Evolving Paradigm) 을 구현하여, 생성형 환경 LLM (πenv) 이 에이전트의 현재 역량에 맞춰 동적으로 태스크를 생성합니다. 에이전트의 학습은 α-커리큘럼 보상(α-Curriculum Reward) 을 통해 난이도 조절을 받으며, 시뮬레이터는 에이전트의 근접 발달 영역(zone of proximal development) 내에서 성공률을 유지하는 태스크 생성에 대한 보상을 받습니다. 에이전트 정책은 Group Relative Policy Optimization (GRPO) 으로, 환경 정책은 Reward-Weighted Regression (RWR) 으로 업데이트됩니다.

주요 결과

GenEnv7B 기반 모델 대비 5가지 벤치마크(API-Bank, ALFWorld, BFCL, Bamboogle, TravelPlanner)에서 에이전트 성능을 최대 +40.3% 향상시켰습니다. 또한, Gemini 2.5 Pro 기반 오프라인 데이터 증강 보다 우수한 성능을 달성하면서 3.3배 적은 합성 데이터 를 사용함으로써 탁월한 데이터 효율성을 입증했습니다. 이는 난이도에 맞춰 조절되는 적응형 시뮬레이션이 단순히 교사 모델을 확장하는 것보다 더 가치 있음을 보여줍니다.

AI 실무자를 위한 시사점

이 연구는 LLM 에이전트 훈련에 있어 정적 데이터셋에 대한 의존성에서 벗어나 동적이고 적응적인 시뮬레이션 환경 으로의 패러다임 전환을 제시합니다. 특히 실제 상호작용 데이터 수집이 비싸거나 위험한 도메인에서, AI 실무자들은 GenEnv 와 같은 공동 진화 시뮬레이터 에 투자하여 훨씬 더 데이터 효율적이고 강력한 에이전트를 개발할 수 있습니다. 이는 모델 크기보다는 데이터 생성 및 정렬 방식 의 중요성을 강조합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#LLM Agents#Environment Simulation#Co-evolution#Curriculum Learning#Data Efficiency#Reinforcement Learning#Adaptive Simulation#Difficulty Alignment

Review 의 다른글