[논문리뷰] Meta-RL Induces Exploration in Language Agents

수정: 2025년 12월 22일

링크: 논문 PDF로 바로 열기

저자: Yulun Jiang, Liangze Jiang, Damien Teney, Michael Moor, Maria Brbić

핵심 연구 목표

본 논문은 기존 강화 학습(RL) 기반의 대규모 언어 모델(LLM) 에이전트가 환경에서 능동적인 탐색과 시행착오 경험으로부터 효율적인 정책 적응에 어려움을 겪는 문제를 해결하고자 합니다. 이를 위해 메타 강화 학습(Meta-RL) 을 활용하여 LLM 에이전트가 테스트 시점에 능동적으로 탐색하고 환경 피드백으로부터 학습할 수 있도록 하는 일반적인 프레임워크를 제안합니다.

핵심 방법론

제안하는 LAMER (LLM Agent with Meta-RL) 프레임워크는 두 가지 핵심 요소로 구성됩니다. 첫째, 크로스-에피소드 훈련 프레임워크 를 통해 에이전트가 초기 에피소드에서는 탐색을 장려하고 이후 에피소드에서는 이 정보를 활용하여 장기적인 보상을 최적화하도록 합니다. 둘째, 반영(reflection)을 통한 인-콘텍스트 정책 적응 메커니즘을 사용하여 에이전트가 기울기 업데이트 없이 태스크 피드백 신호로부터 정책을 조정할 수 있도록 합니다. 이 Meta-RL 목표(Eq. 5)GiGPO 와 같은 표준 정책 기울기 알고리즘으로 최적화됩니다.

주요 결과

LAMERSokoban, MineSweeper, Webshop 환경에서 RL 베이스라인 대비 각각 11%, 14%, 19% 의 상당한 성능 향상(pass@3 기준)을 달성했습니다. 또한, Meta-RL 훈련 모델은 RL 훈련 에이전트보다 더 도전적이거나 이전에 보지 못한 태스크에 더 잘 일반화되었으며, ALFWorld의 OOD 태스크에서는 RL 대비 Cool에서 23%, Pick2에서 14% 의 성능 향상을 보였습니다. 특히, 반영만 포함하는 메모리 구성 이 가장 효과적인 적응을 유도하여 더 높은 성능을 달성했습니다.

AI 실무자를 위한 시사점

Meta-RL 은 LLM 에이전트의 탐색 능력을 유도하는 원칙적인 접근 방식을 제공하며, 이를 통해 새로운 환경에 더욱 견고하게 적응할 수 있는 에이전트 개발 가능성을 보여줍니다. 특히, LLM의 인-콘텍스트 학습 능력 을 활용한 자기-반영 기반 정책 적응 메커니즘 은 모델 파라미터 업데이트 없이도 효율적인 학습과 행동 조정을 가능하게 합니다. 다만, 에피소드 간 순차적인 생성으로 인해 표준 RL 대비 훈련 시간이 약 두 배 더 소요될 수 있다는 점은 고려해야 할 과제입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#Meta-RL#LLM Agents#Exploration#Reinforcement Learning#Policy Adaptation#In-context Learning#Self-reflection#Multi-episode tasks

Review 의 다른글