[논문리뷰] A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems

2025년 8월 12일수정: 2025년 8월 12일

링크: 논문 PDF로 바로 열기

저자: Jinyuan Fang, Yanwen Peng, Xi Zhang, Yingxu Wang, Xinhao Yi, Guibin Zhang, Yi Xu, Bin Wu, Siwei Liu, Zihao Li, Zhaochun Ren, Nikos Aletras, Xi Wang, Han Zhou, Zaiqiao Meng

핵심 연구 목표

이 논문은 대규모 언어 모델(LLMs) 기반 AI 에이전트의 정적인 구성 한계 를 극복하고, 동적이고 진화하는 환경에 적응할 수 있는 자기 진화(Self-Evolving) 및 평생 학습(Lifelong Learning) 에이전트 시스템 패러다임을 종합적으로 조망하는 것을 목표로 합니다. 기존 연구들을 통합적인 개념 프레임워크 를 통해 체계적으로 분류하고 분석하여 미래 연구를 위한 기반을 제공하고자 합니다.

핵심 방법론

이 서베이는 "세 가지 자기 진화 AI 에이전트 법칙(Three Laws of Self-Evolving AI Agents)" (Endure, Excel, Evolve)을 제안하여 안전하고 효과적인 자기 진화를 위한 가이드라인을 제시합니다. 또한 시스템 입력(System Inputs), 에이전트 시스템(Agent System), 환경(Environment), 최적화 도구(Optimisers) 로 구성된 통합 개념 프레임워크 를 통해 자기 진화 프로세스를 추상화하고, 이를 기반으로 단일 에이전트 최적화(Prompt, Memory, Tool, LLM Behavior) , 다중 에이전트 최적화(Topology, Prompt, LLM Backbone) , 및 도메인 특화 최적화(Biomedicine, Programming, Finance, Legal) 기술들을 체계적으로 분류하고 분석합니다.

주요 결과

이 연구는 LLM 중심 학습 패러다임이 정적 모델 오프라인 사전 훈련(MOP) 에서 모델 온라인 적응(MOA) , 다중 에이전트 오케스트레이션(MAO) 을 거쳐 다중 에이전트 자기 진화(MASE) 로 진화하는 과정을 명확히 보여줍니다. 특히, 자기 진화 AI 에이전트 는 환경 피드백과 메타 보상을 통해 프롬프트, 메모리, 도구 사용 전략, 심지어 상호작용 토폴로지까지 자율적으로 개선 할 수 있음을 제시합니다. 본 논문 자체의 새로운 정량적 결과는 없으나, 광범위한 문헌 분석을 통해 에이전트 시스템의 적응성, 자율성, 평생 학습 능력 향상 의 잠재력을 종합적으로 입증합니다.

AI 실무자를 위한 시사점

AI/ML 실무자들은 이 서베이를 통해 자기 진화 에이전트 개발을 위한 체계적인 로드맵 을 얻을 수 있습니다. 특히, 지속적인 최적화 루프 를 통해 동적 환경에 적응하고 성능을 개선하는 강력한 에이전트 시스템 설계 에 필요한 프롬프트 엔지니어링, 메모리 관리, 도구 활용, 다중 에이전트 협업 메커니즘 등 핵심 요소를 이해할 수 있습니다. 또한, 안전성(Safety), 평가(Evaluation), 전이성(Transferability) 과 같은 주요 도전 과제를 인지하고, 실제 애플리케이션에 적용할 때 신뢰성(Reliability)과 효과성(Effectiveness)을 보장 하는 데 기여할 수 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off
현재글 : [논문리뷰] A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems
다음글 [논문리뷰] Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents