[논문리뷰] Confucius Code Agent: An Open-sourced AI Software Engineer at Industrial Scale

2025년 12월 12일수정: 2025년 12월 12일

링크: 논문 PDF로 바로 열기

저자: Zhaodong Wang, Zhenting Qi, Sherman Wong, Nathan Hu, Samuel Lin, Jun Ge, Erwin Gao, Yining Yang, Ben Maurer, Wenlin Chen, David Recordon, Yilun Du, Minlan Yu, Ying Zhang

핵심 연구 목표

본 논문은 산업 규모의 저장소에서 작동할 수 있는 오픈소스 AI 소프트웨어 엔지니어인 Confucius Code Agent (CCA) 를 제시하여, 기존 오픈소스 에이전트의 확장성 및 장기 컨텍스트/메모리 한계를 극복하고, 독점 에이전트의 투명성, 확장성, 제어 가능성 부족 문제를 해결하는 것을 목표로 합니다. 또한, AX(Agent Experience), UX(User Experience), DX(Developer Experience)의 균형을 맞춘 개발 플랫폼인 Confucius SDK 를 제공하고자 합니다.

핵심 방법론

Confucius SDK 는 세 가지 상호 보완적인 관점(AX, UX, DX)을 중심으로 설계된 오픈소스 에이전트 개발 플랫폼입니다. 주요 기능으로는 계층적 작업 메모리를 통한 장기 컨텍스트 추론(F1) , 영구적인 노트 작성 시스템을 통한 세션 간 지속 학습(F2) , 모듈식 확장 시스템을 통한 강력한 도구 사용(F3) 이 있습니다. 또한, 메타 에이전트(F4) 는 빌드-테스트-개선 루프 를 통해 에이전트 구성을 자동으로 합성, 평가 및 개선하여 개발을 가속화합니다. CCA 는 이러한 SDK 메커니즘을 소프트웨어 엔지니어링 작업에 맞게 구체화한 에이전트입니다.

주요 결과

SWE-Bench-Pro 벤치마크에서 CCA 는 Claude 4.5 Opus 를 사용하여 54.3% 의 Resolve@1 성능을 달성하여 기존 최고 기록인 Anthropic의 독점 스캐폴드(52.0%)를 능가했습니다. Claude 4.5 Sonnet 으로는 52.7% 를 기록하며 Live-SWE-Agent(45.8%)를 크게 앞섰습니다. SWE-Bench-Verified 에서는 Claude 4 Sonnet 으로 74.6% 를 달성하여 OpenHands(72.8%)를 상회하며, 에이전트 스캐폴딩의 중요성을 입증했습니다.

AI 실무자를 위한 시사점

본 연구는 Confucius SDK 와 CCA 를 통해 AI 소프트웨어 엔지니어링을 위한 투명하고 확장 가능하며 재현 가능한 오픈소스 기반을 제공합니다. 이는 에이전트의 오케스트레이션, 메모리 구조, 도구 추상화와 같은 스캐폴딩이 원천 LLM 모델의 성능 만큼이나 중요할 수 있음을 보여줍니다. 따라서 AI 실무자들은 이 프레임워크를 활용하여 산업 규모의 AI 에이전트를 신속하게 개발하고 배포하며, 장기 컨텍스트 추론 및 지속 학습 기능을 통해 실제 문제를 해결하는 데 큰 도움을 받을 수 있을 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation
현재글 : [논문리뷰] Confucius Code Agent: An Open-sourced AI Software Engineer at Industrial Scale
다음글 [논문리뷰] Evaluating Gemini Robotics Policies in a Veo World Simulator