[논문리뷰] How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on τ-bench

수정: 2025년 9월 2일

링크: 논문 PDF로 바로 열기

저자: Venkatesh Mishra, Jayanth Srinivasa, Amir Saeidi, Satyam Raj, Mutsumi Nakamura, Gaowen Liu, Ali Payani, Chitta Baral

핵심 연구 목표

본 논문은 복잡하고 동적인 다중 턴 환경(예: τ-bench )에서 대규모 언어 모델(LLM) 에이전트 가 도구를 사용하는 과정에서 발생하는 일관성 없는 추론, 도메인 정책 미준수, 장기적인 정보 추출 실패와 같은 문제들을 해결하는 것을 목표로 합니다. 특히, 에이전트의 환각 현상 , 도메인 정책 위반 , 컨텍스트 오해 등 일반적인 실패 모드를 진단하고 완화하고자 합니다.

핵심 방법론

저자들은 사용자 질의, 관련 도메인 규칙 , 도구 제안 을 통합하여 에이전트의 입력을 재구성하는 Input-Reformulation Multi-Agent (IRMA) 프레임워크를 제안합니다. IRMA 는 에이전트가 행동을 취하기 전에 입력의 품질을 향상시키는 데 중점을 두며, 기억(Memorization) , 제약 조건(Constraints) , 도구 제안(Tool Suggestion) 의 세 가지 핵심 모듈로 구성됩니다. 또한, Follow-up Question ACTing (FACT) 이라는 프롬프트 방식을 도입하여 도구 호출 전에 표적화된 질문을 통해 필요한 정보를 수집하도록 합니다.

주요 결과

IRMAτ-bench 에서 다른 최신 방법론들을 능가하는 성능을 보였습니다. 특히, 전체 pass@5 점수에서 ReAct 대비 16.1% , Function Calling 대비 12.7% , Self-Reflection 대비 19.1% 더 높은 신뢰성을 달성했습니다. 항공 도메인 태스크에서는 Gemini 1.5 Pro-FC 대비 20% , Claude 3.5 Haiku-FC 대비 22.4% 더 높은 정확도를 기록했습니다. 또한, IRMA 는 경쟁 방법론보다 더 적은 턴으로 태스크를 완료하여 효율성도 입증했습니다.

AI 실무자를 위한 시사점

본 연구는 컨텍스트 엔지니어링 을 통해 LLM 에이전트 의 도구 사용 정확도와 신뢰성을 향상시킬 수 있음을 보여줍니다. 특히, 복잡한 비즈니스 로직이나 규제 준수가 중요한 실제 애플리케이션에서 도메인 정책 위반 이나 환각 현상 을 줄이는 데 효과적입니다. IRMA 프레임워크는 추가적인 모델 훈련 없이도 사전 훈련된 LLM 에 실질적인 개선을 제공하여, LLM 기반 에이전트 의 안정적인 배포에 기여할 수 있는 실용적인 접근 방식을 제시합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#LLM Agents#Tool Use#Function Calling#Input Reformulation#Dynamic Environments#τ-bench#Context Engineering#Multi-Agent Framework

Review 의 다른글