[논문리뷰] DeepTravel: An End-to-End Agentic Reinforcement Learning Framework for Autonomous Travel Planning Agents
링크: 논문 PDF로 바로 열기
저자: Yansong Ning, Rui Liu, Jun Wang, Kai Chen, Wei Li, Jun Fang, Kan Zheng, Naiqiang Tan, Hao Liu
핵심 연구 목표
기존 수동 프롬프트 엔지니어링 및 고정된 워크플로우에 의존하는 여행 계획(TP) 에이전트의 한계를 극복하고, 자율적으로 계획, 도구 실행, 응답 반영을 통해 다단계 추론을 수행할 수 있는 종단 간 에이전트 강화 학습 프레임워크인 DeepTravel 을 구축하는 것이 목표입니다.
핵심 방법론
DeepTravel은 세 가지 주요 구성 요소를 포함합니다. 첫째, 실제 API 제약 없이 훈련 가능한 견고한 샌드박스 환경 을 구축하여 교통, 숙박, POI 데이터를 캐싱합니다. 둘째, 계층적 보상 모델링 시스템 을 개발하여 궤적 수준(spatiotemporal feasibility) 및 턴 수준(detail consistency) 검증을 통해 효율적이고 정확한 보상 신호를 제공합니다. 셋째, 실패 경험 버퍼에서 주기적으로 리플레이하는 리플레이 증강 강화 학습 방법을 제안하여 에이전트의 추론 능력을 강화합니다.
주요 결과
DeepTravel은 오프라인 및 온라인 평가 모두에서 기존 최첨단 LLM을 능가하는 성능을 입증했습니다. 특히, Qwen3-32B 와 같은 비교적 작은 LLM이 DeepTravel 프레임워크를 통해 DeepSeek-R1, OpenAI-01/03 와 같은 대규모 LLM을 능가하는 성능을 보였습니다. 예를 들어, DeepTravel-32B-RL 모델 은 온라인 사용자 데이터에서 62.77%의 최종 통과율 을 달성하며 기존 모델 대비 상당한 개선을 이루었습니다.
AI 실무자를 위한 시사점
이 연구는 소규모 LLM 도 효과적인 에이전트 강화 학습 프레임워크를 통해 복잡한 작업을 자율적으로 수행할 수 있음을 보여줍니다. 안정적인 샌드박스 환경 과 계층적 보상 모델링 의 중요성을 강조하며, 이는 복잡한 다단계 의사결정 환경에서 에이전트 학습의 효율성과 신뢰성을 높이는 데 핵심적입니다. 경험 리플레이 전략은 에이전트가 실패 사례에서 지속적으로 학습하고 개선하도록 유도하여 실제 응용 가능성을 높입니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
Review 의 다른글
- 이전글 [논문리뷰] D^3QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection
- 현재글 : [논문리뷰] DeepTravel: An End-to-End Agentic Reinforcement Learning Framework for Autonomous Travel Planning Agents
- 다음글 [논문리뷰] G^2RPO: Granular GRPO for Precise Reward in Flow Models