[논문리뷰] DigiData: Training and Evaluating General-Purpose Mobile Control Agents

2025년 11월 11일수정: 2025년 11월 11일

링크: 논문 PDF로 바로 열기

저자: Yuxuan Sun, Manchen Wang, Shengyi Qian, William R. Wong, Eric Gan, Pierluca D'Oro, Alejandro Castillejo Munoz, Sneha Silwal, Pedro Matias, Nitin Kamra, Satwik Kottur, Nick Raines, Xuanyi Zhao, Joy Chen, Joseph Greer, Andrea Madotto, Allen Bolourchi, James Valori, Kevin Carlberg, Karl Ridgeway, Joseph Tighe

핵심 연구 목표

본 논문은 모바일 제어 에이전트 훈련을 위한 고품질의 대규모 데이터셋 인 DigiData를 구축하고, 에이전트 성능을 평가할 수 있는 강력한 벤치마크 인 DigiData-Bench를 제시하는 것을 목표로 합니다. 기존 데이터셋의 제한된 다양성과 낮은 태스크 복잡성, 그리고 단일 스텝 정확도 와 같은 불충분한 평가 방식의 한계를 극복하고자 합니다. 궁극적으로 모바일 제어 에이전트의 발전과 인간-디바이스 상호작용의 개선에 기여하는 것을 목표로 합니다.

핵심 방법론

DigiData 데이터셋은 목표 큐레이션 , 시연 수집 , 궤적 검증 의 3단계 파이프라인을 통해 구축됩니다. 특히, 인간 작업자가 앱 기능을 포괄적으로 탐색하여 목표를 큐레이션하고, LLM Judges 와 인간 검증을 통해 궤적의 품질을 보장합니다. 평가 벤치마크인 DigiData-Bench는 인간 지원 동적 평가 및 AI 지원 동적 평가 프로토콜을 포함하며, 에이전트 평가는 주로 LLM Judges 를 통해 수행됩니다. 에이전트 훈련에는 Perception Language Model (PLM) 이 DigiData 및 기존 데이터셋 혼합을 통해 감독 학습(SFT) 방식으로 미세 조정되었습니다.

주요 결과

DigiData 는 26개 안드로이드 앱 에 걸쳐 152,000개의 궤적 과 138만 개의 스크린샷 을 포함하며, 기존 데이터셋 대비 월등히 높은 목표 다양성 과 복잡성 을 제공합니다. 훈련된 PLM 8B COT 모델은 DigiData-Bench에서 인간 평가 기준 47.3%의 태스크 성공률 을 달성하여, GPT40(27.8%) 및 Qwen2.5VL(39.2%) 와 같은 기존 모델을 크게 능가했습니다. 또한, LLM Judges 가 에이전트 순위와 높은 상관관계를 보이며 GPT4o 의 경우 0.89의 정확도 와 0.94의 Kendall Rank Correlation 으로 인간 평가를 잘 대변함을 입증했습니다.

AI 실무자를 위한 시사점

DigiData는 모바일 제어 에이전트 개발을 위한 고품질의 대규모 다중 모달 데이터셋 으로, 실제 앱의 고급 기능을 자동화하는 데 필요한 데이터를 제공합니다. LLM Judges 를 활용한 동적 평가 프로토콜 은 에이전트 성능을 보다 정확하고 효율적으로 측정하여 개발 속도를 높일 수 있는 강력한 방법론을 제시합니다. Chain-of-Thought (COT) 데이터 를 활용한 훈련이 에이전트의 성능과 행동 설명 가능성을 동시에 향상시킨다는 점은 실제 AI 시스템 설계에 중요한 고려사항입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models
현재글 : [논문리뷰] DigiData: Training and Evaluating General-Purpose Mobile Control Agents
다음글 [논문리뷰] Do LLMs Feel? Teaching Emotion Recognition with Prompts, Retrieval, and Curriculum Learning