[논문리뷰] Computer-Use Agents as Judges for Generative User Interface

2025년 11월 25일수정: 2025년 11월 25일

링크: 논문 PDF로 바로 열기

저자: Kevin Qinghong Lin*, Siyuan Hu*, Linjie Li, Zhengyuan Yang, Lijuan Wang, Philip Torr, Mike Zheng Shou

핵심 연구 목표

현재 인간 중심적으로 설계된 GUI 가 Computer-Use Agent (CUA)의 비효율적인 태스크 수행을 강제하는 문제를 해결하는 것이 목표입니다. 본 연구는 CUA가 Judge 역할을 수행하여 코드 생성형 언어 모델(Coder)의 자동 GUI 설계 를 돕고, 궁극적으로 에이전트에게 효율적이고 신뢰할 수 있는 인터페이스 를 생성할 수 있는지 탐구합니다.

핵심 방법론

Coder-CUA Collaboration 프레임워크 를 제안하며, Coder는 Designer로서 UI를 생성 및 수정하고, CUA는 Judge로서 태스크를 실행하고 피드백을 제공합니다. 이를 위해 52개 애플리케이션 과 1560개 GPT-5 생성 태스크 를 포함하는 AUI-Gym 벤치마크 를 구축하고 룰 기반 검증기 를 활용하여 인간 개입 없는 평가를 가능하게 했습니다. 특히, 복잡한 CUA 상호작용 피드백을 시각적으로 요약하는 CUA Dashboard 를 개발하여 시각 토큰을 평균 76.2% 감소시키면서도 명확한 개선 지침을 제공합니다.

주요 결과

제안된 프레임워크는 에이전트 중심 UI 설계에서 상당한 개선을 보였습니다. GPT-5 Coder의 경우, 통합 피드백 적용 후 함수적 완전성(Function Completeness)이 67.9%에서 81.5% 로, CUA 성공률(CUA Success Rate)은 24.5%에서 26.0% 로 향상되었습니다. CUA Dashboard 는 텍스트 전용 피드백 대비 GPT-5 의 함수적 완전성을 62.1%에서 70.8% 로, CUA 성공률을 18.7%에서 25.7% 로 증가시키는 등 일관된 성능 향상을 가져왔습니다.

AI 실무자를 위한 시사점

이 연구는 AI가 UI의 수동적인 사용자를 넘어 능동적인 평가 및 개선 주체 가 될 수 있음을 보여줍니다. AI 실무자들은 Coder-CUA 협업 프레임워크 와 AUI-Gym 벤치마크 를 통해 에이전트 중심의 GUI를 설계하고 테스트 하는 새로운 접근 방식을 활용할 수 있습니다. 특히, CUA Dashboard 는 에이전트의 복잡한 내비게이션 실패를 직관적인 시각적 요약으로 제공하여 UI 디버깅 및 반복 설계 과정 을 크게 가속화할 수 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens
현재글 : [논문리뷰] Computer-Use Agents as Judges for Generative User Interface
다음글 [논문리뷰] Controllable Layer Decomposition for Reversible Multi-Layer Image Generation