[논문리뷰] OpenCUA: Open Foundations for Computer-Use Agents

2025년 8월 13일수정: 2025년 8월 13일

링크: 논문 PDF로 바로 열기

저자: Tianbao Xie, Junlin Yang, Dunjie Lu, Bowen Wang, Xinyuan Wang et al.

핵심 연구 목표

본 논문은 상업용 컴퓨터 사용 에이전트(CUA) 시스템의 핵심 세부 정보가 비공개인 현 상황에서, 연구 커뮤니티가 CUA의 역량, 한계, 위험을 연구할 수 있는 포괄적인 오픈 소스 프레임워크 를 제공하는 것을 목표로 합니다. 특히, 대규모 CUA 데이터 및 기초 모델 을 확장하기 위한 개방형 기반을 구축하고자 합니다.

핵심 방법론

OPENCUA 프레임워크는 (1) 인간의 컴퓨터 사용 시연을 원활하게 캡처하는 AGENTNET TOOL 주석 인프라, (2) 3개 운영체제 와 200개 이상 애플리케이션/웹사이트 를 포괄하는 최초의 대규모 컴퓨터 사용 태스크 데이터셋 AGENTNET , (3) 시연을 반영적 Long Chain-of-Thought (CoT) 추론 을 포함한 상태-액션 쌍으로 변환하는 확장 가능한 파이프라인으로 구성됩니다. 모델은 감독 미세 조정(SFT) 을 통해 훈련되었으며, 추론 시 L2 CoT 형식을 사용하여 풍부한 추론 내용을 활용합니다.

주요 결과

OPENCUA-32B 모델은 OSWorld-Verified 벤치마크에서 평균 34.8% 의 성공률을 달성하여 오픈 소스 모델 중 새로운 최고 성능(SOTA) 을 확립했으며, OpenAI CUA (GPT-40) 모델의 31.4% 를 능가했습니다. AGENTNETBENCH 오프라인 평가에서는 79.1% 의 평균 성공률을 기록하여 OpenAI CUA의 73.1% 를 앞섰습니다. 연구는 데이터 규모 및 모델 크기 증가에 따른 견고한 성능 스케일링과 크로스-도메인 일반화 능력을 입증했습니다.

AI 실무자를 위한 시사점

본 연구는 컴퓨터 사용 에이전트(CUA) 개발에 필요한 핵심 오픈 소스 구성 요소(도구, 데이터셋, 코드, 모델)를 제공하여, AI 엔지니어와 연구자들이 데스크탑 자동화 및 AI 에이전트 연구 를 수행할 수 있는 실질적인 기반을 마련했습니다. 특히, 대규모의 다양한 AGENTNET 데이터셋 과 반영적 Chain-of-Thought (CoT) 추론 을 통합한 훈련 방식은 복잡한 컴퓨터 태스크를 자율적으로 처리하는 범용 CUA 개발 에 중요한 통찰을 제공합니다. 이는 실제 환경에서 강력한 성능과 일반화 능력 을 갖춘 에이전트 시스템을 구축하는 데 활용될 수 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations
현재글 : [논문리뷰] OpenCUA: Open Foundations for Computer-Use Agents
다음글 [논문리뷰] Test-Time Reinforcement Learning for GUI Grounding via Region Consistency