[논문리뷰] GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding

2025년 11월 9일수정: 2025년 11월 9일

링크: 논문 PDF로 바로 열기

저자: Shijie Zhou, Viet Dac Lai, Hao Tan, Jihyung Kil, Wanrong Zhu, Changyou Chen, Ruiyi Zhang

핵심 연구 목표

본 연구는 컴퓨터 사용 에이전트의 핵심 기능인 GUI Grounding에서 발생하는 문제를 해결하고자 합니다. 특히, 자연어 지침을 화면의 실행 가능한 영역에 매핑하는 과정에서 MLLM (Multimodal Large Language Model) 이 시각적 입력에서 직접 정확한 좌표를 생성하기 어렵고 계산 비용이 높다는 한계가 있었습니다. 본 논문은 이러한 좌표 기반의 접근 방식 을 지양하고, MLLM 의 내재된 grounding 능력을 효율적으로 활용하여 정확하고 데이터 효율적인 좌표 비의존적(coordinate-free) GUI Grounding 프레임워크 를 제안하는 것을 목표로 합니다.

핵심 방법론

GUI-AIMA 는 MLLM 의 Multi-head Self-Attention (MHSA) 매트릭스에 패치 단위의 Grounding Supervision을 적용하는 방식으로 미세 조정됩니다. 이를 위해, 모든 쿼리 토큰의 text-visual attention을 암시적으로 통합하는 surrogate aggregator 역할을 하는 학습 가능한 토큰 을 도입합니다. 또한, visual-sink query tokens 를 사용하여 쿼리-시각적 상호작용이 강한 어텐션 헤드에 가중치를 부여하는 독창적인 attention head weighting mechanism 을 제안합니다. Ground truth bounding box는 IoU 및 패치 중심 거리 기반의 overlapping-aware, center-aware 가중치 패치 레이블 로 변환되며, 고해상도 환경의 정밀도 향상을 위해 two-step zoom-in inference 단계가 추가됩니다.

주요 결과

GUI-AIMA-3B 는 단 85k 스크린샷 으로 학습되었음에도 불구하고, ScreenSpot-Pro 벤치마크에서 평균 58.6% ( zoom-in 포함 시 72.1% )의 정확도를 달성하며 3B 모델 중 SOTA 성능을 기록했습니다. 또한, OSWorld-G 에서는 평균 62.2% 의 정확도를 보였습니다. 특히, ScreenSpot-Pro 에서 UI-TARS-1.5-7B, JEDI-7B, GUI-Actor-7B 와 같은 더 큰 모델보다 우수하거나 경쟁력 있는 성능을 입증했습니다. Two-step zoom-in inference 는 ScreenSpot-Pro 에서 최대 13.5%p 의 성능 향상을 가져와 고해상도 스크린샷에서의 오프셋 오류를 크게 줄였습니다.

AI 실무자를 위한 시사점

본 연구는 MLLM 의 내재된 멀티모달 어텐션 능력을 추가 모듈 없이 효율적으로 활용하여 적은 데이터셋(85k 스크린샷) 으로도 강력한 GUI Grounding 성능을 달성할 수 있음을 보여줍니다. 이는 고품질 학습 데이터 구축에 어려움을 겪는 AI 실무자들에게 데이터 효율적인 미세 조정 전략 을 제공하며, 모델 배포 및 유지보수 용이성을 높입니다. Two-step zoom-in inference 와 같은 추론 단계 최적화 기법은 고해상도 GUI 환경에서 필요한 정밀도를 확보하는 데 실질적인 도움이 됩니다. 또한, visual-sink query tokens 를 활용한 어텐션 헤드 가중치 방식은 MLLM 내부 동작을 이해하고 특정 태스크에 맞춰 조율하는 데 대한 통찰력을 제공합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation
현재글 : [논문리뷰] GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding
다음글 [논문리뷰] Generalizing Test-time Compute-optimal Scaling as an Optimizable Graph