[논문리뷰] WMPO: World Model-based Policy Optimization for Vision-Language-Action Models

수정: 2025년 11월 13일

링크: 논문 PDF로 바로 열기

저자: Fangqi Zhu, Zhengyang Yan, Zicong Hong, Quanxin Shou, Xiao Ma, Song Guo

핵심 연구 목표

VLA 모델이 로봇 조작에 큰 잠재력을 보이지만, 전문가 데모에 의존하여 실패로부터 학습하고 스스로 수정하는 능력이 제한적이라는 문제를 해결하고자 합니다. 본 연구는 실제 로봇 환경과의 상호작용 없이 온-정책 VLA RL 을 가능하게 하는 원칙적인 프레임워크인 WMPO 를 제안하여, 실제 로봇에서의 높은 샘플 복잡성 문제를 완화하고 정책의 견고성과 회복 능력을 향상시키는 것을 목표로 합니다.

핵심 방법론

WMPO는 고충실도 픽셀 공간 비디오 생성 월드 모델 을 수백만 로봇 궤적에 사전 훈련한 후, 정책 행동 데이터로 미세 조정하는 정책 행동 정렬(Policy Behavior Alignment) 을 수행합니다. 이 월드 모델은 노이즈 프레임 조건화프레임 수준 액션 제어 를 통해 장기 비디오 예측의 시각 왜곡 및 액션-프레임 불일치를 완화합니다. 정책 최적화는 학습된 월드 모델 내에서 완전히 상상된 궤적 을 사용하여 온-정책 GRPO (Group Relative Policy Optimization) 방식으로 이루어지며, 경량 보상 모델 이 작업 성공 여부를 예측합니다.

주요 결과

Mimicgen 시뮬레이션 환경 에서 WMPO는 P=1280 롤아웃 예산에서 평균 성공률 57.6% 를 달성하여 GRPO(37.1%)DPO(42.4%) 대비 상당히 높은 샘플 효율성 과 성능 개선을 보였습니다. 실제 로봇 환경에서는 70%의 성공률 을 기록하며 베이스 정책(53%)DPO(60%) 를 능가했습니다. 또한, WMPO는 자가 수정 과 같은 새로운 행동을 보이며, 강력한 일반화 능력반복적인 평생 학습 역량을 입증했습니다.

AI 실무자를 위한 시사점

WMPO는 월드 모델 기반 RL 을 통해 실제 로봇 환경의 높은 샘플 비효율성 을 해결하는 확장 가능한 패러다임을 제시합니다. 픽셀 공간 월드 모델정책 행동 정렬 은 VLA 모델의 사전 훈련된 시각적 이해를 효과적으로 활용하여 가상 환경의 현실성 을 높이는 중요한 기여를 합니다. 이러한 접근 방식은 온-정책 GRPO 와 결합되어, 로봇이 예측할 수 없는 상황에서 스스로 오류를 수정 하고, 일반화된 작업 수행 능력 을 갖추도록 훈련하는 데 실용적인 해결책을 제공합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#Vision-Language-Action (VLA)#Reinforcement Learning (RL)#Model-based RL#World Models#Policy Optimization#Robotics#Sample Efficiency#Self-correction

Review 의 다른글