[논문리뷰] OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning
링크: 논문 PDF로 바로 열기
저자: Yuzheng Zhuang, Zhanguang Zhang, Shiguang Wu, Dafeng Chi, Yuecheng Liu
핵심 연구 목표
본 논문은 기존 MLLM 기반 Embodied 시스템의 Geometric Adaptability Gap (다양한 공간 요구사항에 대한 3D 정보 부족)과 Embodiment Constraint Gap (실제 로봇의 물리적 제약 무시)이라는 두 가지 핵심 한계를 해결하고자 합니다. 궁극적으로 태스크에 적응하며 3D 정보를 활용하고 로봇의 물리적 제약을 인지하여 실행 가능한 다재다능한 Embodied Planner 를 개발하는 것이 목표입니다.
핵심 방법론
OmniEVA는 두 가지 혁신적인 메커니즘을 도입합니다. 첫째, Task-Adaptive 3D Grounding (TAGR) 은 컨텍스트 요구사항에 따라 3D 퓨전을 동적으로 조절하는 gated router 를 활용합니다. 이는 태스크 조건(자연어 명령어 임베딩 VT )과 장면 조건(시각적 입력 임베딩 VI 의 평균 풀링 V_avg )에 기반하여 3D positional embeddings VP 의 주입 여부를 결정합니다. 둘째, Embodiment-Aware Reasoning 프레임워크는 Task- and Embodiment-aware GRPO (TE-GRPO) 알고리즘을 통해 태스크 목표와 로봇의 물리적 제약 조건을 동시에 고려하여 계획을 생성하며, Progressive Embodiment Curriculum 전략으로 학습합니다.
주요 결과
OmniEVA는 2D 및 3D Embodied Reasoning 벤치마크 8개 중 7개 에서 최신 기술(SOTA) 성능을 달성했습니다. 특히, 2D 벤치마크에서 기존 Robobrain-32B 대비 평균 +10.45% 성능을 향상시켰습니다. 3D 벤치마크에서는 SQA3D, Scan2Cap, ScanRefer 에서 Video-3D-LLM 및 3DRS 대비 각각 +2.3%, +0.3%, +8.5% 의 성능 향상을 보였습니다. TE-GRPO 는 Where2Approach 에서 28.95% , Where2Fit 에서 34.28% 의 성능 향상을 가져왔으며, Mobile Placement (Easy) 에서 43% , Mobile Placement (Hard) 에서 50% 의 성공률을 높였습니다.
AI 실무자를 위한 시사점
TAGR 메커니즘은 태스크별 3D 정보의 필요성에 따라 동적으로 3D grounding을 조절하여 계산 효율성 을 높이고 다양한 환경에서 강력한 성능 을 제공함으로써 실제 로봇 환경에 매우 적합합니다. TE-GRPO 는 로봇의 물리적 제약을 학습 과정에 통합하여 이론적으로 타당할 뿐만 아니라 실제 로봇이 실행 가능한 계획 을 생성하는 데 핵심적인 역할을 합니다. 이는 시뮬레이션 환경의 평가 지표와 실제 로봇 배포 시의 성공률 간 격차를 줄이는 데 기여 하여 지능형 로봇 시스템의 실용적인 응용 가능성 을 크게 확장할 수 있습니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
Review 의 다른글
- 이전글 [논문리뷰] Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation
- 현재글 : [논문리뷰] OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning
- 다음글 [논문리뷰] Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated