[논문리뷰] VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference

2025년 12월 2일수정: 2025년 12월 2일

링크: 논문 PDF로 바로 열기

저자: Jiaming Tang, Yufei Sun, Yilong Zhao, Shang Yang, Yujun Lin, Zhuoyang Zhang, James Hou, Yao Lu, Zhijian Liu, Song Han

핵심 연구 목표

본 논문은 Vision-Language-Action (VLA) 모델의 실제 로봇 배포 시 발생하는 동기식 추론의 비효율성 (액션 지연 및 느린 반응) 문제를 해결하고자 합니다. 특히, 비동기식 추론이 유발하는 예측-실행 간 시간적 불일치 를 극복하여, VLA 모델이 추가적인 오버헤드나 아키텍처 변경 없이도 부드럽고, 정확하며, 빠르게 반응하는 제어 를 달성할 수 있도록 하는 것이 목표입니다.

핵심 방법론

제안하는 VLASH 프레임워크는 로봇의 미래 실행 시간 상태 를 예측하여 예측과 실행 간의 간극을 연결합니다. 이는 이전에 생성된 액션 청크를 기반으로 로봇 상태를 미리 롤포워드(roll-forward) 하여 미래 시점의 로봇 상태에 조건부로 제어를 수행함으로써 달성됩니다. 또한, VLASH는 시간 오프셋 증강 을 통해 상태 입력 활용도를 높이고, 공유 관찰 어텐션 패턴 으로 미세 조정 효율성을 향상시키며, 액션 양자화 를 통해 로봇 움직임 속도를 추가로 가속화합니다.

주요 결과

VLASH는 동기식 추론 대비 최대 2.03배의 속도 향상 과 17.4배의 반응 지연 시간 감소 를 달성하면서 원래의 정확도를 유지했습니다. Kinetix 벤치마크 에서는 4단계 추론 지연 시 81.7%의 성공률 을 기록하며 Naive Async보다 30.5% 향상 된 성능을 보였습니다. 또한, 로봇이 인간과 탁구를 치거나 두더지 잡기 같은 빠른 반응 및 고정밀 작업 을 수행할 수 있도록 지원하며, 이는 전통적인 동기식 추론 방식으로는 불가능했던 기능입니다.

AI 실무자를 위한 시사점

VLASH는 기존 VLA 모델 ( π0.5, SmolVLA )에 아키텍처 변경 없이 적용 가능하여 실제 로봇 시스템에 실시간 및 동적 제어 능력 을 부여할 수 있습니다. 이는 저지연, 연속적인 로봇 제어 가 필요한 산업 및 연구 분야에서 VLA의 활용성을 크게 확장시킬 것입니다. 데이터 증강 및 효율적인 미세 조정 기법 은 제한된 자원으로도 고성능 VLA 모델을 훈련하고 배포하는 데 중요한 통찰력을 제공합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment
현재글 : [논문리뷰] VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference
다음글 [논문리뷰] What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards