[논문리뷰] Trace Anything: Representing Any Video in 4D via Trajectory Fields

2025년 10월 16일수정: 2025년 10월 16일

링크: 논문 PDF로 바로 열기

저자: Xinhang Liu, Yuxi Xiao, Donny Y. Chen, Jiashi Feng, Yu-Wing Tai, Chi-Keung Tang, Bingyi Kang

핵심 연구 목표

본 논문은 비디오의 동적 장면을 모델링하고 이해하는 데 필수적인 효과적인 시공간 표현 문제를 해결하고자 합니다. 기존의 4D 재구성 방식이 프레임별 분리된 포인트 클라우드나 추정된 광학 흐름에 의존하는 한계를 극복하고, 픽셀의 3D 궤적을 추적하는 Trajectory Fields 라는 새로운 4D 비디오 표현을 제안합니다.

핵심 방법론

제안하는 Trace Anything 은 각 프레임의 모든 픽셀에 대해 시간의 연속적인 3D 궤적 함수를 할당하는 Trajectory Fields 를 예측하는 feed-forward 신경망 입니다. 각 궤적은 D개의 제어점 으로 매개변수화된 B-spline 으로 정의되며, 모델은 image encoder 와 fusion transformer 기반의 백본을 통해 이 제어점 맵을 예측합니다. 훈련은 새로 구축된 Trace Anything 데이터셋 과 블렌더 기반 플랫폼 을 활용하며, trajectory loss 와 정적/강체/대응점 영역에 대한 다양한 정규화 항 을 포함합니다.

주요 결과

Trace Anything 은 새로운 궤적 필드 벤치마크에서 0.234 EPEmix , 1.06 SDD , 5.09 CA 를 달성하여 최신 기술 대비 뛰어난 성능을 보였습니다. 특히, 단일 feed-forward 패스 방식을 통해 2.3초 의 빠른 추론 시간을 기록하며 효율성에서 큰 이점을 보여주었습니다. 또한, 속도 기반 예측(velocity-based forecasting) , 지시 기반 예측(instruction-based forecasting) , 시공간 융합(spatio-temporal fusion) 과 같은 새로운 능력을 선보였습니다.

AI 실무자를 위한 시사점

Trace Anything 은 비디오에서 동적 장면을 밀도 높은 3D 궤적으로 표현하는 강력하고 효율적인 방법을 제시합니다. 단일 패스 추론 은 실시간 애플리케이션에 매우 유리하며, 예측된 궤적 필드는 로봇 조작(goal-conditioned manipulation) , 장면 이해 , 미래 움직임 예측 등 다양한 AI 비전 태스크의 기본 요소로 활용될 수 있습니다. 다만, 합성 데이터에 대한 의존성 은 실제 환경 적용 시 도메인 간극을 줄이는 추가 연구의 필요성을 시사합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] The Role of Computing Resources in Publishing Foundation Model Research
현재글 : [논문리뷰] Trace Anything: Representing Any Video in 4D via Trajectory Fields
다음글 [논문리뷰] Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark