[논문리뷰] Universal Reasoning Model

2025년 12월 18일수정: 2025년 12월 18일

링크: 논문 PDF로 바로 열기

저자: Zitian Gao, Lynx Chen, Yihao Xiao, He Xing, Ran Tao, Haoming Luo, Joey Zhou, Bryan Dai *

핵심 연구 목표

본 연구는 Universal Transformer (UT) 모델이 ARC-AGI 와 같은 복잡한 추론 태스크에서 성능 향상을 보이는 근본적인 원인을 체계적으로 분석하는 것을 목표로 합니다. 특히, 성능 향상이 재귀적 귀납 편향과 강력한 비선형 구성 요소에서 비롯됨을 밝히고, 이를 바탕으로 개선된 추론 성능을 제공하는 새로운 모델을 제안합니다.

핵심 방법론

제안하는 Universal Reasoning Model (URM) 은 기존 UT 아키텍처를 기반으로 하며, 비선형성을 강화하기 위해 ConvSwiGLU 모듈을 도입합니다. 이 모듈은 표준 SwiGLU 블록에 깊이별 짧은 컨볼루션을 추가하여 지역적 맥락 상호작용을 주입합니다. 또한, 대규모 반복 루프에서 발생하는 최적화 불안정성을 완화하기 위해 그래디언트를 후반 루프에만 계산하는 Truncated Backpropagation Through Loops (TBPTL) 기법을 활용합니다.

주요 결과

URM 은 ARC-AGI 1 에서 53.8% pass@1 정확도 , ARC-AGI 2 에서 16.0% pass@1 정확도 를 달성하며 기존 TRM 및 HRM 모델을 크게 능가하는 최첨단 성능을 기록했습니다. 비선형성 구성 요소에 대한 광범위한 어블레이션 연구는 MLP 의 활성화 함수와 어텐션 소프트맥스가 추론 성능에 결정적인 역할을 함을 보여주었습니다. 특히, ConvSwiGLU 는 MLP 확장 후 적용될 때 가장 효과적이었으며, TBPTL 은 8개의 내부 루프 중 처음 2개의 루프에 대한 그래디언트를 자를 때 최적의 성능을 보였습니다.

AI 실무자를 위한 시사점

이 연구는 복잡한 추론 태스크에서 Universal Transformer 의 성능 향상이 아키텍처의 복잡성보다는 재귀적 귀납 편향 과 강력한 비선형성 에서 기인한다는 중요한 통찰을 제공합니다. AI 실무자들은 ConvSwiGLU 와 같은 비선형성 강화 모듈과 TBPTL 과 같은 최적화 안정화 기법을 적용하여 URM 과 같은 효율적인 추론 모델을 구축할 수 있습니다. 이는 복잡한 문제 해결을 위한 모델 설계 시 자원 효율성과 성능을 동시에 고려하는 새로운 방향을 제시합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Step-GUI Technical Report
현재글 : [논문리뷰] Universal Reasoning Model
다음글 [논문리뷰] VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?