[논문리뷰] The Art of Scaling Test-Time Compute for Large Language Models

2025년 12월 2일수정: 2025년 12월 2일

링크: 논문 PDF로 바로 열기

저자: Aradhye Agarwal, Ayan Sengupta, Tanmoy Chakraborty

핵심 연구 목표

이 논문은 대규모 언어 모델(LLMs)의 추론 능력 향상을 위한 테스트-타임 스케일링(TTS) 전략의 최적 선택 문제를 해결하는 것을 목표로 합니다. 특히, 모델의 훈련 방식, 문제 난이도, 사용 가능한 컴퓨팅 예산 간의 복합적인 상호작용을 고려하여, 보편적인 전략 대신 상황에 따른 최적의 TTS 전략 을 제시하고자 합니다.

핵심 방법론

연구는 DeepSeek R1 , Qwen3-32B , GPT-OSS-120B 등 다양한 LLM 모델군과 AIME 및 GPQA Diamond 데이터셋을 활용했습니다. 주요 TTS 전략으로 빔 서치(Beam Search, BS) , 다수결 투표(Majority Voting, MV) , First Finish Search (FFS) , Last Finish Search (LFS) 네 가지를 평가했습니다. 각 전략에 대해 토큰 소비량 대비 정확도를 측정하고, 모델 유형( short-horizon vs. long-horizon ), 문제 난이도( easy vs. hard ), 컴퓨팅 예산( low vs. high )을 변수로 삼아 심층 분석을 수행했습니다.

주요 결과

분석 결과, 빔 서치 는 대부분의 모델에서 성능 저하 또는 정체( Inverse Compute Scaling )를 보이며 비효율적이었습니다. LFS 는 MV 에 비해 항상 비최적(suboptimal) 이며, 동일한 컴퓨팅 예산에서 정확도를 낮추는 경향이 나타났습니다. FFS 는 MV 대비 최대 ~90%의 토큰 절감 효과 를 보였으나, 정확도 측면에서는 모델과 태스크에 따라 결과가 크게 달라졌습니다. 특히, Short-horizon 모델 은 짧은 추론이 유리했고, Long-horizon 모델 은 쉬운 문제에서는 짧은 추론, 어려운 문제에서는 긴 추론이 더 효과적이었습니다.

AI 실무자를 위한 시사점

LLM 추론 성능 최적화를 위한 단일 최적 TTS 전략은 존재하지 않으므로, AI 실무자는 모델의 훈련 방식(예: GRPO/GSPO), 문제 난이도, 가용 컴퓨팅 예산 을 종합적으로 고려해야 합니다. MV 는 높은 정확도를 위한 가장 안전한 선택이지만 높은 컴퓨팅 비용을 수반하며, FFS 는 컴퓨팅 제약이 있을 때 효율적이나 모델 및 태스크별 신중한 평가가 필수입니다. 이는 LLM 배포 및 활용 시 "model-aware" 추론 전략이 필수적임을 강조합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models
현재글 : [논문리뷰] The Art of Scaling Test-Time Compute for Large Language Models
다음글 [논문리뷰] The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment