[논문리뷰] Intelligence per Watt: Measuring Intelligence Efficiency of Local AI

2025년 11월 12일수정: 2025년 11월 12일

링크: 논문 PDF로 바로 열기

저자: Jonathan Safron, Lavanika Afanasiyeva, Medha Goel, Rebecca Joseph, Shlok Narayan, Heramb Kumar Ghazi, Adrian Gammaro, Laurente Jonathan Shun Zhu, Hennessy Azalia Mirhoseini, Christopher Ré

핵심 연구 목표

본 논문은 급증하는 LLM 추론 수요로 인해 중앙 집중식 클라우드 인프라가 겪는 부담을 완화하기 위해 로컬 AI의 실행 가능성을 정량화하는 것을 목표로 합니다. 특히, "Intelligence per Watt"라는 새로운 통합 지표를 제안하여 모델 성능과 하드웨어 효율성을 동시에 측정하고, 로컬 LLM이 다양한 실제 워크로드에서 클라우드 기반 LLM을 얼마나 효과적으로 보완할 수 있는지 평가합니다.

핵심 방법론

연구팀은 2023년부터 2025년까지의 20개 이상의 로컬 LLM(20B 이하 파라미터) 과 8개 하드웨어 가속기(예: Apple M4 Max, NVIDIA RTX 시리즈, SambaNova SN40L) 를 대상으로 광범위한 실험을 수행했습니다. 100만 개 이상의 실제 쿼리 (채팅 및 추론 태스크)를 사용하여 Accuracy per Watt (APW) 및 Accuracy per Joule (APJ) 을 포함한 인텔리전스 효율성 메트릭을 측정하고, 하이브리드 로컬-클라우드 시스템에서 지능형 쿼리 라우팅 의 효과를 시뮬레이션했습니다.

주요 결과

로컬 LLM은 단일 턴 채팅 및 추론 쿼리의 88.7% 를 성공적으로 처리할 수 있음을 입증했습니다. "Intelligence per Watt"는 2023년부터 2025년까지 5.3배 향상 되었으며, 이는 모델 아키텍처 개선(3.1배) 과 하드웨어 가속기 발전(1.7배) 에 기인합니다. 80%의 라우팅 정확도 를 가진 지능형 쿼리 라우팅 시스템은 에너지, 컴퓨팅, 비용을 60-80% 절감 할 수 있는 것으로 나타났습니다.

AI 실무자를 위한 시사점

본 연구는 로컬 AI가 LLM 워크로드의 상당 부분을 효율적으로 처리할 수 있음을 보여주며, AI 실무자들에게 하이브리드 로컬-클라우드 배포 전략 의 중요성을 강조합니다. 지능형 쿼리 라우팅을 통해 단순한 태스크는 로컬 장치에서 처리하고 복잡한 태스크만 클라우드로 전송함으로써 상당한 비용 및 에너지 절감 이 가능합니다. 이는 미래 AI 인프라 설계에 있어 분산 컴퓨팅 모델 의 필수적인 역할을 시사합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Grounding Computer Use Agents on Human Demonstrations
현재글 : [논문리뷰] Intelligence per Watt: Measuring Intelligence Efficiency of Local AI
다음글 [논문리뷰] KLASS: KL-Guided Fast Inference in Masked Diffusion Models