[논문리뷰] Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models

2025년 12월 1일수정: 2025년 12월 1일

링크: 논문 PDF로 바로 열기

저자: Yonggan Fu*, Xin Dong*, Shizhe Diao, Matthijs Van keirsbilck, Hanrong Ye, Wonmin Byeon, Yashaswi Karnati, Lucas Liebenwein, Hannah Zhang, Nikolaus Binder, Maksim Khadkevich, Alexander Keller, Jan Kautz, Yingyan (Celine) Lint, Pavlo Molchanov

핵심 연구 목표

본 논문은 소형 언어 모델(SLM) 의 효율적인 배포를 저해하는 실기기 지연 시간 문제를 해결하고, 지연 시간 최적화된 SLM 설계 및 훈련을 위한 일반화 가능한 원칙과 방법론을 제시하는 것을 목표로 합니다. 파라미터 수 감소가 실기기 성능 향상으로 직결되지 않는 기존 SLM 설계의 한계를 극복하고, 새로운 Nemotron-Flash 모델 패밀리를 통해 정확도-지연 시간 효율성 곡선을 발전시키고자 합니다.

핵심 방법론

연구는 SLM의 깊이-너비 비율 과 연산자 선택 이라는 두 가지 핵심 아키텍처 요소를 탐색했습니다. 특히, Llama 모델 을 사용하여 깊이-너비 비율 이 정확도-지연 시간 트레이드오프에 미치는 영향을 분석하고, 확장 법칙 을 확장하여 최적의 비율을 식별했습니다. 또한, Mamba2, DeltaNet, Attention 등의 다양한 효율적인 어텐션 연산자를 평가하고, 짧은 훈련 PPL 을 프록시로 사용하는 진화 검색 프레임워크 를 구축하여 하이브리드 연산자 조합 을 자동으로 발견했습니다. 훈련 단계에서는 가중치 정규화 를 통해 가중치 업데이트를 개선하고 최종 수렴을 향상시켰으며, 학습 가능한 메타 토큰 을 캐시 초기화에 활용했습니다.

주요 결과

새로운 Nemotron-Flash 모델 패밀리(1B, 3B)를 통해 최신 SLM의 정확도-효율성 한계를 크게 확장했습니다. 예를 들어, Nemotron-Flash-3B 는 Qwen2.5-3B/Qwen3-1.7B 대비 평균 정확도 +2.0%/+5.5% 향상 , 지연 시간 1.7배/1.3배 감소 , 처리량 6.4배/18.7배 증가 를 달성했습니다. 특히, 가중치 정규화 는 CR 정확도를 평균 +1.20% 개선하고 PPL을 평균 0.66 감소시키는 효과를 보였습니다. 또한, 깊고 얇은 모델이 항상 지연 시간-정확도 최적의 트레이드오프를 제공하지 않으며, 특정 지연 시간 예산에 대한 최적의 깊이-너비 비율 이 존재함을 입증했습니다.

AI 실무자를 위한 시사점

본 연구는 AI/ML 엔지니어에게 SLM 설계 시 파라미터 효율성 뿐만 아니라 실제 장치 지연 시간 을 최우선으로 고려해야 한다는 중요한 통찰을 제공합니다. 특히, 깊이-너비 비율 최적화 와 하이브리드 연산자 조합 을 위한 진화 검색 프레임워크 는 복잡한 아키텍처 설계를 자동화하고 가속화하는 실용적인 방법론을 제시합니다. 또한, 가중치 정규화 와 메타 토큰 과 같은 훈련 기법이 모델의 수렴 속도와 최종 성능에 미치는 긍정적인 영향을 강조하며, 이러한 기법들을 통해 Nemotron-Flash 와 같은 고성능 SLM을 개발할 수 있음을 보여주었습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] MRI Super-Resolution with Deep Learning: A Comprehensive Survey
현재글 : [논문리뷰] Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models
다음글 [논문리뷰] OmniRefiner: Reinforcement-Guided Local Diffusion Refinement