[논문리뷰] YOLO Meets Mixture-of-Experts: Adaptive Expert Routing for Robust Object Detection

2025년 12월 1일수정: 2025년 12월 1일

링크: 논문 PDF로 바로 열기

저자: Ori Meiraz, Sharon Shalev, Avishai Weizman

핵심 연구 목표

본 연구는 객체 탐지 분야에서 YOLOv9-T 모델의 성능과 견고성을 향상시키기 위해 새로운 Mixture-of-Experts (MoE) 프레임워크를 제안합니다. 특히, 여러 YOLOv9-T 전문가 들 간의 적응형 라우팅 을 도입하여 동적인 특징 전문화를 가능하게 하고, 단일 YOLOv9-T 모델 대비 더 높은 mean Average Precision (mAP) 및 Average Recall (AR) 을 달성하는 것을 목표로 합니다.

핵심 방법론

제안된 방법론은 YOLOv9 의 다중 스케일 구조를 기반으로, 각 피처 맵 레벨의 특징 표현을 MoE 라우팅 메커니즘 의 입력으로 활용합니다. 라우터는 각 레벨의 모든 전문가 출력과 그들의 연결된 표현을 재가중된 Hadamard 융합 을 통해 결합하여 입력으로 받으며, 경량 CNN 과 완전 연결 레이어 로 구현되어 각 전문가에게 할당될 라우팅 가중치(αi)를 생성합니다. 이 가중치는 소프트맥스 함수를 거쳐 정규화되며, 분류 및 바운딩 박스 예측을 위해 전문가 출력을 동적으로 조절하고, 라우터가 단일 전문가에만 집중하는 것을 방지하기 위해 로드 밸런싱 손실(load balancing loss) 이 추가됩니다.

주요 결과

제안된 MoE 모델은 COCO 및 VisDrone 데이터셋 모두에서 단일 YOLOv9-T 모델 대비 우수한 성능을 달성했습니다. 특히, COCO + VisDrone 데이터셋으로 훈련했을 때, COCO 테스트셋에서 37.5 mAP@0.5:0.95 와 50.0 AR 을 기록하여 기존 YOLOv9-T의 34.1 mAP 와 49.2 AR 을 크게 상회했습니다. VisDrone 테스트셋에서는 20.0 mAP 와 36.6 AR 을 달성하며 YOLOv9-T의 15.5 mAP 와 30.3 AR 보다 높은 성능을 보였습니다. 이러한 결과는 MoE 메커니즘이 특징 맵 공간에서 전문가들이 시각적 특징을 전문화하도록 하여 각 이미지 영역에 가장 적합한 전문가를 동적으로 선택함으로써 효과를 발휘함을 입증합니다.

AI 실무자를 위한 시사점

본 연구는 Mixture-of-Experts 패러다임을 기존 YOLOv9 객체 탐지 모델에 성공적으로 통합하여 성능 향상과 견고성을 입증했습니다. 이는 AI/ML 엔지니어들이 다양한 시나리오에 걸쳐 보다 신뢰성 있는 객체 탐지 시스템을 구축하는 데 적응형 라우팅 과 특징 전문화 의 잠재력을 활용할 수 있음을 시사합니다. 특히, 사전 훈련된 전문가 가중치를 활용하고 라우팅 모듈을 새로 훈련하는 전략은 실제 배포 환경에서 효율적인 접근 방식이 될 수 있으며, 향후 YOLOv9-L 과 같은 다른 YOLO 변형 및 멀티모달 입력으로의 확장 가능성을 제시하여 미래 연구 및 응용에 대한 방향성을 제공합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Xmodel-2.5: 1.3B Data-Efficient Reasoning SLM
현재글 : [논문리뷰] YOLO Meets Mixture-of-Experts: Adaptive Expert Routing for Robust Object Detection
다음글 [논문리뷰] Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer