[논문리뷰] Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation

2025년 10월 30일수정: 2025년 10월 30일

링크: 논문 PDF로 바로 열기

저자: Inclusion AI, Ant Group et al.

핵심 연구 목표

본 연구는 Ming-Omni 의 업그레이드 버전인 Ming-Flash-Omni 를 제안하여, 희소한 Mixture-of-Experts (MoE) 아키텍처를 기반으로 시각, 음성, 언어 전반에 걸쳐 더욱 강력하고 통합된 멀티모달 지능을 구현하는 것을 목표로 합니다. 이는 효율적인 모델 확장 과 계산 효율성 개선 을 통해 인공 일반 지능(AGI) 을 향한 중요한 발걸음을 내딛는 데 중점을 둡니다.

핵심 방법론

Ling-Flash-2.0 (1,000억 개 총 파라미터 중 토큰당 61억 개 활성 파라미터 )의 희소한 MoE 변형을 기반으로 구축되었습니다. VideoROPE 를 통한 시간적 모델링 개선, 문맥 인지 ASR 학습 패러다임 도입, 그리고 음성 합성에 연속적인 음향 잠재 표현 을 사용하는 것이 핵심입니다. 또한, 이미지 분할을 생성적 편집 작업으로 재구성하는 시너지 훈련 패러다임 을 제안하여 이미지 생성 및 편집에서 정밀한 공간적/의미적 제어 를 가능하게 합니다.

주요 결과

Ming-Flash-Omni 는 텍스트-이미지 생성 및 생성적 분할 에서 최첨단(SOTA) 성능 을 달성했습니다. 특히, 12개 문맥 인지 ASR 벤치마크 모두에서 새로운 기록을 세웠으며 (예: ContextASR-Bench Speech-English WER NE-FNR 2.36 , Speech-Mandarin 1.59 ), GenEval 벤치마크 에서 0.90점 을 기록하며 비-강화 학습(non-RL) 방법론을 능가했습니다. 이미지 편집에서는 Qwen-Image-Edit 와 유사한 성능을 10분의 1의 파라미터( 2B DiT head )로 달성했습니다.

AI 실무자를 위한 시사점

희소 MoE 아키텍처 를 활용하여 멀티모달 모델의 효율적인 확장 가능성 을 보여주므로, 리소스 제약이 있는 환경에서 대규모 모델을 운용하는 데 중요한 통찰을 제공합니다. 문맥 인지 ASR 및 방언 인지 ASR 기능 향상은 실제 환경에서의 음성 인식 시스템 적용 가능성을 크게 확장합니다. 또한, 생성적 분할 및 정밀한 이미지 편집 제어 는 사용자 경험을 개선하고 창의적인 AI 애플리케이션 개발에 기여할 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] MASPRM: Multi-Agent System Process Reward Model
현재글 : [논문리뷰] Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation
다음글 [논문리뷰] Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks