[논문리뷰] Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer

2025년 10월 9일수정: 2025년 10월 9일

링크: 논문 PDF로 바로 열기

저자: Ziyuan Huang, DanDan Zheng, Cheng Zou, Rui Liu, Xiaolong Wang, Kaixiang Ji, Weilong Chai, Jianxin Sun, Libin Wang, Yongjie Lv, Taozhi Huang, Jiajia Liu, Qingpei Guo, Ming Yang, Jingdong Chen, Jun Zhou (Inclusion AI, Ant Group)

핵심 연구 목표

기존 autoregressive 시각 모델에서 이산 잠재 공간 토크나이저 의 양자화 오류가 의미 표현력과 시각-언어 이해 능력을 저해하는 문제를 해결하고자 합니다. 궁극적으로 시각 이해 및 생성 태스크를 단일 autoregressive 프레임워크 로 통합하고, 이를 위해 연속 잠재 공간 을 활용하는 새로운 시각 토크나이저를 개발하는 것이 목표입니다.

핵심 방법론

본 논문은 MingTok 이라는 새로운 연속 잠재 공간 시각 토크나이저를 제안하며, 이는 저수준 인코딩 , 의미 확장 , 시각 재구성 의 3단계 순차 아키텍처를 가집니다. 이를 기반으로 Ming-UniVision 은 이해 및 생성 태스크를 단일 autoregressive 예측 패러다임 으로 통합하여, 공유된 연속 공간 에서 다중 라운드, 인컨텍스트 태스크를 지원합니다. 모델은 마스크된 이미지 모델링 목적 함수 를 통해 end-to-end 최적화되며, 사전 훈련(pre-training) 및 지도 미세 조정(SFT)을 포함하는 다단계 훈련 전략을 사용합니다.

주요 결과

MingTok 은 SD-VAE 대비 텍스트-이미지 생성에서 3.5배 이상의 가속 을 달성했으며, 기존 하이브리드 AR-Diffusion 모델 대비 시각 토큰 수를 66% 감소 시켰습니다. GenEval 벤치마크 에서 0.85의 전체 성능 으로 SOTA 수준을 달성하며, 특히 Position (0.92) , Colors (0.93) , Color Attribute (0.70) 서브 태스크에서 뛰어난 성능을 보였습니다. 또한, 이미지 재구성에서 32배 압축률 에도 불구하고 rFID 0.54 , PSNR 30.77 db 의 높은 품질을 기록했고, 통합 모델 훈련 후 rFID 0.38 , LPIPS 0.12 로 개선되었습니다.

AI 실무자를 위한 시사점

Ming-UniVision 은 시각 이해 및 생성 태스크를 통합하는 단일 연속 시각 표현 의 가능성을 보여주며, AI 모델이 더 적은 토큰으로 더 많은 정보를 처리 하여 추론 효율성 을 높일 수 있음을 시사합니다. 이 접근 방식은 다중 라운드 인컨텍스트 편집 과 같은 복잡한 상호작용 시나리오에서 메모리 및 연산 오버헤드를 크게 줄여 , AI 개발 및 배포의 효율성 을 향상시킬 수 있습니다. 하지만 미세한 디테일 편집 및 OCR/MMMU 와 같은 특정 태스크에서는 추가 개선이 필요하며, 고해상도 토큰화 연구가 향후 중요한 방향이 될 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] MLE-Smith: Scaling MLE Tasks with Automated Multi-Agent Pipeline
현재글 : [논문리뷰] Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer
다음글 [논문리뷰] Multi-Agent Tool-Integrated Policy Optimization