[논문리뷰] MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency

2025년 10월 31일수정: 2025년 10월 31일

링크: 논문 PDF로 바로 열기

저자: Nicolas Dufour, Lucas Degeorge, Arijit Ghosh, Vicky Kalogeiton, David Picard

핵심 연구 목표

기존 텍스트-투-이미지(T2I) 모델이 대규모 비정제 데이터셋에서 학습되어 사용자 선호도와 잘 맞지 않고, 후처리 방식의 보상 모델(reward model)이 정보 손실과 비효율성을 야기하는 문제를 해결하고자 합니다. 대신 학습 과정에서 다중 보상 모델 을 직접 조건으로 사용하여 모델이 사용자 선호도를 사전에 학습하고 T2I 생성 품질과 효율성을 동시에 향상시키는 것을 목표로 합니다.

핵심 방법론

MIRO는 세 가지 핵심 구성 요소로 이루어집니다: (1) 데이터셋 증강 을 통해 각 이미지-텍스트 쌍에 대해 일곱 가지 보상 모델 (AestheticScore, HPSv2, ImageReward, PickScore, VQAScore, JINA CLIP Score, SciScore)의 점수를 계산하고 이를 정규화 및 바이닝 하여 다차원 품질 벡터를 생성합니다. (2) 다중 보상 조건부 학습 에서는 플로우 매칭(Flow Matching) 목적 함수 를 수정하여 이 보상 벡터를 모델에 직접 조건으로 주입, 보상 수준과 시각적 특성 간의 명시적인 매핑을 학습합니다. (3) 보상 유도 추론(Reward-Guided Inference) 시에는 다중 보상 Classifier-Free Guidance 를 활용하여 지정된 보상 목표에 따라 생성 품질을 정밀하게 제어할 수 있도록 합니다.

주요 결과

MIRO는 기존 모델 대비 최대 19.1배 빠른 수렴 속도 를 보였으며 (AestheticScore 기준), GenEval 벤치마크에서 68점 을 달성하여 FLUX-dev(67점) 를 능가했습니다. 특히 합성 추론 능력에서 Color Attribution 31% , Two Objects 24% , Counting 12% 향상을 기록했습니다. 또한, 추론 시 370배 적은 연산량 (MIRO 4.16 TFLOPs vs FLUX-dev 1540 TFLOPs)으로 SOTA 성능을 달성했으며, PickScore에서는 1개 샘플 만으로 기존 모델의 128개 샘플 과 동등한 성능을 달성하며 32배의 효율성 을 입증했습니다.

AI 실무자를 위한 시사점

MIRO는 T2I 모델 개발에서 단일 학습 단계 로 품질과 효율성을 동시에 극대화할 수 있는 강력한 패러다임을 제시합니다. 빠른 학습 수렴 과 낮은 추론 비용 은 자원 제약이 있는 환경이나 신속한 프로토타이핑이 필요한 AI 엔지니어에게 특히 유용합니다. 또한, 추론 시 다중 보상 가중치를 조절 하여 생성물을 특정 요구사항에 맞게 미세 조정할 수 있는 유연성을 제공하며, 이는 보상 해킹(reward hacking) 을 완화하고 사용자 경험을 개선하는 데 기여할 수 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] L^2M^3OF: A Large Language Multimodal Model for Metal-Organic Frameworks
현재글 : [논문리뷰] MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency
다음글 [논문리뷰] Magentic Marketplace: An Open-Source Environment for Studying Agentic Markets