[논문리뷰] M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark

2025년 11월 25일수정: 2025년 11월 25일

링크: 논문 PDF로 바로 열기

저자: Yang Zhou*, Mingyu Zhao*, Zhenting Wang, Difei Gu, Bangwei Guo, Ruosong Ye, Ligong Han, Can Jin, Dimitris N. Metaxas

핵심 연구 목표

본 연구는 기존 LLM 도구 사용 벤치마크 들이 주로 텍스트 기반이고 선형적인 API 계획 에 초점을 맞추는 한계를 넘어, 멀티모달 LLM(MLLM) 에이전트 의 실제와 같은 도구 사용 능력을 평가하기 위한 첫 번째 벤치마크인 M³-Bench 를 제안합니다. 특히, 시각적 접지(visual grounding) , 다중 홉(multi-hop) 추론, 다중 스레드(multi-threaded) 실행, 교차 도구 의존성 및 중간 리소스의 지속성을 요구하는 복합적인 워크플로우를 평가하는 것을 목표로 합니다.

핵심 방법론

M³-Bench 는 28개의 멀티모달 MCP 태스크 와 231개 이상의 도구 로 구성되며, Executor-Judge 파이프라인 을 통해 휴먼 검증된 최적의 궤적을 생성합니다. 평가를 위해 유사성 기반 헝가리안 정렬(Similarity-Bucketed Hungarian Alignment) 을 도입하여 도구 호출을 정준 텍스트로 직렬화하고, 문장 인코더 로 임베딩한 후 코사인 유사도를 측정하여 일대일 대응을 얻습니다. 이 정렬 기반 위에 Step Coherence , Merge Purity , Order Consistency 와 같은 구조 인식 지표와 LLM Judge 앙상블 을 통한 Task Completion 및 Information Grounding 점수를 결합하여 최종 성능을 측정합니다.

주요 결과

대표적인 MLLM 들을 M³-Bench 로 평가한 결과, GPT-5 가 0.482점 으로 가장 높은 평균 점수를 기록하며 강력한 성능을 보였습니다. 특히 GPT-5 는 높은 Recall (0.627) 과 Argument Similarity (0.583) 를 달성했으며, Step Coherence (0.502) , Order Consistency (0.290) , Merge Purity (0.453) 와 같은 구조 인식 지표에서도 선두를 차지했습니다. 반면, GLM 4.5v 및 Qwen2.5-VL-72B 와 같은 모델은 도구 사용 위생(tool-use hygiene)과 스키마 준수에서 약점을 보이며 전반적으로 성능 격차를 드러냈습니다.

AI 실무자를 위한 시사점

이 벤치마크는 MLLM 에이전트 의 멀티모달 도구 사용 능력 을 평가하는 데 필수적인 프레임워크를 제공합니다. 실무자들은 현재 MLLM 들이 인자 충실도 및 구조적 일관성에서 여전히 상당한 격차를 보인다는 점을 인지해야 합니다. 따라서, 모델 개발 시 이미지, 텍스트, 도구 그래프를 통합적으로 추론하는 방법을 중점적으로 개선해야 하며, 도구 호출 형식 및 인수 유효성 과 같은 도구 사용 위생 을 강화하는 것이 고수준 추론 능력 향상만큼 중요합니다. 또한, MLLM 의 성능이 태스크별로 크게 다를 수 있으므로, 특정 응용 분야에 맞는 모델 최적화 전략이 필요합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] In-Video Instructions: Visual Signals as Generative Control
현재글 : [논문리뷰] M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark
다음글 [논문리뷰] MASS: Motion-Aware Spatial-Temporal Grounding for Physics Reasoning and Comprehension in Vision-Language Models