[논문리뷰] CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward

2025년 8월 6일수정: 2025년 8월 6일

링크: 논문 PDF로 바로 열기

저자: Shudong Liu, Hongwei Liu, Junnan Liu, Linchen Xiao, Songyang Gao, Chengqi Lyu, Yuzhe Gu, Wenwei Zhang, Derek F. Wong, Songyang Zhang, Kai Chen

핵심 연구 목표

현재 대규모 언어 모델(LLM)의 답변 검증 방식은 규칙 기반 매칭이나 일반 LLM 사용 시 반복적인 사용자 정의, 복잡한 엣지 케이스 처리의 어려움, 도메인 일반화 능력 부족 등의 한계를 가집니다. 본 연구는 이러한 문제를 해결하기 위해 정확하고 견고하며 경량화된 LLM 검증 모델인 CompassVerifier 를 개발하고, 체계적인 검증 능력 평가를 위한 도전적인 벤치마크인 VerifierBench 를 구축하는 것을 목표로 합니다.

핵심 방법론

VerifierBench 는 OpenCompass 프레임워크를 통해 1백만 개 이상의 LLM 응답 을 수집하고, 멀티-전문가 투표 및 멀티-프롬프트 투표 , 인간 주석 을 포함하는 다단계 검증 파이프라인을 거쳐 데이터셋을 구축했습니다. CompassVerifier 는 이 데이터를 기반으로 훈련되었으며, Complex Formula Augmentation 으로 복잡한 수식 변형을 처리하고, Error-Driven Adversarial Augmentation 을 통해 30개 이상의 메타 오류 패턴 을 분석 및 합성하여 실패 사례에 대한 견고성을 강화했습니다. 또한, Generalizability Augmentation 을 통해 프롬프트 및 응답 다양성을 확장하여 광범위한 도메인 및 작업에 대한 적용 가능성을 높였습니다.

주요 결과

CompassVerifier 는 VerifierBench 에서 모든 도메인에 걸쳐 새로운 최고 성능을 달성했으며, 32B 모델 은 평균 90.8%의 F1 점수 와 87.7%의 정확도 를 기록했습니다. 특히 가장 작은 3B 모델 조차 GPT-4.1 보다 절대 F1 점수에서 10.6%p 높은 성능 을 보이며 매개변수 효율성을 입증했습니다. 데이터 증강 기법의 효과를 분석한 결과, Complex Formula Augmentation 과 Error-Driven Adversarial Augmentation 을 모두 적용했을 때 F1 점수가 3.6%p 향상 되었습니다. 또한, 강화 학습(RL) 보상 모델로서 CompassVerifier-32B 는 MATH500 에서 83.3%의 avg@32 를 달성하며 기존 규칙 기반 및 모델 기반 검증자들을 능가했습니다.

AI 실무자를 위한 시사점

CompassVerifier 는 LLM 평가 및 강화 학습의 보상 모델로서, 특히 수학, 지식, 추론 등 다양한 도메인과 수식, 다중 하위 문제, 시퀀스 등 여러 유형의 답변을 높은 정확도로 검증할 수 있습니다. 이는 LLM의 성능 측정 정밀도를 높이고, 정책 최적화를 위한 피드백 신뢰성을 개선하여 LLM 개발 주기를 단축할 수 있습니다. 또한, 경량 모델의 강력한 검증 능력 은 제한된 컴퓨팅 환경에서도 고성능 검증 시스템 구축을 가능하게 하며, 데이터 증강을 통한 LLM의 실패 모드 개선 전략 은 실무에서 모델의 견고성을 향상시키는 데 기여할 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] ChartCap: Mitigating Hallucination of Dense Chart Captioning
현재글 : [논문리뷰] CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward
다음글 [논문리뷰] Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction