[논문리뷰] Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks

2025년 12월 2일수정: 2025년 12월 2일

링크: 논문 PDF로 바로 열기

저자: Krithik Vishwanath, Mrigayu Ghosh, Anton Alyakin, Daniel Alexander Alber, Yindalon Aphinyanaphongs, Eric Karl Oermann

핵심 연구 목표

의료 분야에서 전문 임상 AI 도구들이 일반 목적의 대규모 언어 모델(LLM)보다 안전하고 신뢰할 수 있다는 주장에도 불구하고, 독립적이고 정량적인 평가가 부족하다는 문제를 해결하고자 합니다. 본 연구는 널리 사용되는 두 가지 임상 AI 시스템과 세 가지 최신 범용 LLM의 성능을 객관적으로 비교 평가하여, 임상 AI 도구들의 실제 역량을 파악하고 그 한계를 밝히는 것을 목표로 합니다.

핵심 방법론

연구팀은 MedQA 에서 500개의 USMLE(미국 의사 면허 시험) 스타일 질문, HealthBench 에서 500개의 임상 정렬 프롬프트를 무작위로 샘플링하여 총 1,000개의 문항 으로 구성된 미니 벤치마크를 구축했습니다. 평가 대상 모델은 전문 임상 AI 도구인 OpenEvidence 와 UpToDate Expert AI , 그리고 범용 LLM인 GPT-5 (gpt-5-2025-08-07), Gemini 3 Pro Preview , Claude Sonnet 4.5 였습니다. HealthBench 응답은 정확성, 완전성, 커뮤니케이션 품질, 맥락 인식, 지시 준수 등 다섯 가지 축에 따라 전문가 합의 기반으로 채점되었습니다.

주요 결과

MedQA 벤치마크에서 GPT-5 가 96.2% 의 정확도로 가장 높은 점수를 기록했으며, 모든 범용 LLM들이 전문 임상 AI 도구들을 전반적으로 앞질렀습니다. 특히 HealthBench 벤치마크에서는 범용 LLM들의 평균 점수( 91.7% )가 임상 AI 도구들( 74.8% )보다 1.23배 높게 나타났고( P=0.023 ), GPT-5 는 97.0% 의 압도적인 성능을 보였습니다. 임상 AI 도구들은 완전성, 커뮤니케이션 품질, 맥락 인식, 시스템 기반 안전성 추론 등 여러 임상적 중요성 측면에서 유의미하게 낮은 점수를 기록했습니다.

AI 실무자를 위한 시사점

이번 연구는 의료 분야에서 특정 도메인에 특화된 AI 모델이 반드시 범용 LLM보다 우수하지 않으며, 오히려 최신 범용 LLM이 복잡한 임상 시나리오에서 더 뛰어난 성능을 보일 수 있음을 시사합니다. AI/ML 엔지니어는 의료 AI 시스템 개발 시 RAG(Retrieval Augmented Generation) 통합 방식 과 기반 모델의 성능 에 대한 신중한 고려가 필요하며, 모델의 규모와 광범위한 사전 학습 이 특정 도메인 튜닝보다 중요할 수 있음을 인지해야 합니다. 또한, 의료 AI 시스템 배포 전 투명하고 독립적인 성능 평가 의 중요성을 강조하며, 광고된 성능과 실제 성능 간의 격차가 환자 안전에 미칠 수 있는 잠재적 위험을 경고합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation
현재글 : [논문리뷰] Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks
다음글 [논문리뷰] HiconAgent: History Context-aware Policy Optimization for GUI Agents