[논문리뷰] QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting

2025년 8월 27일수정: 2025년 8월 27일

링크: 논문 PDF로 바로 열기

저자: Nicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso

핵심 연구 목표

본 논문은 대규모 언어 모델(LLM)의 환각 발생률 증가 문제를 해결하고자 합니다. 기존의 사후 필터링 방식 대신, 입력 쿼리의 17가지 언어학적 특징 을 활용하는 밴딧 프레임워크 를 통해 쿼리 재작성 전략을 설계하여, LLM이 환각을 생성하지 않도록 사전에 유도하는 것을 목표로 합니다.

핵심 방법론

연구진은 QueryBandits 라는 문맥 기반 밴딧 프레임워크 를 제안하여, 쿼리의 언어학적 특징에 기반한 최적의 재작성 전략(총 5가지: Paraphrasing, Simplification, Disambiguation, Expansion, Clarification of Certain Terms )을 선택합니다. 보상 모델은 LLM-judge (S_llm), 퍼지 문자열 유사도 (S_fuzz), BLEU-1 점수 (S_bleu) 를 조합한 rt = α·S_llm + β·S_fuzz + γ·S_bleu로 정의되었으며, α=0.6, β=0.3, γ=0.1 가중치로 Pareto 최적 균형을 맞춥니다. 최상위 성능을 보인 Thompson Sampling 은 쿼리의 언어적 특성에 맞춰 재작성 선택을 조정하도록 학습됩니다.

주요 결과

최고 성능의 QueryBandits (Thompson Sampling) 는 재작성을 적용하지 않은 baseline 대비 87.5%의 승률 을 달성하며 환각 완화에 효과적임을 입증했습니다. 이는 Zero-Shot Static Prompting (Paraphrase) 대비 42.6% , (Expand) 대비 60.3% 더 우수한 성능입니다. 또한, 언어학적 특징 입력을 제거했을 때 성능이 81.7% 승률 과 754.66 exploration-adjusted reward 로 하락하여, 이 특징들이 환각 위험 예측에 중요한 연관성 신호를 제공함을 보여주었습니다.

AI 실무자를 위한 시사점

본 연구는 LLM의 환각 완화를 위해 쿼리 재작성 이라는 사전적 개입의 효과를 강조하며, 문맥 기반 밴딧 알고리즘 이 쿼리별 특성에 맞는 동적인 재작성 전략을 제공할 수 있음을 제시합니다. 이는 LLM 애플리케이션의 신뢰성과 성능을 향상시키는 실용적인 방법론이 될 수 있습니다. 또한, 언어학적 특징 을 활용한 QueryBandits 는 LLM 출력 동작의 해석 가능성 을 높여, 모델의 강점과 약점을 이해하는 데 도움을 줄 수 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels
현재글 : [논문리뷰] QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting
다음글 [논문리뷰] ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks