[논문리뷰] Wikontic: Constructing Wikidata-Aligned, Ontology-Aware Knowledge Graphs with Large Language Models

수정: 2025년 12월 2일

링크: 논문 PDF로 바로 열기

저자: Alla Chepurova, Aydar Bulatov, Yuri Kuratov, Mikhail Burtsev

핵심 연구 목표

본 논문은 LLM 기반 시스템에서 지식 그래프(KG)의 내재적 품질과 추론 능력이 충분히 활용되지 못하고, 개방형 정보 추출(OIE) KGs가 구조적 엄격성과 온톨로지 정합성 측면에서 한계를 보이는 문제를 해결하고자 합니다. 궁극적으로 Wikidata 온톨로지 에 정렬되고 온톨로지 인지적인 고품질 KG를 비정형 텍스트에서 직접 구축하는 파이프라인인 Wikontic 을 제안하여, LLM과 RAG 시스템에 신뢰성 있고 검증 가능한 지식 기반을 제공하는 것을 목표로 합니다.

핵심 방법론

Wikontic 은 세 단계의 파이프라인으로 구성됩니다. 첫째, LLM이 텍스트에서 수식어(qualifiers) 와 엔티티 유형을 포함한 후보 트리플렛을 추출합니다. 둘째, Wikidata 기반 온톨로지 스키마 데이터베이스 를 활용하여 엔티티 유형을 할당하고, 관계를 검증하며, 트리플렛 백본을 재구성하여 구조적 유효성과 의미론적 정합성을 확보합니다. 셋째, 사전 계산된 임베딩 과 LLM을 사용하여 엔티티 이름을 기존 KG 항목에 연결하고 별칭(alias)을 처리하여 중복을 줄이고 일관성을 유지합니다.

주요 결과

Wikontic 은 MINE-1 벤치마크에서 84-86% 의 정보 보존 점수를 달성하여, 기존 KGGen ( 66% ) 및 GraphRAG ( 47.80% )를 크게 능가하며 최첨단 성능을 입증했습니다. MuSiQue 데이터셋에서 생성된 트리플렛의 96% 에서 정답 엔티티가 포함됨을 보여주며 높은 커버리지를 입증했습니다. 또한, 원본 텍스트 접근 없이 KG만을 사용하여 HotpotQA에서 76.0 F1 , MuSiQue에서 59.8 F1 을 달성하며 텍스트 기반 RAG/KG 방식에 필적하거나 능가하는 성능을 보였습니다. KG 구축 시 1,000개 미만의 출력 토큰 을 사용하여 AriGraph보다 약 3배, GraphRAG보다 20배 이상 효율적이었습니다.

AI 실무자를 위한 시사점

Wikontic 은 LLM이 생성하는 정보를 Wikidata 기반 온톨로지 로 검증하고 구조화하여 환각 현상(hallucinations)을 줄이고 신뢰성을 높이는 실용적인 방법 을 제시합니다. 이는 LLM이 생성한 지식을 실제 시스템에 통합하는 데 중요한 단계입니다. 원본 텍스트 없이 KG만으로 경쟁력 있는 QA 성능 을 달성하여, RAG 시스템에서 텍스트 기반 검색을 보완하거나 대체할 수 있는 강력한 대안임을 보여주며, 특히 복잡한 다단계 추론(multi-hop reasoning) 이 요구되는 애플리케이션에 유용합니다. 또한, 적은 출력 토큰 으로 고품질 KG를 구축함으로써 API 비용과 컴퓨팅 자원 효율성 을 크게 향상시킬 수 있어 실제 배포 및 확장에 유리합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#Knowledge Graphs#Large Language Models#Information Extraction#Wikidata Ontology#Question Answering#Entity Normalization#Retrieval Augmented Generation

Review 의 다른글