[논문리뷰] Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures

수정: 2025년 10월 2일

링크: 논문 PDF로 바로 열기

저자: Marco Bronzini, Carlo Nicolini, Bruno Lepri, Jacopo Staiano, Andrea Passerini

핵심 연구 목표

대규모 언어 모델(LLM)의 불투명한 내부 표현에 대한 제한적인 이해를 극복하고, LLM 벡터 공간 에서 사람이 해석할 수 있는 정보를 디코딩 하는 새로운 패러다임을 제안하는 것을 목표로 합니다. 기존 직접 로짓 기여(DLA)희소 오토인코더(SAE) 와 같은 해석 가능성 방법론의 한계를 극복하고자 합니다.

핵심 방법론

이 연구는 Hyperdimensional Probe 라는 새로운 패러다임을 도입하며, 이는 Vector Symbolic Architectures (VSAs) 를 활용하여 LLM의 잔여 스트림을 해석 가능한 개념으로 투영합니다. 먼저, LLM 임베딩은 K-means 클러스터링합계 풀링 을 통해 압축되고, 이 압축된 임베딩은 얕은 신경망 인코더 M 을 통해 VSA 인코딩으로 매핑됩니다. 이후 하이퍼벡터 대수(unbinding operation) 를 사용하여 VSA 인코딩에서 개념을 추출함으로써 모델의 내부 상태를 분석합니다.

주요 결과

제안된 VSA 인코더는 테스트 세트에서 평균 코사인 유사도 0.89이진 정확도 0.94 를 달성하여 강력한 성능을 보였습니다. Hyperdimensional Probe 는 LLM의 다음 토큰 예측(평균 정확도@1 31% )보다 훨씬 높은 평균 정확도@1 83% 로 타겟 개념을 안정적으로 추출했습니다. 특히 Llama 4 Scout 모델의 경우, 낮은 다음 토큰 예측 정확도(8%)에도 불구하고 타겟 개념을 성공적으로 디코딩하여, 모델이 개념을 이해했음에도 토큰화 문제로 인해 예측에 실패했음을 진단하는 데 기여했습니다.

AI 실무자를 위한 시사점

이 연구는 LLM의 내부 작동 방식을 더 깊이 이해 하고, 모델의 오류를 진단 하는 데 유용하며, DLASAE 의 한계를 보완할 수 있는 새로운 해석 가능성 도구를 제공합니다. Hyperdimensional Probe 의 컴퓨팅 효율성( 55M-71M 파라미터 )과 다양한 LLM, 임베딩 크기 및 멀티모달 입력 으로의 확장 가능성은 실제 AI/ML 시스템에 적용될 잠재력이 큽니다. 이는 AI 시스템의 신뢰성과 투명성을 높이는 데 기여할 수 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#LLM Interpretability#Vector Symbolic Architectures#Neural Probing#Information Decoding#Hyperdimensional Computing#Latent Representations

Review 의 다른글