[논문리뷰] Extracting Interaction-Aware Monosemantic Concepts in Recommender Systems

2025년 11월 25일수정: 2025년 11월 25일

링크: 논문 PDF로 바로 열기

저자: Dor Arviv, Yehonatan Elisha, Oren Barkan, Noam Koenigstein

핵심 연구 목표

본 논문은 현대 추천 시스템의 잠재 임베딩이 의미론적으로 불투명하여 해석 가능성이 낮고 제어가 어렵다는 문제를 해결하고자 합니다. 특히, LLM 중심의 SAE와 달리 추천 시스템의 사용자-아이템 상호작용 패턴을 보존 하면서도, 임베딩에서 monosemantic neurons (즉, 일관되고 해석 가능한 개념에 맞춰진 잠재 차원)을 추출하는 방법을 제안합니다.

핵심 방법론

저자들은 추천 시스템의 두 탑 아키텍처에 특화된 Sparse Autoencoder (SAE) 프레임워크 를 제시합니다. 핵심 혁신은 frozen recommender model 을 통해 그레디언트를 역전파하는 prediction-aware reconstruction loss (Lpred) 를 도입한 것입니다. 이는 재구성된 임베딩이 추천 모델의 예측 친화도와 일치하도록 하여 상호작용 의미론을 보존합니다. 또한, 기존 Top-K sparsity 대신 KL-divergence sparsity regularization 을 사용하여 안정성을 개선하고 Dead Neuron 문제를 해결했습니다.

주요 결과

본 방법론은 MovieLens 1M 및 Last.FM 데이터셋에서 Matrix Factorization (MF) 및 Neural Collaborative Filtering (NCF) 모델에 적용되었습니다. MF 모델의 "Comedy" 및 "Horror" 뉴런이 K=10, 20, 50에서 100%의 의미론적 순도 를 달성하는 등, 추출된 뉴런들은 장르, 인기, 시간적 경향(예: 1990년대 스릴러, 1980년대 코미디)과 같은 다양한 개념을 비지도 학습으로 포착 했습니다. Prediction-aware loss 는 원본 모델과의 Rank Biased Overlap (RBO) 및 Kendall Tau correlation 을 크게 향상시켜 추천 충실도를 높였습니다.

AI 실무자를 위한 시사점

본 연구는 추천 시스템의 "블랙박스" 문제 를 해결하고 투명성을 높이는 실용적인 도구를 제공합니다. 추출된 monosemantic neurons 를 활용하면 기존 모델을 재훈련하지 않고도 콘텐츠 필터링, 사용자 선호도 조작, 타겟 아이템 프로모션 등 사후 제어(post-hoc control) 가 가능합니다. 이는 추천 시스템의 디버깅, 공정성 평가, 새로운 콘텐츠 발굴에 중요한 역할을 하며, 널리 배포된 두 탑 아키텍처 에 쉽게 통합될 수 있다는 점에서 실무 적용 가능성이 매우 높습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation
현재글 : [논문리뷰] Extracting Interaction-Aware Monosemantic Concepts in Recommender Systems
다음글 [논문리뷰] Fidelity-Aware Recommendation Explanations via Stochastic Path Integration