[논문리뷰] Toxicity Ahead: Forecasting Conversational Derailment on GitHub

2025년 12월 24일수정: 2025년 12월 24일

링크: 논문 PDF로 바로 열기

저자: Mia Mohammad Imran, Robert Zita, Rahat Rizvi Rahman, Preetha Chatterjee, Kostadin Damevski

핵심 연구 목표

본 연구는 오픈 소스 소프트웨어(OSS) 커뮤니티의 건강을 해치는 유해한 대화(toxic interactions)가 발생하기 전에 이를 사전 예방적으로 예측 하는 것을 목표로 합니다. 기존의 사후 탐지 방식의 한계를 극복하고, GitHub 토론에서 대화가 유해한 방향으로 탈선(derailment)하기 시작하는 초기 징후 를 식별하고자 합니다.

핵심 방법론

연구진은 GitHub 토론에서 수집한 159개의 유해하게 탈선된 스레드와 207개의 비유해 스레드 로 구성된 데이터셋을 큐레이션했습니다. 대화 탈선 예측을 위해 두 단계 프롬프팅 파이프라인 을 활용하는 LLM 기반 프레임워크 를 제안하며, 첫 번째 단계에서는 Least-to-Most (LtM) 프롬프팅 을 통해 대화의 역학, 감정 톤, 수사적 변화 등을 요약한 Summaries of Conversation Dynamics (SCDs) 를 생성합니다. 두 번째 단계에서는 이 SCDs를 기반으로 대화 탈선 가능성을 0에서 1 사이의 확률로 예측합니다.

주요 결과

제안된 LtM 프롬프팅 전략은 Qwen 모델에서 F1-스코어 0.901 , Llama 모델에서 F1-스코어 0.852 를 달성하여 기존 NLP 기준선인 CRAFT 및 Few-shot SCD 방식보다 뛰어난 성능을 보였습니다. 특히, 감정 및 어조(Sentiment and Tonal Features, STF) 와 긴장 유발 요인(Tension Triggers, TT) 이 예측 정확도에 가장 중요한 요소임을 입증했습니다. 외부 데이터셋에 대한 검증에서도 최대 F1-스코어 0.797 (Qwen) 을 기록하며 일반화 가능성을 보여주었습니다.

AI 실무자를 위한 시사점

이 연구는 GitHub와 같은 OSS 커뮤니티에서 대화 탈선을 사전 예측 하는 실용적인 AI 기반 접근법을 제시합니다. LLM 기반의 구조화된 프롬프팅 은 확장 가능하고 해석 가능한 예측을 제공하며, 이는 기존 중재 파이프라인에 통합되어 능동적이고 설명 가능한 중재 를 가능하게 합니다. 또한, 감정 변화, 어조, 긴장 유발 요인 이 초기 경고 신호로서 중요함을 밝혀, 향후 AI 중재 도구 개발에 중요한 가이드라인을 제공합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Step-DeepResearch Technical Report
현재글 : [논문리뷰] Toxicity Ahead: Forecasting Conversational Derailment on GitHub
다음글 [논문리뷰] Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models