[논문리뷰] Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment

2025년 8월 14일수정: 2025년 8월 14일

링크: 논문 PDF로 바로 열기

저자: Haowen Wang, Yun Yue, Zhiling Ye, Shuowen Zhang, Lei Fan, Jiaxin Liang, Jiadi Jiang, Cheng Wei, Jingyuan Deng, Xudong Han, Ji Li, Chunxiao Guo, Peng Wei, Jian Wang, Jinjie Gu

핵심 연구 목표

이 논문은 대규모 언어 모델(LLM) 정렬(alignment) 방법론의 한계를 해결하고자 합니다. 기존 방법론들( SFT, DPO, PPO, GRPO )은 특정 정렬 방식에 고정되거나 정량적 지표만을 최적화하여 일반화 및 견고성 측면에서 부족함을 보였습니다. 연구는 정렬 과정에서 모델이 스스로 최적화하며 지속적으로 개선될 수 있는 통일된 프레임워크를 제안하는 것을 목표로 합니다.

핵심 방법론

논문은 GRAO (Group Relative Alignment Optimization) 라는 새로운 정렬 프레임워크를 제안합니다. GRAO는 그룹 직접 정렬 객체 (Group Direct Alignment Object) 를 통해 감독 모방(supervised imitation) , 오프-정책 탐색(off-policy exploration) , 그리고 정렬 정규화(alignment regularization) 를 동적으로 균형 맞춰 통합합니다. 이는 그룹 수준의 상대적 이점 (group-level relative advantages) 을 활용하여 모델이 초기 모방을 넘어 스스로 탐색하고 정렬 목표를 초월하도록 돕습니다.

주요 결과

GRAO는 Qwen2.5-7B 및 Moonlight-16B 모델을 사용하여 helpful-base 및 harmless-base 데이터셋 모두에서 기존 방법론들을 크게 능가하는 성능을 보였습니다. 예를 들어, Qwen2.5-7B 모델의 helpful-base 데이터셋에서 GRAO는 RAS 64.60% 및 NAG 67.98% 를 달성하여 SFT, DPO, PPO, GRPO를 모두 뛰어넘었습니다. 특히 MoE (Mixture-of-Experts) 아키텍처 인 Moonlight-16B에서 더욱 큰 성능 향상( RAS 70.84%, NAG 55.06% )을 보였으며, 모든 GRAO 구성 요소가 성능에 필수적임을 입증했습니다.

AI 실무자를 위한 시사점

GRAO는 LLM 정렬의 효율성과 견고성을 향상시키는 강력한 방법론을 제공합니다. 이는 특히 MoE 아키텍처 와 같이 복잡한 모델에 대한 정렬을 개선하는 데 유용하며, 동적 모방-탐색 균형 을 통해 모델이 스스로 정렬 능력을 발전시킬 수 있는 가능성을 제시합니다. AI 엔지니어는 GRAO를 활용하여 사람의 피드백에 더 잘 부합하면서도 새로운 상황에 유연하게 적응하고 성능을 지속적으로 향상시키는 LLM을 구축할 수 있을 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] IAG: Input-aware Backdoor Attack on VLMs for Visual Grounding
현재글 : [논문리뷰] Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment
다음글 [논문리뷰] MathReal: We Keep It Real! A Real Scene Benchmark for Evaluating Math Reasoning in Multimodal Large Language Models