[논문리뷰] Attributes as Textual Genes: Leveraging LLMs as Genetic Algorithm Simulators for Conditional Synthetic Data Generation

2025년 9월 3일수정: 2025년 9월 3일

링크: 논문 PDF로 바로 열기

저자: Guangzeng Han, Weisi Liu, Xiaolei Huang

핵심 연구 목표

본 논문은 대규모 언어 모델(LLM)을 활용한 합성 데이터 생성 시 품질과 다양성 확보의 어려움을 해결하는 것을 목표로 합니다. 특히, 하류 태스크 훈련의 견고성을 높이기 위해 데이터 다양성과 생성기 적응성을 자동으로 증폭할 수 있는 프레임워크를 제안합니다.

핵심 방법론

제안하는 Genetic Prompt 프레임워크는 텍스트의 의미적 속성을 유전자 서열 로 취급하고, LLM을 활용하여 교차(crossover) 및 변이(mutation) 연산을 시뮬레이션합니다. 부모 선택을 최적화하고 탐색 공간을 확장하기 위해 능동 학습(active learning) 기법 을 통합하여 의미론적 거리 가 가장 큰 샘플 쌍을 선택합니다.

주요 결과

다양한 NLP 태스크에 대한 실험에서 Genetic Prompt 는 기존의 최첨단 베이스라인( SimPrompt, AttrPrompt, Curated LLM )을 일관되게 능가했습니다. 합성 데이터를 원본 훈련 세트와 결합했을 때 하류 모델 성능이 크게 향상되었으며, 특히 클래스 불균형 시나리오에서 평균 1.85% Micro-F1 개선과 ChemProt 데이터셋에서 +3.2% Macro-F1 개선을 달성했습니다.

AI 실무자를 위한 시사점

이 연구는 LLM을 유전 알고리즘 시뮬레이터로 활용하여 데이터 부족 및 불균형 문제를 해결할 수 있는 강력한 방법을 제시합니다. 속성 기반의 유전자 조작 은 높은 품질과 다양성을 지닌 합성 데이터 생성을 가능하게 하여, 특히 클래스 불균형 이 심한 데이터셋에서 모델의 일반화 성능을 크게 향상시킬 수 있습니다. 또한, LLM의 크기와 데이터 규모에 따른 생성 성능 분석은 최적의 합성 데이터 전략 수립에 실질적인 가이드를 제공합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] AMBEDKAR-A Multi-level Bias Elimination through a Decoding Approach with Knowledge Augmentation for Robust Constitutional Alignment of Language Models
현재글 : [논문리뷰] Attributes as Textual Genes: Leveraging LLMs as Genetic Algorithm Simulators for Conditional Synthetic Data Generation
다음글 [논문리뷰] Baichuan-M2: Scaling Medical Capability with Large Verifier System