[논문리뷰] DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI

2025년 12월 23일수정: 2025년 12월 23일

링크: 논문 PDF로 바로 열기

저자: Hao Liang, Xiaochen Ma, Zhou Liu, Zhen Hao Wong, Zhengyang Zhao, Zimo Meng, Runming He, Chengyu Shen, Qifeng Cai, Zhaoyang Han, Meiyi Qiang, Yalin Feng, Tianyi Bai, Zewei Pan, Ziyi Guo, Yizhen Jiang, Jingwen Deng, Qijie You, Peichao Lai, Tianyu Guo, Chi Hsu Tsai, Hengyi Feng, Rui Hu, Wenkai Yu, Junbo Niu, Bohan Zeng, Ruichuan An, Lu Ma, Jihao Huang, Yaowei Zheng, Conghui He, Linpeng Tang, Bin Cui, Weinan E, Wentao Zhang

핵심 연구 목표

본 논문은 대규모 언어 모델(LLM)을 위한 고품질 데이터 준비 파이프라인의 파편화된 현상 과 표준화 부족 문제 를 해결하고자 합니다. 특히, LLM 기반의 데이터 합성 및 반복적인 의미론적 정제 를 효과적으로 지원하는 통합적이고 확장 가능한 LLM 구동 데이터 준비 프레임워크 를 구축하는 것이 목표입니다.

핵심 방법론

DataFlow는 저장소, LLM 서빙, 오퍼레이터, 프롬프트 템플릿, 파이프라인에 대한 PyTorch 스타일의 시스템 수준 추상화 를 제공합니다. 약 200개의 재사용 가능한 오퍼레이터 와 텍스트, 수학, 코드, Text-to-SQL 등 6가지 SOTA 도메인 일반 파이프라인 을 포함합니다. 또한, DataFlow-Agent는 자연어 사양을 실행 가능한 파이프라인으로 자동 변환 하며, 오퍼레이터 합성 , 파이프라인 계획 , 반복적 검증 을 통해 워크플로우를 자동화합니다.

주요 결과

DataFlow를 통해 생성된 데이터는 다운스트림 LLM 성능을 일관되게 향상시켰습니다. Text-to-SQL의 경우, SynSQL 대비 +3%의 실행 정확도 를 달성했으며, 코드 벤치마크에서는 평균 7% 개선 을 보였습니다. 수학 벤치마크( MATH, GSM8K, AIME )에서는 1-3점 향상 을 기록했습니다. 특히, DataFlow로 생성된 10K 샘플의 통합 데이터셋(DataFlow-Instruct-10K) 은 1M Infinity-Instruct 데이터로 훈련된 모델 의 성능을 능가했습니다.

AI 실무자를 위한 시사점

DataFlow는 LLM 데이터 준비 과정을 표준화하고 재현 가능하게 만들어 AI 개발의 효율성을 크게 높일 수 있습니다. 특히 고품질 합성 데이터 생성 능력 은 데이터 부족 문제를 해결하고 모델 성능을 향상시키는 데 기여합니다. DataFlow-Agent를 통한 워크플로우 자동화 는 AI 엔지니어의 수동 작업 부담을 줄이고, 데이터 중심 AI 개발 패러다임 을 실현하는 강력한 기반을 제공합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction
현재글 : [논문리뷰] DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI
다음글 [논문리뷰] Does It Tie Out? Towards Autonomous Legal Agents in Venture Capital