[논문리뷰] Taming Generative Synthetic Data for X-ray Prohibited Item Detection

2025년 11월 24일수정: 2025년 11월 24일

링크: 논문 PDF로 바로 열기

저자: Jialong Sun, Hongguang Zhu, Weizhe Liu, Yunda Sun, Renshuai Tao and Yunchao Wei

핵심 연구 목표

X-ray 보안 이미지에서 금지 품목 탐지 모델을 훈련하기 위한 데이터 부족 문제 와 기존 합성 데이터 생성 방법론의 노동 집약적인 전처리 단계(예: 전경 추출) 를 해결하는 것이 주 목표입니다. 추가적인 수작업 없이 고품질의 X-ray 보안 이미지를 합성하는 효율적인 원스텝 파이프라인을 제안하고자 합니다.

핵심 방법론

본 논문은 텍스트-기반 인페인팅(text-grounded inpainting) 에 기반한 원스텝 X-ray 보안 이미지 합성 파이프라인(Xsyn) 을 제안합니다. 특히, 생성된 합성 이미지의 주석을 정교화하기 위해 확산 모델의 교차-어텐션 맵(Cross-Attention map) 을 활용하는 Cross-Attention Refinement (CAR) 전략과, 잠재 공간에서 배경 가림을 명시적으로 모델링하여 이미지 복잡도를 높이는 Background Occlusion Modeling (BOM) 전략을 도입합니다.

주요 결과

제안된 Xsyn-A 방법은 PIDray 데이터셋 에서 기존 합성 방법들보다 1.2% mAP 향상 을 달성하며 뛰어난 성능을 보였습니다. 또한, OPIXray 및 HiXray 와 같은 다양한 X-ray 보안 데이터셋과 DINO, ATSS, C-RNN 등 다양한 탐지기에서 일관된 성능 향상을 입증했습니다. CAR과 BOM 두 전략 모두 합성 데이터의 유용성을 높이는 데 기여함을 정량적으로 확인했습니다.

AI 실무자를 위한 시사점

본 연구는 노동 집약적인 전경 준비 과정 없이 고품질의 X-ray 보안 이미지를 생성할 수 있는 실용적인 데이터 증강 솔루션을 제공합니다. 이는 실제 AI/ML 프로젝트에서 데이터 수집 및 전처리 비용을 크게 절감 할 수 있음을 의미합니다. 특히 CAR 와 BOM 전략은 합성 데이터의 주석 정확도와 시각적 복잡성 을 향상시켜 탐지 모델의 견고성과 성능을 높이는 데 기여합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] SAM 3: Segment Anything with Concepts
현재글 : [논문리뷰] Taming Generative Synthetic Data for X-ray Prohibited Item Detection
다음글 [논문리뷰] Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story