진짜 환자 없이 AI를 훈련시킨다 — 합성 의료 데이터는 개인정보 문제의 완전한 해법인가?
도입 — 미충족 수요 또는 배경 문제 제시
임상 AI 모델을 개발하려면 대규모 실제 환자 데이터가 필수적이다. 그런데 바로 그 데이터가 문제다. 전자의무기록(EMR), 영상 데이터, 유전체 정보는 본질적으로 개인을 특정할 수 있는 민감 정보이며, 이를 연구나 AI 학습에 활용하려면 기관생명윤리위원회(IRB) 승인, 환자 동의, 비식별화 처리, 보안 인프라 구축이라는 복잡한 절차를 거쳐야 한다. 그 결과 다음과 같은 구조적 병목이 발생한다.
- 데이터 사일로(data silo): 기관 간 데이터 공유가 제도적으로 막혀 있어 소규모 단일기관 데이터로만 모델을 학습시키는 현실
- 클래스 불균형: 희귀 질환, 소아 중증, 특정 인종·성별 집단의 데이터는 절대량 자체가 부족
- 규제 리스크: GDPR(EU), HIPAA(미국), 한국 개인정보보호법·의료법 등 각국 규제가 데이터 활용의 실질적 장벽으로 작용
- 재현성 위기: 공개 가능한 데이터셋이 부족해 논문 결과를 독립적으로 검증하기 어려움
이 모든 문제를 한 번에 우회할 수 있다고 주장하는 기술이 합성 의료 데이터(Synthetic Medical Data) 다. 실제 환자로부터 직접 추출하지 않고, 알고리즘이 통계적 특성을 학습하여 새롭게 생성한 가상의 데이터셋이다. 하지만 "개인정보 문제를 해결한다"는 주장과 "완전히 안전하다"는 주장 사이에는 메워야 할 상당한 간극이 존재한다.
이 연구/주제가 지금 주목받는 이유 — 최근 미디어 보도, 빅테크·바이오테크 투자 동향, 글로벌 보건 정책 변화 등 대중적·비즈니스적 맥락과 연결해서 설명
빅테크·스타트업의 대규모 투자
합성 데이터 시장은 이미 헬스케어를 넘어 전 산업군에서 폭발적으로 성장 중이다. Gartner는 2024년 기준 합성 데이터가 실제 데이터를 훈련 목적으로 대체하는 비율이 60%에 달할 것이라고 예측했으며, 헬스케어 분야 합성 데이터 시장 규모는 2030년까지 연평균 30% 이상 성장할 것으로 전망된다.
주요 기업 동향을 보면:
- NVIDIA: 2023년 BioNeMo 플랫폼을 통해 단백질·분자 합성 데이터 생성 기능을 대폭 강화했고, Generative AI 기반 의료 영상 합성을 위한 MONAI 프레임워크를 확장했다.
- Google DeepMind: Med-PaLM 2 개발 과정에서 합성 의료 질의응답 데이터셋을 활용했으며, 이를 공식 논문에서 명시했다.
- Syntegra, Hazy, MDClone: 헬스케어 특화 합성 데이터 스타트업들이 2022~2024년 사이 시리즈 B~C 규모 투자를 유치하며 빠르게 성장 중이다.
- Palantir: NHS(영국 국민보건서비스)와의 데이터 플랫폼 계약에서 합성 데이터 생성 기능을 핵심 제공 요소로 포함시켰다.
규제 기관의 공식 가이드라인 등장
미국 FDA는 2023년 "Considerations for the Design, Development, and Analytical Validation of NGS-Based In Vitro Diagnostics"를 비롯한 여러 지침에서 합성 데이터를 임상 검증 보조 도구로 언급하기 시작했다. EU AI Act(2024년 발효)는 고위험 AI 시스템의 훈련 데이터 품질 요건을 명시하면서, 합성 데이터 사용 시의 투명성 의무를 포함했다. 한국에서도 2023년 보건복지부·개인정보보호위원회가 공동으로 '의료데이터 활용 가이드라인'을 개정하면서 합성 데이터를 비식별 데이터의 한 형태로 처음 공식 인정했다.
ChatGPT 이후 가속화된 생성 AI 붐
대형언어모델(LLM)과 확산 모델(diffusion model)의 급격한 발전은 합성 의료 데이터의 품질을 이전과는 다른 수준으로 끌어올렸다. 과거의 합성 데이터가 단순한 통계적 재샘플링에 가까웠다면, 현재는 임상 노트의 맥락과 시간적 구조를 보존하는 수준의 합성이 가능해졌다. 이것이 연구자들과 투자자들의 관심이 동시에 폭발한 이유다.
핵심 분석 — 논문/기술의 방법론, 데이터, 주요 결과를 심층 분석
합성 의료 데이터 생성의 주요 방법론
현재 사용되는 기술 스택은 크게 네 가지로 분류된다.
1. GAN 기반 (Generative Adversarial Network)
가장 오래되고 광범위하게 검증된 방법이다. 생성자(generator)와 판별자(discriminator)의 적대적 학습을 통해 실제 데이터 분포를 모방하는 데이터를 생성한다. 의료 영상(흉부 X-ray, CT, 병리 슬라이드) 합성에 특히 강점을 보인다. Frid-Adar 등(2018)은 GAN으로 생성한 합성 간 병변 이미지로 CNN 분류기의 AUC를 0.78에서 0.85로 향상시킴을 보고했다. 단, **훈련 불안정성(mode collapse)**과 고차원 구조 보존의 한계가 있다.
2. VAE 기반 (Variational Autoencoder)
잠재 공간(latent space)에서의 확률적 샘플링을 통해 데이터를 생성한다. GAN에 비해 훈련이 안정적이지만 생성 샘플의 선명도(fidelity)가 다소 낮은 경향이 있다. EHR의 연속형·범주형 혼합 변수를 다루는 데 적합하다.
3. 확산 모델 (Diffusion Model)
2022년 이후 의료 영상 합성 분야의 새로운 표준으로 자리 잡았다. 노이즈를 단계적으로 제거하는 방식으로 고품질 이미지를 생성하며, GAN의 mode collapse 문제를 상당 부분 해결했다. Pinaya 등(2022)은 Brain MRI 합성에 Latent Diffusion Model을 적용하여 FID 점수 기준 당시 최고 성능을 기록했다.
4. LLM 기반 임상 텍스트 합성
GPT-4, LLaMA 계열 모델을 파인튜닝하여 임상 노트, 퇴원 요약, 방사선 판독문을 합성하는 방식이다. Gupta 등(2022)은 합성 임상 노트로 학습한 NER 모델이 실제 데이터 대비 F1 점수 95% 수준의 성능을 달성함을 보고했다. 하지만 환각(hallucination)에 의한 임상적으로 불가능한 정보의 생성이 핵심 위험 요소로 지목된다.
프라이버시 보호 성능: 핵심 평가 지표
합성 데이터가 개인정보를 실제로 보호하는지 평가하기 위해 다음 세 가지 공격 모델에 대한 내성을 측정한다.
| 공격 유형 | 설명 | 측정 지표 |
|---|---|---|
| 멤버십 추론 공격 (MIA) | 특정 레코드가 훈련 데이터에 포함되었는지 추론 | AUC ≈ 0.5이 이상적 (무작위 추측 수준) |
| 속성 추론 공격 | 합성 데이터로부터 원본 데이터의 민감 속성 재구성 | 재구성 정확도 |
| 재식별 위험 (Singling Out) | 합성 레코드가 실제 특정 개인과 매칭 가능한지 | 최근접이웃 거리 비율 |
Jordon 등(2022)의 체계적 리뷰에 따르면, 현존하는 합성 데이터 생성 방법 중 어떤 단일 방법도 유용성(utility)과 프라이버시 보호를 동시에 완벽히 달성하지 못한다는 것이 핵심 결론이다. 특히 희귀 사례(아웃라이어)는 합성 데이터에서도 높은 빈도로 재현되어 재식별 위험이 상존한다.
차등 프라이버시(Differential Privacy, DP)와의 결합
최근의 강력한 해법은 합성 데이터 생성 알고리즘에 차등 프라이버시를 수학적으로 결합하는 것이다. DP-GAN, DP-CTGAN 등이 대표적이다. ε(epsilon) 값이 작을수록 프라이버시 보호가 강하지만 데이터 유용성이 떨어지는 트레이드오프가 존재하며, 의료 데이터의 경우 일반적으로 ε = 1~10 범위에서 실용적 타협점을 찾는다. Yoon 등(2020)이 제안한 PATE-GAN은 교사 앙상블 기반으로 DP를 달성하면서도 기존 DP-GAN 대비 데이터 품질을 유의하게 향상시켰다.
임상·비즈니스 가치 — 실제 의료 현장 또는 헬스케어 시장에서의 적용 가능성과 한계
실제 도입 사례
Mayo Clinic × Syntegra
Mayo Clinic은 Syntegra의 플랫폼을 활용해 당뇨 및 심혈관 질환 코호트의 합성 EHR 데이터셋을 생성하고, 이를 외부 AI 스타트업들에게 제공하는 데이터 마켓플레이스 모델을 시범 운영했다. 민감 정보의 외부 반출 없이 혁신 생태계를 조성할 수 있다는 점에서 주목받았다.
NHS England의 합성 데이터 프로그램
영국 NHS는 2023년 NHSX와 CDEI(Centre for Data Ethics and Innovation)의 협력 하에 합성 환자 데이터를 활용한 연구 샌드박스를 구축했다. 패혈증 예측 모델, 응급실 체류 시간 예측 알고리즘 등 다수의 임상 AI 모델이 이 플랫폼에서 개발되고 있다.
국내 사례: 건강보험심사평가원(HIRA)
HIRA는 2023년부터 청구 데이터 기반의 합성 데이터를 시범 생성하여 연구자에게 제공하는 파일럿 프로그램을 운영 중이다. 실제 청구 코드 분포와의 통계적 유사성은 높지만, 시계열 임상 경과의 재현 충실도는 아직 개선 과제로 남아 있다.
핵심 비즈니스 기회
- AI 스타트업의 시장 진입 장벽 완화: 대형 병원과의 데이터 계약 없이도 고품질 학습 데이터 확보 가능
- 규제 제출용 테스트 데이터셋: FDA/식약처 인허가 과정에서 임상 성능 검증 보조 목적으로 활용
- 소프트웨어 개발·QA 환경: 실제 환자 데이터 없이 EMR 연동 시스템 테스트 가능
- 임상 교육·시뮬레이션: 희귀 케이스, 고위험 증례를 안전하게 학습하는 의학교육 콘텐츠
한계와 위험 요소
그러나 합성 데이터를 만능 해법으로 오인하는 것은 위험하다.
- 분포 외 일반화 실패: 합성 데이터로만 학습한 모델은 원본 데이터의 분포 경계를 벗어난 실제 환자에서 예상치 못한 오류를 낼 수 있다.
- 바이어스의 증폭: 원본 데이터에 내재된 인종적·성별적 불균형이 합성 과정에서 제거되지 않고 오히려 강화될 수 있다.
- 법적 지위의 불명확성: 합성 데이터가 "개인정보가 아니다"라는 법적 판단은 아직 국제적으로 통일되지 않았다. GDPR 제29조 작업반(WP29)은 합성 데이터도 원본 데이터 재식별 가능성이 있으면 개인정보로 볼 수 있다고 명시했다.
- 임상 유효성 검증의 부재: 합성 데이터로 학습한 모델이 실제 환자에게 적용되기 전에 반드시 실제 임상 데이터로 외부 검증을 받아야 한다는 원칙이 아직 규제 수준에서 명문화되지 않았다.
- 생성 비용과 전문성: 고품질 합성 데이터 생성은 상당한 컴퓨팅 자원과 도메인 전문가의 지속적 검증을 요구한다.
결론적으로, 합성 의료 데이터는 개인정보 문제의 완전한 해법이 아니라 전략적 보완 도구다. 실제 데이터를 대체하는 것이 아니라, 실제 데이터의 활용 범위를 안전하게 확장하는 수단으로 위치를 설정해야 한다. 규제 기관, 병원, AI 개발사가 함께 유용성과 프라이버시의 트레이드오프를 정량적으로 평가하는 공통 프레임워크를 마련하는 것이 지금 이 분야에서 가장 시급한 과제다.
References
-
Frid-Adar M, Klang E, Amitai M, Goldberger J, Greenspan H. Synthetic data augmentation using GAN for improved liver lesion classification. Proceedings of IEEE ISBI. 2018. https://doi.org/10.1109/ISBI.2018.8363576
-
Pinaya WHL, Tudosiu PD, Dafflon J, et al. Brain imaging generation with latent diffusion models. Deep Generative Models Workshop, MICCAI. 2022. https://doi.org/10.1007/978-3-031-18576-2_12
-
Jordon J, Szpruch L, Houssiau F, et al. Synthetic Data – what, why and how? arXiv preprint. 2022. https://doi.org/10.48550/arXiv.2205.03257
-
Yoon J, Jordon J, van der Schaar M. PATE-GAN: Generating synthetic data with differential privacy guarantees. ICLR 2019. 2020. https://openreview.net/forum?id=S1zk9iRqF7
-
Gupta S, Agrawal M, Ganapathi K, et al. Improving the Generalizability of Depression Detection by Leveraging Clinical Descriptors. Proceedings of ACL BioNLP Workshop. 2022. https://doi.org/10.18653/v1/2022.bionlp-1.9
-
Murtaza G, Shuib L, Abdul Wahab AW, et al. Deep learning-based breast cancer classification through medical imaging: A comprehensive review. Journal of Biomedical Informatics. 2020;103:103276. https://doi.org/10.1016/j.jbi.2020.103276
-
NHS England. Synthetic data in health: an accelerating opportunity. NHS Transformation Directorate. 2023. Available at: https://transform.england.nhs.uk/information-governance/guidance/synthetic-data/ (접속일: 2025년 1월)
-
European Data Protection Board. Opinion 05/2023 on the European Health Data Space Regulation. EDPB. 2023. Available at: https://www.edpb.europa.eu/our-work-tools/our-documents/opinion-board-art-64/opinion-052023-european-health-data-space_en (접속일: 2025년 1월)
-
Gartner Inc. Gartner Predicts 60% of Data Used in AI Will Be Synthetic by 2024. Press release. 2021. Available at: https://www.gartner.com/en/newsroom/press-releases/2021-06-23-gartner-predicts-60-percent-of-data-used-in-ai-will-be-synthetic (접속일: 2025년 1월)