데이터는 못 나눠도 지식은 나눈다 — 연합학습이 바꾸는 병원 간 AI 협력의 판도

데이터는 못 나눠도 지식은 나눈다 — 연합학습이 바꾸는 병원 간 AI 협력의 판도

도입 — 미충족 수요 또는 배경 문제 제시

의료 AI의 잠재력은 누구도 부정하지 않는다. 그러나 현실은 냉혹하다. 세계 최고 수준의 AI 모델도 결국 데이터로 만들어지는데, 병원의 환자 데이터는 국가별 개인정보보호법(한국 개인정보보호법, 미국 HIPAA, EU GDPR)의 두꺼운 장벽 안에 갇혀 있다. 단일 기관이 보유한 데이터만으로는 희귀 질환, 소아 중증 질환, 특정 인종군의 질병 패턴처럼 낮은 발생 빈도이지만 임상적으로 치명적인 영역에서 AI 모델을 충분히 훈련시키기 어렵다.

응급의학과 현장에서 이 문제는 더욱 절실하게 느껴진다. 패혈증 조기 경보 모델을 개발할 때, 우리 병원의 3년치 데이터만으로 훈련한 모델은 다른 권역 병원에 이식하는 순간 성능이 급격히 떨어진다. 환자 구성, 검사 시약 브랜드, EMR 입력 관행의 차이가 미세하게 쌓여 데이터 이종성(data heterogeneity) 문제를 만들어내기 때문이다. 그렇다고 각 병원이 환자 데이터를 클라우드 서버에 올려 공동 학습을 진행하는 것은 법적으로도, 윤리적으로도 허용되지 않는 경우가 대부분이다.

이 딜레마를 정면으로 해결하려는 기술 패러다임이 바로 연합학습(Federated Learning, FL) 이다. 핵심 원리는 단순하다. "데이터를 모으지 말고, 모델을 보내라." 각 병원은 자체 서버에서 로컬 모델을 훈련하고, 원시 데이터가 아닌 모델 파라미터(가중치 업데이트)만 중앙 서버 또는 피어 노드로 전송한다. 중앙 서버는 이를 집계(aggregation)하여 글로벌 모델을 개선하고, 다시 각 기관으로 배포한다. 환자 데이터는 병원 방화벽 밖으로 한 바이트도 나가지 않는다.


이 연구/주제가 지금 주목받는 이유 — 최근 미디어 보도, 빅테크·바이오테크 투자 동향, 글로벌 보건 정책 변화

빅테크와 헬스케어 기업의 전략적 베팅

Google은 2017년 연합학습 개념을 스마트폰 키보드 예측에 처음 적용한 이후, 의료 분야로 빠르게 확장했다. Google Health와 DeepMind는 안저 사진 기반 당뇨망막병증 검출, 유방암 선별 검사 등에 FL 프레임워크를 적용한 연구를 발표했다. NVIDIA는 2019년 NVIDIA FLARE(Federated Learning Application Runtime Environment) 를 오픈소스로 공개하며 의료 FL의 인프라 표준화를 주도하고 있다. 실제로 NVIDIA는 미국·유럽·아시아 20개 이상의 병원 컨소시엄과 함께 뇌종양 분할(segmentation) 모델을 FL로 훈련한 결과를 Nature Medicine에 게재하며 기술의 임상 적용 가능성을 입증했다.

스타트업 생태계도 활발하다. Owkin(프랑스)은 FL 기반 항암제 반응 예측 플랫폼으로 2021년 약 1,800억 원 규모의 시리즈 B 투자를 유치했고 BMS, Roche 등 빅파마와 파트너십을 체결했다. Rhino Health(미국)은 병원 네트워크 기반 FL-as-a-Service 모델로 FDA의 관심을 받고 있으며, TriNetXPalantir도 의료 데이터 분산 분석 분야에서 FL 요소를 통합하고 있다.

규제 환경이 연합학습을 밀어올리다

2023년 EU의 AI Act 통과와 2024년 강화된 GDPR 집행은 중앙집중식 데이터 공유 모델의 리스크를 급격히 높였다. 한국에서도 2023년 개인정보보호법 전면 개정으로 가명정보 결합 절차가 까다로워지면서, 법적 리스크 없이 다기관 협력을 가능하게 하는 FL의 매력도가 상승했다. 미국 NIH는 National COVID Cohort Collaborative(N3C) 프로젝트에서 FL을 핵심 데이터 거버넌스 도구로 채택했고, 유럽연합 집행위원회의 European Health Data Space(EHDS) 구축 로드맵에도 FL이 핵심 기술 중 하나로 명시되어 있다.

학술계의 폭발적 관심

PubMed 기준, "federated learning"과 "healthcare" 혹은 "medical"을 함께 포함한 논문 수는 2019년 수십 편에서 2023년 수천 편으로 폭발적으로 증가했다. 특히 Nature Medicine, The Lancet Digital Health, NEJM AI 등 최상위 임상 저널이 FL 관련 논문을 다수 게재하면서 기술의 임상 신뢰도를 높이고 있다.


핵심 분석 — 방법론, 데이터, 주요 결과

1. 연합학습의 기본 아키텍처

**중앙 집계형(Centralized FL / FedAvg)**이 가장 널리 쓰이는 구조다. McMahan 등이 2017년 제안한 FedAvg(Federated Averaging) 알고리즘은 각 기관의 로컬 SGD(확률적 경사하강법) 업데이트를 데이터 크기에 비례하여 가중 평균(weighted average)으로 집계한다. 수식으로 표현하면:

w_{t+1} = Σ (n_k / n) · w_k^t
(w: 글로벌 모델 파라미터, n_k: k번째 기관 데이터 수, n: 전체 합산)

그러나 의료 데이터는 Non-IID(독립적이고 동일하게 분포하지 않음) 특성이 강하다. 서울 3차 병원의 패혈증 환자 분포와 지방 2차 병원의 분포는 근본적으로 다르다. 이를 해결하기 위해 FedProx, SCAFFOLD, FedNova 등 개선된 집계 알고리즘이 제안되었다. FedProx는 로컬 업데이트에 근접 정규화 항(proximal term)을 추가하여 글로벌 모델과의 편차를 제한함으로써 Non-IID 환경에서 FedAvg 대비 안정적인 수렴을 보였다.

피어-투-피어형(Decentralized FL / P2P FL) 은 중앙 서버 없이 병원들이 직접 파라미터를 교환하는 구조로, 단일 장애점(single point of failure) 및 중앙 서버 신뢰 문제를 해소한다. 블록체인 기술과 결합하여 파라미터 교환의 무결성을 보장하는 BFL(Blockchain-based FL) 연구도 활발하다.

2. 랜드마크 임상 연구: 뇌종양 분할 (Pati et al., 2022)

NVIDIA 주도로 진행된 이 연구는 미국·유럽·아시아 71개 기관의 뇌 MRI 6,314건에 FL을 적용해 교모세포종(glioblastoma) 분할 모델을 훈련했다. 핵심 결과:

  • FL 모델의 분할 정확도(Dice score)가 단일 기관 최대 데이터 모델과 통계적으로 동등 (p > 0.05)
  • 데이터를 한 곳에 집중시킨 중앙화 학습(centralized learning) 대비 Dice score 차이 < 1%
  • 기관 수가 증가할수록 모델 성능이 단조 증가하는 스케일링 법칙 확인

이 연구는 FL이 데이터 공유 없이도 중앙화 학습에 근접한 성능을 낼 수 있다는 가장 강력한 임상 근거로 인용된다.

3. 흉부 X-ray 폐렴 진단 (Dou et al., 2021)

4개 기관(미국, 중국, 홍콩, 독일)의 흉부 X-ray 데이터를 FL로 학습한 폐렴 진단 모델은 단일 기관 모델 대비 미지 기관(unseen site)에서의 AUC를 평균 4.3% 향상 시켰다. 특히 데이터 규모가 작은 소규모 병원에서 FL 도입 효과가 가장 컸다(기관 자체 데이터 AUC 0.71 → FL 후 0.84).

4. 개인정보보호 강화 기술과의 결합

순수 FL만으로는 그라디언트 역공격(gradient inversion attack) 에 취약할 수 있다. 공격자가 전송된 그라디언트를 역산하여 원본 이미지를 재구성하는 것이 이론적으로 가능하기 때문이다. 이를 보완하는 세 가지 기술이 병원 FL 시스템에 통합되고 있다:

기술 원리 의료 적용 현황
차등 프라이버시 (Differential Privacy, DP) 그라디언트에 보정된 노이즈 추가 Google Health, OpenFL
동형 암호화 (Homomorphic Encryption, HE) 암호화 상태에서 연산 수행 계산 비용 높아 부분 적용
보안 다자간 계산 (Secure Multi-Party Computation, SMPC) 파라미터를 분할 공유 IBM FL, PySyft

5. Non-IID 문제와 개인화 연합학습(Personalized FL)

다기관 데이터의 분포 이질성 문제를 극복하기 위해 pFL(Personalized Federated Learning) 이 주목받고 있다. 글로벌 모델을 공통 베이스로 학습하되, 각 기관 고유 레이어를 추가로 파인튜닝(local fine-tuning)하는 FedPer, APFL, Ditto 등의 기법은 개별 기관 성능과 일반화 성능을 동시에 향상시키는 데 효과적이다. 이는 서로 다른 진료권역의 환자 분포를 가진 한국 의료 환경에서 특히 유망한 접근법이다.


임상·비즈니스 가치 — 적용 가능성과 한계

즉각적 임상 가치

  1. 희귀 질환·소아 중증 모델 개발: 단일 기관에서는 수십 례에 불과한 희귀 질환 케이스를 전국 또는 국제 병원 네트워크가 FL로 공동 학습하면 충분한 통계적 검정력을 확보할 수 있다. 선천성 심장병, 소아 급성 림프구성 백혈병 등이 우선 적용 대상이다.

  2. 모델의 외부 유효성(external validity) 향상: 현재 AI 의료기기 허가의 가장 큰 걸림돌은 단일 기관 데이터로 학습된 모델의 타 기관 성능 저하 문제다. FL 기반 다기관 학습은 이 문제를 구조적으로 해결하며, FDA의 AI/ML-based SaMD(Software as a Medical Device) 가이드라인에서 요구하는 다양성 기준 충족에 직접적으로 기여한다.

  3. 응급·중환자 실시간 예측 모델: 패혈증, 급성 호흡부전, 심정지 예측 등 응급의학 분야는 시간이 곧 생존율이다. 전국 응급의료기관 네트워크가 FL로 연결된다면, 각 지역 병원의 고유한 환자 특성을 반영하면서도 전국 수준의 학습 데이터 파워를 갖춘 예측 모델 운용이 가능해진다.

비즈니스 가치와 시장 기회

  • 모델 마켓플레이스: FL로 공동 개발한 AI 모델의 지식재산권을 어떻게 배분할 것인가? 기여 데이터 규모, 데이터 품질, 레이블링 비용 등을 토큰화(tokenization)하여 기여도 기반 수익 배분 구조를 설계하는 FL-as-a-Service 플랫폼 비즈니스가 부상 중이다. Owkin의 모델이 대표적이다.
  • 의료기기 회사의 포스트 마켓 모니터링: 이미 배포된 AI 의료기기가 실사용 데이터로 지속적으로 업데이트(continuous learning)되어야 한다. FL은 법적 컴플라이언스를 유지하면서 이 요구를 충족하는 유일한 현실적 수단이다.
  • 한국 시장 특수성: 건강보험심사평가원(HIRA), 국민건강보험공단(NHIS)의 청구 데이터는 세계적으로 드문 고품질 전국민 종단 데이터지만 접근 장벽이 높다. 이 데이터를 분산형으로 활용하는 FL 기반 공공-민간 컨소시엄 모델은 한국이 글로벌 의료 AI 시장에서 차별화된 경쟁력을 확보할 수 있는 전략적 기회다.

현실적 한계와 미해결 과제

한계 구체적 내용 극복 방향
통신 비용 대형 딥러닝 모델(수억 파라미터)의 반복 전송이 네트워크 부하 유발 모델 압축(pruning, quantization), 희소 업데이트(sparse updates)
무임승차 문제 데이터 품질이 낮은 기관이 기여 없이 좋은 모델을 받아가는 인센티브 문제 기여도 평가(Shapley value 기반), 차등 모델 배포
비잔틴 공격(Byzantine attack) 악의적 참여자가 오염된 그라디언트를 업로드해 글로벌 모델을 손상 강건한 집계(robust aggregation), 이상 탐지
규제 미비 FL로 학습된 모델의 책임 소재, 인허가 경로가 불명확 FDA/MFDS의 FL-specific 가이드라인 필요
인프라 격차 GPU 서버, 고속 네트워크가 없는 중소병원은 FL 참여 불가 클라우드 기반 경량 FL 클라이언트 표준화

연합학습은 "마법의 해법"이 아니다. 데이터 이종성, 통신 효율, 보안 취약점, 법제도 공백이라는 네 개의 벽이 여전히 높다. 그러나 데이터 공유 없는 지식 공유라는 근본 패러다임은 의료 AI가 실험실을 넘어 다기관 임상 현장으로 확장되기 위한 사실상 유일한 현실적 경로가 되고 있다. 데이터는 섬처럼 고립되어 있어도, 학습의 파도는 섬과 섬 사이를 오갈 수 있다.


References

Read more

임상 노트와 의료 영상을 동시에 읽는 AI — 멀티모달 진단 모델은 의사를 대체할 수 있을까?

임상 노트와 의료 영상을 동시에 읽는 AI — 멀티모달 진단 모델은 의사를 대체할 수 있을까?

도입 — 미충족 수요 또는 배경 문제 제시 응급실에서 흉통으로 내원한 65세 환자를 생각해보자. 담당 의사는 흉부 X선, 심전도, 혈액 검사 결과, 그리고 환자의 과거 병력이 기록된 수십 페이지의 의무기록을 동시에 검토해야 한다. 현실에서 이 과정은 수십 분이 걸리고, 피로하거나 과부하 상태의 의료진이라면 중요한 단서 하나를 놓칠 수도 있다. 의료 현장에서

By Cahn
AI가 백인 남성을 더 잘 진단한다면? 의료 AI 공정성 문제, 이제는 피할 수 없다

AI가 백인 남성을 더 잘 진단한다면? 의료 AI 공정성 문제, 이제는 피할 수 없다

도입 — 미충족 수요 또는 배경 문제 제시 2023년 미국 응급실에서 한 흑인 여성 환자가 흉통을 호소했다. 담당 의사는 AI 기반 위험도 예측 도구를 참고했고, 시스템은 '저위험'으로 분류했다. 그러나 이 환자는 결국 급성 심근경색으로 진단됐다. 이것은 단순한 의료 오류가 아니다. 해당 AI 모델이 훈련된 데이터셋에서 흑인 여성 환자의

By Cahn
Long COVID의 숨겨진 적: 면역계가 자신을 공격하고, 세포의 발전소가 꺼진다

Long COVID의 숨겨진 적: 면역계가 자신을 공격하고, 세포의 발전소가 꺼진다

도입 — 미충족 수요 또는 배경 문제 제시 전 세계 COVID-19 감염자 수가 7억 명을 넘어선 지금, 급성기를 무사히 넘긴 환자들 사이에서 전혀 예상치 못했던 '두 번째 위기'가 수면 위로 떠오르고 있다. 바이러스가 사라진 뒤에도 수개월 혹은 수년 동안 지속되는 피로감·인지 장애·호흡 곤란·자율신경 이상 등의

By Cahn
의료 데이터의 전쟁: AWS HealthLake vs. Azure Health Data Services, 어느 클라우드가 병원을 지배할 것인가?

의료 데이터의 전쟁: AWS HealthLake vs. Azure Health Data Services, 어느 클라우드가 병원을 지배할 것인가?

도입 — 미충족 수요 또는 배경 문제 전 세계 병원과 의료기관이 매일 생성하는 데이터의 양은 상상을 초월한다. 2020년 기준으로 글로벌 헬스케어 데이터는 약 2,314 엑사바이트(EB)에 달하며, 2025년까지 연평균 36%의 성장률로 폭발적으로 증가할 것으로 예측된다. 문제는 이 방대한 데이터의 대부분이 여전히 파편화된 레거시 시스템, 비표준화된 포맷, 상호운용 불가능한

By Cahn