방사선과 의사보다 더 많은 것을 본다: 의료 이미지 AI의 게임체인저, Foundation Model의 부상

Cahn

19 3월 2026 — 13 min read

도입 — 미충족 수요 또는 배경 문제 제시

전 세계 의료 영상 데이터는 매년 기하급수적으로 증가하고 있다. 미국 단독으로 연간 약 9억 건 이상의 의료 영상 검사가 시행되며, 이 수치는 2030년까지 두 배 이상 증가할 것으로 예측된다. 그러나 영상의학과 전문의 수는 이 속도를 따라가지 못하고 있다. 미국영상의학회(ACR)에 따르면, 방사선과 의사 한 명이 하루 평균 100건 이상의 영상을 판독해야 하는 상황이며, 번아웃과 판독 오류 위험이 구조적으로 내재되어 있다.

문제는 단순한 인력 부족에 그치지 않는다. 기존의 Medical AI 모델들은 태스크 특이적(task-specific) 구조를 취해왔다. 폐결절 탐지 모델, 골절 감지 모델, 망막병증 분류 모델 — 이 모두는 각각 별도로 훈련되고, 별도로 검증되고, 별도로 배포된다. 실제 임상 환경에서 한 환자의 흉부 CT 한 장에는 폐결절만 있는 것이 아니라 심비대, 흉수, 우연 발견된 간 낭종, 그리고 골다공증 소견까지 공존한다. 기존 AI는 이 복잡성을 통합적으로 다룰 수 없었다.

이 간극을 메우기 위해 등장한 개념이 바로 **Foundation Model(기반 모델)**이다. 방대한 비라벨 또는 약라벨(weakly-labeled) 데이터로 사전 훈련(pre-training)되고, 상대적으로 적은 데이터로 다양한 하위 태스크에 미세조정(fine-tuning)되는 이 패러다임은 자연어처리(NLP) 분야의 GPT, BERT가 이미 증명해낸 방식이다. 이제 그 물결이 의료 영상 분야로 본격 상륙하고 있다.

이 연구/주제가 지금 주목받는 이유 — 최근 미디어 보도, 빅테크·바이오테크 투자 동향, 글로벌 보건 정책 변화 등 대중적·비즈니스적 맥락과 연결해서 설명

빅테크의 전면 진입

2023년은 의료 이미지 Foundation Model의 원년이라 불릴 만하다. Google DeepMind는 Med-PaLM M을 발표하며 텍스트, 의료 영상, 유전체 데이터를 통합 처리하는 멀티모달 의료 AI의 포문을 열었다. Microsoft는 Azure Health Data Services를 확장하면서 대형병원과의 공동 연구 파이프라인을 구축 중이며, NVIDIA는 BioNeMo 플랫폼을 통해 의료 이미지 분석에 특화된 Foundation Model 훈련 인프라를 클라우드로 제공하고 있다.

Meta AI Research 역시 **Segment Anything Model(SAM)**을 공개하고, 이를 의료 영상에 적용하는 MedSAM 연구를 촉진시켰다. SAM은 단 하나의 프롬프트(클릭, 바운딩 박스)로 임의의 객체를 분할할 수 있는 구조로, 방사선 종양학에서 병변 세그멘테이션(segmentation)에 즉각 적용 가능성이 검토되었다.

투자 시장의 신호

글로벌 의료 AI 시장은 2023년 약 200억 달러 규모에서 2030년 1,880억 달러까지 성장할 것으로 예측된다(Grand View Research). 이 중 영상 진단 AI 분야는 가장 큰 비중을 차지하며, Foundation Model 기반 스타트업에 대한 벤처 투자가 집중되고 있다. Rad AI, Subtle Medical, Infer Medical 등이 시리즈 B·C 규모의 투자를 유치하였고, 기존의 태스크 특이적 AI 스타트업들은 Foundation Model 전략으로 피벗을 시도하고 있다.

규제 환경의 변화

미국 FDA는 2023년 의료 AI에 대한 규제 프레임워크 초안을 업데이트하며, 적응형 AI(adaptive AI) 및 연속 학습(continual learning) 모델에 대한 승인 경로를 구체화하기 시작했다. 한국도 식품의약품안전처가 인공지능 의료기기 허가·심사 가이드라인 개정판을 통해 멀티태스크 AI 제품에 대한 심사 기준을 마련 중이다. 이는 Foundation Model이 단순 연구 단계를 넘어 실제 인허가 단계로 진입하기 위한 제도적 기반이 만들어지고 있음을 의미한다.

핵심 분석 — 논문/기술의 방법론, 데이터, 주요 결과를 심층 분석

1. Foundation Model의 핵심 구조와 의료 영상 적용 원리

Foundation Model은 크게 세 가지 사전 훈련 패러다임으로 구분된다.

① Masked Image Modeling (MIM)
Vision Transformer(ViT) 기반으로, 입력 이미지의 일부 패치를 마스킹한 뒤 복원하는 방식으로 자기지도학습(self-supervised learning)을 수행한다. BEiT, MAE(Masked Autoencoders; He et al., 2022) 등이 대표적이며, 의료 영상에서는 병변 주변 패치의 문맥 이해 능력을 향상시키는 데 효과적임이 입증되었다.

② Contrastive Learning
두 개의 증강(augmentation)된 이미지가 같은 원본에서 왔을 경우 표현 공간에서 가깝게, 다를 경우 멀게 배치하는 방식이다. MoCo, SimCLR, DINO 등이 활용되며, 방사선 영상의 도메인 시프트(domain shift) 문제 완화에 유리하다.

③ Vision-Language Pre-training (VLP)
의료 영상과 방사선 판독 보고서를 쌍으로 구성하여 영상-텍스트 대조 학습을 수행한다. BioViL, CheXagent, LLaVA-Med 등이 이 범주에 속하며, 자연어 질의를 통한 이미지 분석(visual question answering)이 가능해진다.

2. 주요 랜드마크 논문 심층 분석

MedSAM: Segment Anything in Medical Images (Ma et al., 2024)

Nature Communications 에 게재된 이 연구는 Meta의 SAM을 의료 영상에 특화하여 미세조정한 모델이다. 훈련 데이터는 CT, MRI, 초음파, 내시경, 병리 슬라이드 등 11개 모달리티, 53개 병원, 약 100만 개 이상의 마스크-이미지 쌍으로 구성되었다. 결과적으로 MedSAM은 18개 임상 분류 작업에서 SAM 원본 대비 평균 Dice score 기준 17.0%p 향상을 보였으며, 일부 세그멘테이션 태스크에서는 전용 지도학습 모델과 동등하거나 우월한 성능을 보였다. 특히 희귀 질환이나 소량 데이터 상황에서 범용성이 뚜렷했다.

Universal and Extensible Language-Image Pretraining for Medical Images (ELIXR, Xu et al., 2023)

Google Research 팀이 발표한 이 연구는 흉부 X-ray를 중심으로 자연어 보고서와 영상을 결합한 Foundation Model이다. 제로샷(zero-shot) 분류, 시각적 질의응답(VQA), 의미론적 검색(semantic search) 등 9가지 이질적 태스크에서 단일 모델로 최고 수준 성능을 달성했다. 기존 지도학습 전용 모델 대비 절반 이하의 라벨 데이터로 동등한 성능을 구현, 데이터 효율성 측면에서 임상 적용 가능성을 강하게 뒷받침한다.

A Foundation Model for Generalizable Disease Detection from Retinal Images (RETFound, Zhou et al., 2023)

Nature에 게재된 이 연구는 안저 사진(fundus photograph)과 OCT(광간섭단층촬영) 이미지 약 160만 장을 비라벨 상태로 사전 훈련한 모델이다. 당뇨망막병증, 녹내장, AMD 등 여러 안과 질환 분류에서 기존 ResNet, ViT 기반 지도학습 모델을 능가하면서, 동시에 심부전, 심방세동, 뇌졸중까지 전신 질환 예측에도 전이 가능성을 보여주었다. 훈련에 사용된 안저 이미지가 망막 혈관의 전신 상태를 반영하기 때문이다. 이는 Foundation Model의 전이학습 잠재력이 단일 장기를 훨씬 초월할 수 있음을 시사한다.

3. 기술적 도전 과제

데이터 이질성(Data Heterogeneity): CT 촬영 프로토콜, MRI 시퀀스, 장비 제조사별 차이로 인해 단일 대규모 코퍼스 구축이 NLP보다 훨씬 복잡하다. DICOM 메타데이터 표준화만으로는 이미지 특성의 분포 차이를 완전히 해소하기 어렵다.

계산 자원(Computational Cost): ViT-Large 기반 Foundation Model의 훈련에는 A100 GPU 클러스터 기준 수천 GPU-hour가 소요된다. 이는 중소형 의료기관이 독자적으로 사전 훈련 모델을 구축하는 것을 사실상 불가능하게 만들며, 대형 플랫폼 의존성을 심화시킬 수 있다.

해석 가능성(Interpretability): Attention map, Grad-CAM 등 사후 설명 기법이 개발되어 있으나, Foundation Model의 수십억 파라미터 의사결정 과정을 임상의가 이해하고 신뢰하기에는 여전히 간극이 있다.

분포 이탈(Distribution Shift): 훈련 기관 외부 데이터에 대한 성능 저하(external validation gap)는 Foundation Model에서도 완전히 해결되지 않았다. 특히 소아, 희귀 인종 그룹, 저소득 국가 의료 영상 데이터의 과소 대표성은 형평성(equity) 문제로 직결된다.

임상·비즈니스 가치 — 실제 의료 현장 또는 헬스케어 시장에서의 적용 가능성과 한계

임상적 적용 가능성

응급의학과 관점: 응급실에서는 판독 속도와 우선순위화(triage)가 생명을 좌우한다. Foundation Model이 흉부 X-ray에서 긴장성 기흉, 대동맥 박리 의심 소견, 폐색전증 패턴을 동시에 스크리닝하고, 자연어로 결과를 보고하는 통합 워크플로우는 응급 영상의학의 병목을 근본적으로 해소할 수 있다. 실제로 복수의 연구에서 AI 보조 판독이 critical finding의 Time-to-Detection을 30~50% 단축했음이 보고되었다.

중환자의학 관점: ICU 환자의 매일 촬영되는 Portable CXR(이동식 흉부 X-ray)는 판독 우선순위에서 밀리기 쉬운 구조다. Foundation Model 기반 자동 판독 시스템이 기관튜브·중심정맥관 위치 확인, 폐부종 변화 트렌드, 새로 발생한 폐렴 침윤을 실시간으로 알림한다면, 야간 당직 인력 부족 환경에서 환자 안전망 역할을 할 수 있다.

의료 빅데이터 연구 관점: 전자의무기록(EMR)과 연동된 Foundation Model은 수십만 건의 미라벨 영상 데이터에서 새로운 표현형(phenotype)을 자동 발굴하는 데 활용될 수 있다. 코호트 구성, 병리학적 클러스터링, 치료 반응 예측 모델 개발의 전처리 비용을 획기적으로 줄일 수 있다.

비즈니스 모델과 시장 기회

Foundation Model은 의료 AI 산업의 경제 구조를 재편할 잠재력을 가진다. 과거에는 각 태스크마다 별도 모델 개발·검증·규제 승인 비용이 발생하는 선형 비용 구조였다면, Foundation Model은 한 번의 대규모 사전 훈련 후 다양한 다운스트림(downstream) 태스크에 적용되는 플랫폼 경제 구조를 가능하게 한다. 이는 임상 전문과별 특화 AI를 개발하는 스타트업과의 경쟁 구도를 바꾸며, 병원 시스템과의 장기 계약(enterprise contract) 중심의 B2B SaaS 모델로 이어질 수 있다.

한계와 리스크

규제 승인의 복잡성: 하나의 Foundation Model이 수십 가지 태스크를 수행한다면, 각 태스크에 대한 개별 검증이 필요한가, 아니면 모델 자체에 대한 단일 승인으로 충분한가? FDA와 식약처 모두 이 질문에 아직 명확한 답을 내리지 못하고 있다.

책임 소재의 불명확성: Foundation Model의 예측 오류로 인한 환자 피해 시, 모델 개발사·병원·담당의 간 법적 책임 배분 기준이 정립되지 않았다.

데이터 주권 및 프라이버시: 수억 건의 환자 영상 데이터를 활용한 사전 훈련 과정에서 HIPAA, GDPR, 개인정보보호법 준수는 필수이나, 연합학습(federated learning)만으로 Foundation Model 수준의 성능을 확보할 수 있는지는 여전히 연구 중이다.

임상의 수용성(Clinician Adoption): 아무리 뛰어난 모델이라도 영상의학과 의사, 임상의의 워크플로우에 자연스럽게 통합되지 않으면 실제 사용되지 않는다. UI/UX, 알림 피로도(alert fatigue), 법적 책임 우려는 기술 외적인 도전 요소다.

결론적으로, 의료 이미지 분야의 Foundation Model은 기술 성숙도 측면에서 이미 임계점을 넘고 있다. 남은 과제는 기술이 아니라 제도, 신뢰, 그리고 임상 현장과의 공진화(co-evolution)다. 이를 주도하는 플레이어가 향후 10년 글로벌 의료 AI 시장의 중심에 서게 될 것이다.

References

Ma J, He Y, Li F, Han L, You C, Wang B. Segment anything in medical images. Nat Commun. 2024;15:654. https://doi.org/10.1038/s41467-024-44824-z
Zhou Y, Chia MA, Wagner SK, Ayhan MS, Williamson DJ, Struyven RR, et al. A foundation model for generalizable disease detection from retinal images. Nature. 2023;622:156–163. https://doi.org/10.1038/s41586-023-06555-x
He K, Chen X, Xie S, Li Y, Dollár P, Girshick R. Masked autoencoders are scalable vision learners. Proc IEEE/CVF Conf Comput Vis Pattern Recognit. 2022:16000–16009. https://doi.org/10.1109/CVPR52688.2022.01553
Moor M, Banerjee O, Abad ZSH, Krumholz HM, Leskovec J, Topol EJ, et al. Foundation models for generalist medical artificial intelligence. Nature. 2023;616:259–265. https://doi.org/10.1038/s41586-023-05881-4
Bommasani R, Hudson DA, Adept E, Altman R, Arora S, Sydney V, et al. On the opportunities and risks of foundation models. arXiv. 2021. https://doi.org/10.48550/arXiv.2108.07258
Xu X, Paranhos Filipe J, Hamdieh K, Cheung C, Koh D, Shen D, et al. ELIXR: Towards a general purpose X-ray artificial intelligence system through alignment of large language models and radiology vision encoders. arXiv. 2023. https://doi.org/10.48550/arXiv.2308.01317
U.S. Food and Drug Administration. Artificial intelligence and machine learning (AI/ML)-enabled medical devices. FDA; 2023. https://www.fda.gov/medical-devices/software-medical-device-samd/artificial-intelligence-and-machine-learning-aiml-enabled-medical-devices (접속일: 2024년 11월 20일)
Grand View Research. Medical AI market size, share & trends analysis report. Grand View Research; 2023. https://www.grandviewresearch.com/industry-analysis/artificial-intelligence-ai-healthcare-market (접속일: 2024년 11월 20일)
식품의약품안전처. 인공지능(AI) 기반 의료기기의 허가·심사 가이드라인. 식품의약품안전처; 2023. https://www.mfds.go.kr (접속일: 2024년 11월 20일)