임상 노트와 의료 영상을 동시에 읽는 AI — 멀티모달 진단 모델은 의사를 대체할 수 있을까?

Cahn

24 3월 2026 — 14 min read

도입 — 미충족 수요 또는 배경 문제 제시

응급실에서 흉통으로 내원한 65세 환자를 생각해보자. 담당 의사는 흉부 X선, 심전도, 혈액 검사 결과, 그리고 환자의 과거 병력이 기록된 수십 페이지의 의무기록을 동시에 검토해야 한다. 현실에서 이 과정은 수십 분이 걸리고, 피로하거나 과부하 상태의 의료진이라면 중요한 단서 하나를 놓칠 수도 있다. 의료 현장에서 진단 오류는 미국 기준 연간 40만 건 이상의 예방 가능한 사망과 연관된다는 추산이 있을 만큼 심각한 문제다.[1]

기존의 단일 모달리티(single-modality) AI 진단 모델은 이 문제를 부분적으로만 해결해왔다. 흉부 X선 판독 AI는 영상 이상 소견을 잘 탐지하지만, 해당 환자가 면역억제 상태인지, 이전에 결핵을 앓은 적이 있는지, 현재 어떤 증상을 호소하는지는 알지 못한다. 반대로 자연어처리(NLP) 기반 임상 노트 분석 AI는 텍스트 맥락을 파악하지만, 영상에서 직접 보이는 이상 소견을 통합하지 못한다.

**멀티모달 AI(Multimodal AI)**는 이 두 가지 정보 스트림을 하나의 모델 안에서 통합 처리함으로써 진단 정확도를 극적으로 향상시키려는 시도다. 텍스트, 이미지, 수치 데이터, 시계열 신호(예: 심전도, 활력징후)를 동시에 학습하고 추론하는 이 접근법은 현재 임상 AI 연구의 최전선에 있으며, 단순한 학문적 관심을 넘어 거대한 산업적·정책적 전환점을 맞이하고 있다.

이 연구/주제가 지금 주목받는 이유 — 최근 미디어 보도, 빅테크·바이오테크 투자 동향, 글로벌 보건 정책 변화 등 대중적·비즈니스적 맥락과 연결해서 설명

빅테크의 대규모 투자와 모델 공개

2023~2024년은 멀티모달 의료 AI의 원년이라 불러도 과언이 아니다. Google DeepMind는 2024년 Med-Gemini 시리즈를 공개하며, 의료 영상과 임상 텍스트를 동시에 처리하는 대형 멀티모달 모델이 방사선과 전문의 수준 혹은 그 이상의 성능을 일부 벤치마크에서 달성했다고 보고했다.[2] Microsoft는 Azure OpenAI 서비스를 병원 EHR(전자의무기록) 시스템인 Epic과 연동하는 파트너십을 확대했고, GPT-4V의 의료 영상 분석 가능성을 다수의 파일럿 프로젝트를 통해 검증 중이다.

스타트업 생태계도 빠르게 재편되고 있다. 영상 AI 전문 기업들(Rad AI, Aidoc, Nuance/Microsoft)은 기존 영상 판독 모델에 임상 맥락 정보를 추가하는 방향으로 제품 로드맵을 전환하고 있으며, 2024년 Rock Health 보고서에 따르면 멀티모달·파운데이션 모델 기반 헬스케어 AI 스타트업은 전체 디지털 헬스 투자의 약 28%를 차지했다.[3]

대형 언어 모델(LLM)의 의료화와 규제 변화

OpenAI GPT-4, Google Gemini, Meta LLaMA 계열 모델이 의료 도메인으로 확장되면서, 단순 텍스트 처리를 넘어 DICOM 영상, 병리 슬라이드, 내시경 영상 등을 함께 입력받는 모델이 연구 수준을 벗어나 실제 CE 마킹, FDA 510(k) 인허가 경쟁으로 접어들고 있다. FDA는 2023년 AI/ML 기반 의료기기 규제 프레임워크를 업데이트하며 연속학습(continuous learning)과 멀티모달 인풋을 가진 소프트웨어 의료기기(SaMD)에 대한 가이던스를 강화했다.[4]

국내에서도 식품의약품안전처가 2024년 AI 의료기기 허가·심사 가이드라인 개정안을 발표하고, 다중 입력 기반 AI 모델의 임상 시험 설계 기준을 명문화하기 시작했다. 의료 AI 도입에 소극적이었던 건강보험심사평가원(HIRA)도 AI 보조 판독에 대한 급여 코드 신설을 검토 중이라는 보도가 이어지고 있다.

의료 인력 부족이라는 구조적 수요

WHO는 2030년까지 전 세계 의료 인력 부족이 1,000만 명에 이를 것으로 전망한다.[5] 한국도 예외가 아니어서 2024년 의대 증원 갈등에서 드러났듯, 특히 영상의학과·병리과·응급의학과 등 판독·진단 집약 분야의 인력 공백은 멀티모달 AI 도입의 구조적 당위성을 만들어내고 있다.

핵심 분석 — 논문/기술의 방법론, 데이터, 주요 결과를 심층 분석

1. 아키텍처의 진화: 어떻게 두 언어를 동시에 읽는가

멀티모달 의료 AI의 핵심 기술 과제는 이질적 데이터 스트림을 공유된 표현 공간(shared embedding space)으로 통합하는 것이다. 현재 주요 아키텍처 패러다임은 크게 세 가지로 분류된다.

① 초기 융합(Early Fusion): 텍스트 토큰과 이미지 패치를 동일한 트랜스포머 인코더에 함께 입력하는 방식. BioViL-T(Microsoft Research)[6]가 대표적이며, 흉부 X선과 방사선 판독 보고서를 함께 사전학습(pre-training)하여 영상-텍스트 정렬(vision-language alignment)을 달성했다. MIMIC-CXR 데이터셋(22만 건 이상의 흉부 X선과 쌍을 이루는 방사선과 보고서)을 활용한 사전학습이 핵심이었다.

② 후기 융합(Late Fusion): 각 모달리티를 별도의 전문화된 인코더로 처리한 후 최종 레이어에서 결합하는 방식. 각 모달리티별 고성능 기반 모델(예: 영상은 ViT, 텍스트는 BERT 계열)을 그대로 활용할 수 있어 실용적이다.

③ 크로스 어텐션 기반 융합(Cross-Attention Fusion): 현재 가장 주목받는 방식으로, 텍스트 쿼리가 이미지의 특정 영역에 동적으로 주의(attention)를 기울이도록 설계된다. 예를 들어 "우하엽에 결절이 있는가?"라는 임상 질문이 CT 영상의 해당 부위 특징 맵에 집중적으로 연산을 수행하게 된다.

2. 랜드마크 연구들의 핵심 결과

RGRG / BioViL 계열 (흉부 X선 + 방사선 보고서): 2023년 Nature Medicine에 게재된 Bannur 등의 연구[6]에서, 영상-텍스트 멀티모달 모델은 영상 단독 모델 대비 14개 흉부 질환 분류에서 AUC를 평균 3~5% 향상시켰다. 특히 데이터가 부족한 희귀 소견에서 임상 텍스트 정보가 큰 기여를 했다.

LLaVA-Med / Med-Gemini (범용 의료 VQA): Google의 Med-Gemini[2]는 의료 영상 질의응답(VQA) 벤치마크인 VQA-RAD, PathVQA, SLAKE에서 GPT-4V를 포함한 기존 모델을 모두 상회하는 성능을 보고했다. 특히 Multi-step 임상 추론이 필요한 문제에서 우위가 두드러졌다.

CONCH (병리 + 임상 텍스트): 2024년 Nature Medicine에 발표된 Lu 등의 연구[7]는 44만 건 이상의 병리 슬라이드-텍스트 쌍을 사전학습한 CONCH 모델을 발표했다. 14개 암종 분류 태스크에서 기존 병리 전용 모델보다 일관되게 우수한 성능을 보였으며, 제로샷(zero-shot) 분류에서도 준수한 성능을 달성했다.

중환자실 멀티모달 모델 (EHR + 영상 + 시계열): MIT와 하버드 의대 공동 연구팀이 개발한 모델은 MIMIC-IV 데이터셋에서 흉부 X선, 임상 노트, 활력징후 시계열 데이터를 통합하여 ICU 내 48시간 사망률 예측에서 단일 모달리티 모델 대비 AUROC 0.87 대 0.82의 유의한 차이를 보였다.[8]

3. 멀티모달 통합의 실질적 이점이 극대화되는 임상 시나리오

임상 시나리오	멀티모달 통합의 핵심 기여
폐결절 악성도 평가	CT 영상 형태 + 흡연력·직업 노출 기록 + 이전 영상 추적 경과
응급 뇌졸중 분류	DWI MRI + 증상 발생 시간·NIHSS 점수 + 혈액응고 검사
병리 진단	H&E 슬라이드 + 면역조직화학 결과 텍스트 + 분자병리 보고서
패혈증 조기 경보	흉부 X선 + 활력징후 추이 + 검사실 수치 + 임상 경과 노트

임상·비즈니스 가치 — 실제 의료 현장 또는 헬스케어 시장에서의 적용 가능성과 한계

실제 적용 가능성

① 판독 워크플로우 증강: 영상의학과 및 병리과에서 AI가 관련 임상 정보를 자동으로 불러와 판독 보고서 초안에 맥락화된 소견을 제안하는 형태가 가장 현실적인 단기 적용 시나리오다. Nuance PowerScribe와 같은 기존 플랫폼에 멀티모달 기능이 통합되고 있다.

② 응급 트리아지 지원: 응급실 과부하 환경에서 멀티모달 AI는 영상, 검사, 증상 데이터를 실시간으로 통합하여 고위험 환자를 즉각 플래그하는 역할을 할 수 있다. 우리 연구팀의 예비 분석에서도 응급 흉통 환자의 MACE(주요 심혈관 사건) 예측에서 멀티모달 접근이 단일 모달리티 대비 유의미한 성능 개선을 보였다.

③ 희귀 질환 및 데이터 부족 상황: 텍스트 기반 임상 맥락은 레이블이 부족한 희귀 질환에서 영상 모델의 성능을 보완하는 데 매우 효과적이다. 이는 임상 시험 코호트가 작을 수밖에 없는 소아 희귀 질환이나 초희귀암에서 특히 가치가 크다.

해결해야 할 구조적 한계

① 데이터 정렬 문제(Data Alignment Problem): 실제 병원 EHR에서 영상과 임상 노트는 타임스탬프가 다르고, 구조화 정도도 다르며, 한국어·영어 혼용 등 언어적 불일치도 존재한다. 연구 환경에서 잘 정제된 MIMIC 데이터셋과 실제 임상 데이터 사이의 간극은 생각보다 크다.

② 해석 가능성(Explainability) 부재: 크로스 어텐션 기반 모델이 "왜" 이 영상의 이 부위와 이 텍스트를 연결지었는지 임상의가 이해하기 어렵다. FDA와 식약처 모두 고위험 의료 AI에 대한 설명 가능성 요구를 강화하는 추세여서, 규제 허들이 높다.

③ 편향(Bias)과 공정성: 사전학습 데이터가 특정 인종, 병원 유형, 장비 제조사에 편중될 경우, 멀티모달 모델은 단일 모달리티 모델보다 오히려 더 복잡한 방식으로 편향될 수 있다. 예를 들어 영상 편향과 텍스트 편향이 상호 강화될 위험이 있다.

④ 개인정보 보호 및 데이터 거버넌스: 텍스트와 영상을 동시에 다루는 모델 훈련에는 가장 민감한 의료 정보가 결합되므로, 연합학습(federated learning), 차분 프라이버시(differential privacy) 등의 기술적 보호 장치 없이는 다기관 데이터 수집 자체가 불가능에 가깝다.

⑤ 임상 검증의 공백: 현재 발표된 멀티모달 AI 논문 대부분은 후향적 검증에 그치며, 전향적 무작위 대조 임상 시험(RCT)을 통해 실제 환자 예후 개선을 입증한 연구는 극히 드물다. 상업화 전 전향적 임상 근거 축적이 시급하다.

비즈니스 로드맵 관점

시장 가치 측면에서 글로벌 의료 AI 시장은 2030년까지 1,870억 달러 규모로 성장할 것으로 전망되며, 멀티모달 세그먼트가 가장 빠른 성장률을 보일 것으로 예측된다.[9] 그러나 실질적인 수익화를 위해서는 영상 AI 단독 판매에서 EHR 통합 솔루션으로의 비즈니스 모델 전환이 필수적이며, 이는 Epic, Cerner(Oracle Health), 국내 의료정보시스템 업체들과의 긴밀한 연동이 전제된다. 병원 입장에서도 단순 판독 보조 도구를 넘어 **진단 의사결정 지원 플랫폼(Clinical Decision Support Platform)**으로서의 가치를 입증할 때 비로소 도입 예산 확보가 가능해진다.

결론적으로, 멀티모달 AI는 임상 AI의 다음 세대를 정의하는 패러다임이 맞다. 그러나 그 잠재력이 실제 환자에게 도달하기 위해서는 기술적 정교함만큼이나 엄밀한 임상 검증, 강건한 데이터 거버넌스, 그리고 임상의와의 신뢰 구축이 함께 요구된다. 의사를 대체하는 AI가 아니라, 의사가 놓칠 수 있는 맥락을 24시간 보완해주는 파트너로서의 역할—그것이 현 단계 멀티모달 의료 AI의 가장 현실적이고 정직한 가치 명제다.

References

Makary MA, Daniel M. Medical error—the third leading cause of death in the US. BMJ. 2016;353:i2139. https://doi.org/10.1136/bmj.i2139
Saab K, Cahid T, Tu T, et al. Capabilities of Gemini models in medicine. arXiv preprint. 2024. https://doi.org/10.48550/arXiv.2404.18416
Rock Health. Rock Health Annual Digital Health Funding Report 2024. Rock Health; 2024. Available from: https://rockhealth.com/insights/2024-year-end-digital-health-funding/ [접속일: 2025년 6월]
U.S. Food and Drug Administration. Artificial intelligence and machine learning (AI/ML)-enabled medical devices. FDA; 2023. Available from: https://www.fda.gov/medical-devices/software-medical-device-samd/artificial-intelligence-and-machine-learning-enabled-medical-devices [접속일: 2025년 6월]
World Health Organization. Health workforce projections: 10 million shortage by 2030. WHO; 2023. Available from: https://www.who.int/news-room/fact-sheets/detail/health-workforce [접속일: 2025년 6월]
Bannur S, Hyland S, Liu Q, et al. Learning to exploit temporal structure for biomedical vision-language processing. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2023:15016-15027. https://doi.org/10.1109/CVPR52729.2023.01442
Lu MY, Chen B, Williamson DFK, et al. A visual-language foundation model for computational pathology. Nat Med. 2024;30:863–874. https://doi.org/10.1038/s41591-024-02856-4
Hayat N, Geras KJ, et al. MERL: Multimodal Event Representation Learning in ICU with EHR, clinical notes, and chest X-rays. Proceedings of Machine Learning for Healthcare (MLHC). 2022. https://doi.org/10.48550/arXiv.2209.07196
Grand View Research. Artificial Intelligence in Healthcare Market Size Report, 2030. Grand View Research; 2024. Available from: https://www.grandviewresearch.com/industry-analysis/artificial-intelligence-ai-healthcare-market [접속일: 2025년 6월]