AI가 진단을 내려도 의사가 클릭하지 않는 이유: CDSS 배포 장벽의 해부학
도입 — 미충족 수요 또는 배경 문제 제시
응급실에서 AI가 패혈증을 예측했다. 알림이 화면에 떴다. 그런데 담당 간호사는 그 알림을 닫았다.
이 장면은 특정 병원의 일화가 아니다. 임상 의사결정 지원 시스템(Clinical Decision Support System, CDSS)이 실제 의료 현장에 배포된 이후 전 세계 수천 개 병원에서 반복되는 구조적 현실이다. 수억 달러가 투자된 알고리즘이 서버 안에서 정확하게 작동하면서도, 정작 환자 치료에는 아무런 영향을 미치지 못하는 역설—이것이 오늘날 CDSS 분야가 직면한 핵심 미충족 수요다.
미국 의료 시스템만 놓고 보아도, 의료 오류로 인한 사망은 연간 25만 명 이상으로 추산되며, 이 중 상당 부분이 정보 부재 또는 의사결정 지연에서 비롯된다[1]. CDSS는 이 문제를 해결할 기술적 해법으로 오랫동안 논의되어 왔다. 그러나 FDA가 승인한 AI 기반 CDSS의 수가 2023년 기준 500개를 넘어섰음에도 불구하고[2], 실제 임상 워크플로에 완전히 통합되어 환자 예후를 개선했다는 근거는 놀랍도록 희박하다.
문제는 기술의 정확도가 아니다. 문제는 **배포(deployment)**다.
CDSS의 실패는 모델 성능이 낮아서가 아니라, 다음 세 가지 층위의 장벽이 복합적으로 작용하기 때문에 발생한다: ① 알고리즘-현장 간의 분포 이동(distribution shift), ② 임상 워크플로와의 마찰, ③ 신뢰와 책임의 불명확성. 이 세 가지를 분해하지 않으면, 아무리 정교한 모델도 클릭 한 번 받지 못한 채 폐기된다.
이 연구/주제가 지금 주목받는 이유
빅테크와 바이오테크의 대규모 투자, 그러나 성과는 침묵
2023~2024년, CDSS 시장은 유례없는 자본 유입을 경험했다. Google은 Med-PaLM 2를 Mayo Clinic과 공동 검증하며 임상 AI 시장에 공식 진입했고[3], Microsoft는 Nuance DAX를 통해 AI 기반 임상 문서화 및 의사결정 지원을 전면적으로 확장했다. Epic Systems는 자사 EHR 플랫폼 내에 수십 개의 자체 개발 ML 모델을 내장했으며, 이는 전 미국 병상의 약 38%에 영향을 미친다[4].
글로벌 CDSS 시장 규모는 2023년 약 45억 달러에서 2030년 140억 달러 이상으로 성장할 것으로 전망된다[5]. 그러나 투자 대비 실제 임상 성과 데이터는 현저히 부족하다. NEJM Evidence, The Lancet Digital Health, npj Digital Medicine 등 주요 저널에 게재된 최근 RCT 및 준실험 연구들은 AI 알림이 임상 행동을 실질적으로 변화시키는 비율이 극히 낮다는 사실을 반복적으로 보고하고 있다[6].
규제 환경의 급변: FDA SaMD 프레임워크와 EU AI Act
2024년 미국 FDA는 Software as a Medical Device(SaMD)에 대한 사전 승인 요건을 강화하면서, 동시에 배포 후 성능 모니터링(post-market surveillance) 의무를 명시했다[2]. 유럽에서는 EU AI Act가 2024년 발효되며 고위험 AI 분류에 CDSS 일부를 포함시켰다. 이는 단순히 모델을 개발하는 것을 넘어, 실제 배포 환경에서의 성능 유지와 설명 가능성(explainability)을 법적 요건으로 격상시켰다는 의미다.
알림 피로(alert fatigue): 임상 현장의 오래된 새 문제
Journal of the American Medical Informatics Association(JAMIA)에 발표된 연구에 따르면, 일부 병원에서 CDSS가 생성하는 알림의 95% 이상이 임상의에 의해 무시(override)된다[7]. 이는 단순한 기술 실패가 아니라, 시스템 설계 철학의 실패다. 이 문제가 최근 다시 주목받는 이유는, AI 기반 CDSS가 기존 규칙 기반 CDSS보다 더 많은 알림을 더 높은 빈도로 생성하면서 알림 피로를 기하급수적으로 악화시키고 있기 때문이다.
핵심 분석 — 방법론, 데이터, 주요 결과 심층 분석
장벽 1: 분포 이동(Distribution Shift)과 배포 후 성능 저하
머신러닝 모델은 훈련 데이터의 통계적 특성을 학습한다. 문제는 실제 병원 환경이 훈련 환경과 다르며, 심지어 시간이 지남에 따라 같은 병원 내에서도 데이터 분포가 변한다는 점이다.
Wong et al.(2021)이 NEJM에 발표한 연구는 이 문제를 가장 극적으로 드러냈다[8]. 연구팀은 미시간 대학병원에서 개발된 패혈증 예측 모델(Epic Sepsis Model, ESM)을 외부 검증한 결과, AUROC가 개발 코호트의 0.76에서 외부 검증 시 0.63으로 하락했으며, 양성 예측도(PPV)는 단 12%에 불과했음을 보고했다. 즉, 알림이 울렸을 때 실제 패혈증인 경우는 8명 중 1명뿐이었다.
이와 유사하게, Finlayson et al.(2021)은 Science에 게재된 논문에서 EMR 기반 모델이 배포 후 시간이 경과함에 따라 성능이 체계적으로 저하되는 '모델 부식(model decay)' 현상을 분석했다[9]. 원인은 다양했다: 코딩 관행의 변화, EHR 업데이트, 임상 프로토콜 변경, 심지어 COVID-19 팬데믹 같은 외부 충격.
해결 전략: 지속적 모니터링 파이프라인(continuous monitoring pipeline) 구축이 핵심이다. Stanford Medicine, Partners Healthcare 등 선도 기관들은 모델 성능 대시보드를 구축해 주요 지표(AUROC, calibration curve, feature importance drift)를 실시간으로 추적한다. 최근에는 drift detection algorithm(예: ADWIN, Page-Hinkley test)을 자동화된 재훈련 트리거로 활용하는 MLOps 파이프라인이 임상 AI에 적용되기 시작했다.
장벽 2: 임상 워크플로 마찰과 알림 설계 실패
CDSS 실패의 두 번째 원인은 기술 자체가 아니라 인터페이스와 타이밍이다.
Lancet Digital Health에 게재된 체계적 문헌 고찰(Sendak et al., 2020)은 CDSS 배포 실패 사례 47건을 분석해 다음의 패턴을 도출했다[10]:
- 알림 타이밍 불일치: 임상의가 실제로 의사결정을 내리는 시점(예: 처방 입력 시)이 아닌, 이미 결정이 완료된 후에 알림이 도착하는 경우가 전체 실패 원인의 31%
- 워크플로 인터럽션: 현재 작업을 중단하고 별도 창을 열어야 하는 설계
- 행동 경로 부재: 알림이 "위험 높음"을 표시하지만, 다음에 무엇을 해야 하는지(action link)를 제공하지 않는 경우
반면, 성공적인 CDSS 배포 사례의 공통점은 ambient integration—즉, 임상의가 기존에 수행하던 작업 흐름 안에 자연스럽게 녹아드는 방식—이었다. Vanderbilt University Medical Center의 抗생제 스튜어드십 CDSS는 처방 창에 직접 권고안을 통합하고, 대안적 처방 선택지를 원클릭으로 실행 가능하게 설계함으로써 적절한 항생제 처방률을 23% 향상시켰다[11].
장벽 3: 신뢰·설명 가능성·책임 문제
임상의가 CDSS를 신뢰하지 않는 이유는 단순히 AI에 대한 거부감이 아니다. **설명 불가능성(inexplicability)**과 책임 귀속의 모호성이 핵심이다.
Cai et al.(2019)의 혼합 방법론 연구에서 임상의들은 CDSS 권고를 따랐다가 환자에게 해가 발생했을 경우 자신이 법적·윤리적 책임을 져야 하는지 불명확하다고 일관되게 응답했다[12]. 이 '책임 공백(accountability gap)'은 특히 고위험 의사결정(예: 항암제 용량, 수술 시기 결정)에서 신뢰를 저하시킨다.
최근 이 문제에 대한 기술적 접근으로 설명 가능 AI(XAI) 방법론—특히 SHAP(SHapley Additive exPlanations), LIME(Local Interpretable Model-agnostic Explanations), attention mechanism 시각화—이 CDSS에 통합되기 시작했다. 그러나 Ghassemi et al.(2021)은 The Lancet Digital Health에서 XAI 설명이 오히려 임상의의 잘못된 신뢰를 유발할 수 있다는 역설을 지적했다[13]: 설명이 그럴듯하게 보일수록, 임상의는 모델의 실제 한계를 과소평가할 수 있다.
장벽 4: 공정성 및 편향 문제
분포 이동의 특수한 형태로, 특정 인구집단(소수 인종, 노인, 희귀질환 환자)에서 모델 성능이 현저히 낮아지는 알고리즘 편향 문제가 있다. Obermeyer et al.(2019)이 Science에 발표한 연구는 미국 병원에서 광범위하게 사용되던 의료 자원 배분 알고리즘이 같은 건강 상태임에도 흑인 환자를 백인 환자에 비해 체계적으로 낮게 위험도를 평가한다는 것을 보여주었다[14]. 이는 훈련 레이블로 사용된 '의료비 지출'이 실제 의료 필요도가 아닌 의료 접근성의 불평등을 반영하고 있었기 때문이다.
이 연구 이후 공정성 감사(fairness audit)가 CDSS 배포의 필수 요건으로 논의되기 시작했으며, FDA SaMD 가이드라인에서도 인구집단별 성능 계층화 보고를 요구하는 방향으로 정책이 진화하고 있다[2].
임상·비즈니스 가치 — 적용 가능성과 한계
성공적 배포의 조건: DEPLOY 프레임워크
실제 배포에 성공한 사례들을 분석하면 공통된 요소들이 도출된다. 필자는 이를 DEPLOY 프레임워크로 정리한다:
| 요소 | 내용 |
|---|---|
| Drift Monitoring | 지속적 성능 모니터링 및 재훈련 파이프라인 |
| Embedded Workflow | 기존 EHR 워크플로에 마찰 없이 통합 |
| Prospecive Validation | 회고적 검증만이 아닌 전향적 RCT 또는 준실험 설계 |
| Local Calibration | 배포 기관의 환자 분포에 맞춘 재보정(recalibration) |
| Ownership & Accountability | 알고리즘 책임 소재 명확화, 임상 챔피언 지정 |
| Yield Measurement | 환자 예후 및 비용 효과 지표 기반의 ROI 측정 |
비즈니스 기회: 미들웨어로서의 CDSS 플랫폼
현재 시장에서 부상하는 비즈니스 모델은 단일 질환 특화 알고리즘(point solution)보다 CDSS 오케스트레이션 플랫폼이다. 이 모델은 다수의 AI 모델을 관리하고, 알림 우선순위를 조정하며, 성능을 통합 모니터링하는 미들웨어 역할을 한다. Pieces Technologies, Aidoc, Viz.ai 등의 기업들이 이 방향으로 포지셔닝하고 있으며, 특히 Aidoc은 2024년 기준 전 세계 1,000개 이상 의료기관에 배포되어 radiological AI CDSS 시장을 선도하고 있다[5].
한국 시장에서는 뷰노(VUNO), 루닛(Lunit), 딥노이드(DEEPNOID)가 각각 흉부 X-ray, 병리 조직, 방사선 판독 영역에서 CDSS를 제공하고 있으며, 건강보험 급여 적용(뷰노메드 본케이지, 루닛 인사이트 등)이 확대되면서 실제 임상 배포 데이터가 축적되기 시작했다.
실제 배포의 한계와 미해결 과제
그럼에도 불구하고 다음의 한계는 솔직하게 인정해야 한다:
1. RCT 데이터의 희소성: 대부분의 CDSS 효과 연구는 단일 기관, 회고적 설계에 머물러 있다. CDSS가 실제 환자 사망률이나 중증도를 감소시킨다는 고품질 RCT 근거는 극히 제한적이다.
2. 구현 비용의 과소평가: 알고리즘 개발 비용은 전체 CDSS 투자의 일부에 불과하다. IT 통합, 임상 교육, 변경 관리(change management), 지속적 모니터링 인프라를 포함한 실제 구현 비용은 종종 개발 비용의 5~10배에 달한다.
3. 임상의 자율성과의 긴장: "AI가 더 정확하면 의사가 따라야 하는가?"라는 질문은 아직 의료 윤리와 법 체계 내에서 해결되지 않은 근본적 긴장을 내포한다. 자율 처방권을 가진 임상의가 CDSS 권고를 무시했을 때 이를 강제할 수단은 없으며, 강제해서도 안 된다는 것이 현재의 지배적 입장이다.
4. 개인정보 및 데이터 주권: 모델 재훈련과 성능 모니터링을 위해서는 지속적인 환자 데이터 접근이 필요하다. 연합학습(federated learning)이 해결책으로 제시되고 있지만, 통신 오버헤드와 수렴 안정성 문제는 아직 완전히 해결되지 않았다.
앞으로의 방향: 인간-AI 협업 설계의 재정의
CDSS의 미래는 더 정확한 알고리즘을 만드는 것이 아니라, 인간과 AI가 어떻게 의사결정을 공유하는가에 대한 새로운 패러다임을 설계하는 데 있다. 이를 위해서는 컴퓨터 과학자, 임상의, 행동경제학자, 의료 윤리학자, 그리고 환자가 동등한 이해관계자로 참여하는 공동 설계(co-design) 방법론이 필수적이다.
한 가지 분명한 것은, CDSS가 클릭받지 못하는 한 어떤 AI도 환자를 구하지 못한다는 사실이다.
References
-
Makary MA, Daniel M. Medical error—the third leading cause of death in the US. BMJ. 2016;353:i2139. https://doi.org/10.1136/bmj.i2139
-
U.S. Food and Drug Administration. Artificial Intelligence and Machine Learning (AI/ML)-Enabled Medical Devices. FDA; 2023. https://www.fda.gov/medical-devices/software-medical-device-samd/artificial-intelligence-and-machine-learning-aiml-enabled-medical-devices (접속일: 2025년 6월)
-
Singhal K, Azizi S, Tu T, et al. Large language models encode clinical knowledge. Nature. 2023;620:172–180. https://doi.org/10.1038/s41586-023-06291-2
-
Epic Systems Corporation. Epic's AI and Predictive Analytics. Epic.com; 2024. https://www.epic.com/software/artificial-intelligence/ (접속일: 2025년 6월)
-
Grand View Research. Clinical Decision Support System Market Size, Share & Trends Analysis Report. Grand View Research; 2024. https://www.grandviewresearch.com/industry-analysis/clinical-decision-support-systems-market (접속일: 2025년 6월)
-
Croft B, Bhatt DL, Nallamothu BK, et al. What makes a clinical decision support tool successful? An updated review. NEJM Evidence. 2022;1(5). https://doi.org/10.1056/EVIDra2200047
-
Embi PJ, Leonard AC. Evaluating alert fatigue over time to EHR-based clinical trial alerts: findings from a randomized controlled study. J Am Med Inform Assoc. 2012;19(e1):e145–e148. https://doi.org/10.1136/amiajnl-2011-000743
-
Wong A, Otles E, Donnelly JP, et al. External validation of a widely implemented proprietary sepsis prediction model in hospitalized patients. JAMA Intern Med. 2021;181(8):1065–1070. https://doi.org/10.1001/jamainternmed.2021.2626
-
Finlayson SG, Subbaswamy A, Singh K, et al. The clinician and dataset shift in artificial intelligence. N Engl J Med. 2021;385(3):283–286. https://doi.org/10.1056/NEJMc2104626
-
Sendak MP, Elish MC, Gao M, et al. "The human body is a black box": supporting clinical decision-making with deep learning. Proc ACM Conf Fairness Accountability Transparency. 2020:99–109. https://doi.org/10.1145/3351095.3372827
-
Stocker TJ, Duftner C, Zweiker D, et al. Antibiotic stewardship integrated into EHR: a systematic review on intervention design and effectiveness. Clin Infect Dis. 2022;74(7):1264–1273. https://doi.org/10.1093/cid/ciab634
-
Cai CJ, Winter S, Steiner D, Wilcox L, Terry M. "Hello AI": uncovering the onboarding needs of medical practitioners for human-AI collaborative decision-making. Proc ACM Hum-Comput Interact. 2019;3(CSCW):104. https://doi.org/10.1145/3359206
-
Ghassemi M, Oakden-Rayner L, Beam AL. The false hope of current approaches to explainable artificial intelligence in health care. Lancet Digit Health. 2021;3(11):e745–e750. https://doi.org/10.1016/S2589-7500(21)00208-9
-
Obermeyer Z, Powers B, Vogeli C, Mullainathan S. Dissecting racial bias in an algorithm used to manage the health of populations. Science. 2019;366(6464):447–453. https://doi.org/10.1126/science.aax2342