EHR 속 잠든 보물을 깨우다: 임상 NLP가 비정형 의무기록을 '진단 가능한 데이터'로 바꾸는 법

EHR 속 잠든 보물을 깨우다: 임상 NLP가 비정형 의무기록을 '진단 가능한 데이터'로 바꾸는 법

도입 — 미충족 수요 또는 배경 문제 제시

전자건강기록(EHR)에는 방대한 임상 정보가 저장되어 있다. 그러나 아이러니하게도, 그 정보의 상당 부분은 사실상 분석 불가능한 상태로 묻혀 있다. 의사의 진료 노트, 간호 기록, 응급실 초진 기록, 병리 보고서, 방사선 판독문 — 이 모든 텍스트는 구조화된 코드(ICD, CPT, LOINC)가 아닌, 자유 형식(free-text)으로 작성된 비정형 데이터다.

실제로 EHR에 저장된 임상 정보의 약 80%가 비정형 텍스트라는 추정이 반복적으로 인용된다. 혈압 수치나 검사 결과처럼 수치화된 데이터는 비교적 쉽게 분석할 수 있지만, "환자는 3일 전부터 악화되는 호흡곤란을 호소하며, 과거 심부전 병력이 있음"이라는 한 줄짜리 문장에서 유의미한 피처(feature)를 추출하는 것은 전통적인 통계 분석으로는 불가능하다.

이 문제는 단순히 연구의 불편함이 아니다. 임상 현장에서 의미 있는 결과들 — 패혈증의 조기 경고, 재입원 위험 예측, 약물 이상반응(ADE) 탐지, 희귀 질환의 표현형 분류(phenotyping) — 이 텍스트 정보 없이는 불완전하게 구현된다. 구조화 데이터만으로 만들어진 예측 모델은 실제 임상 복잡성의 절반밖에 보지 못하는 셈이다.

여기서 **임상 자연어처리(Clinical NLP)**가 등장한다. 하지만 임상 NLP는 일반 NLP와는 근본적으로 다른 도전을 안고 있다. 의료 텍스트는 축약어와 오타가 넘치고("SOB", "c/o", "Hx of"), 부정 표현이 임상적으로 치명적이며("흉통 없음"과 "흉통 있음"을 혼동하면 안 된다), 시간적 맥락("3년 전 진단"과 "현재 진행 중")이 의미를 완전히 뒤바꾼다. 그리고 무엇보다, 개인정보 보호라는 벽이 데이터 접근 자체를 어렵게 만든다.

이 글에서는 이 복잡한 문제를 최전선에서 풀어가고 있는 임상 NLP의 최신 기법들을 심층 분석하고, 그것이 의료 현장과 헬스케어 시장에서 어떤 가치를 창출하는지 살펴본다.


이 연구/주제가 지금 주목받는 이유

빅테크와 바이오테크의 집중 투자

2022~2024년 사이 임상 NLP 분야는 투자와 인수의 격전지가 됐다. Microsoft는 Nuance Communications를 약 197억 달러에 인수하며 의료 음성인식 및 임상 문서화 자동화 시장을 장악했고, Google Health는 Med-PaLM 2를 발표하며 의료 특화 대형 언어 모델(LLM) 경쟁에 불을 붙였다. **Amazon Web Services(AWS)**는 Amazon Comprehend Medical을 지속 업그레이드하며 클라우드 기반 임상 NLP API 시장을 선점하고 있다.

스타트업 생태계도 뜨겁다. Abridge(카네기멜런 대학 스핀오프)는 2024년 시리즈 C에서 1억 5,000만 달러를 유치하며 AI 앰비언트 임상 기록 솔루션의 선두주자로 부상했다. Suki AI, Nuance DAX, DeepScribe 등도 의사의 진료 대화를 실시간으로 구조화된 SOAP 노트로 변환하는 기술로 빠르게 성장 중이다.

ChatGPT 이후의 LLM 패러다임 전환

2022년 말 ChatGPT의 등장은 임상 NLP 연구자들에게 근본적인 질문을 던졌다: "GPT-4를 의료에 그냥 쓰면 안 되나?" 이에 대한 답은 "어느 정도는 되지만, 충분하지 않다"는 것이 현재의 컨센서스다. New England Journal of MedicineJAMA에는 2023~2024년에 걸쳐 LLM의 임상 성능을 평가하는 연구들이 쏟아졌고, 일반 LLM의 한계(환각, hallucination)와 도메인 특화 미세조정(fine-tuning)의 필요성이 반복적으로 강조됐다.

글로벌 보건 정책의 변화

미국 FDA는 2023년 AI/ML 기반 소프트웨어 의료기기(SaMD) 가이던스를 업데이트하며, NLP 기반 임상 의사결정 지원 도구의 규제 경로를 명확히 하기 시작했다. 유럽에서는 EU AI Act(2024년 발효)가 의료 AI를 '고위험' 시스템으로 분류하며 투명성과 설명 가능성(explainability) 요구를 강화했다. 국내에서도 **건강보험심사평가원(HIRA)**과 국민건강보험공단이 보유한 대규모 청구 데이터와 EHR을 연계하는 시도가 확대되고 있으며, 한국어 임상 NLP의 수요가 급증하고 있다.


핵심 분석 — 최신 임상 NLP 기법의 심층 분석

1. 임상 특화 사전학습 모델: BioBERT에서 GatorTron까지

BERT(Bidirectional Encoder Representations from Transformers)의 등장 이후, 임상 텍스트에 특화된 사전학습 모델들이 연이어 발표됐다.

BioBERT(Lee et al., 2020)는 PubMed 초록과 PMC 전문(full-text)으로 사전학습한 초기 모델로, 생의학 개체명 인식(NER)과 관계 추출(RE)에서 범용 BERT를 크게 뛰어넘었다. 이어 ClinicalBERT(Huang et al., 2019)는 MIMIC-III의 임상 노트로 미세조정하여 실제 EHR 텍스트에 더 특화된 표현을 학습했다.

현재 가장 주목받는 모델 중 하나는 GatorTron(Yang et al., 2022)이다. 플로리다 대학 UFHealth가 구축한 이 모델은 8,200만 명 이상의 환자 데이터에서 추출한 90억 단어 규모의 임상 텍스트로 학습된, 현재까지 공개된 임상 특화 모델 중 최대 규모(83억 파라미터)다. NLP 임상 벤치마크(NER, 관계 추출, 자연어 추론 등) 5개 중 5개 모두에서 기존 모델을 능가했다.

더 나아가 GatorTronGPT(Yang et al., 2023)는 생성형 버전으로, 임상 텍스트 생성과 질의응답에서 GPT-3.5를 임상 도메인 내에서 능가하는 성능을 보여줬다.

2. 부정 표현 및 시간성 처리: 임상 NLP의 핵심 난제

임상 노트에서 **부정(negation)**과 추측(speculation) 처리는 일반 NLP에서는 부차적인 문제이지만, 의료에서는 생사가 갈리는 문제다. "흉통을 부정함(denies chest pain)"과 "흉통 있음"을 혼동한 시스템은 심각한 오진을 유발할 수 있다.

NegEx(Chapman et al., 2001)는 이 문제를 처음 체계적으로 다룬 규칙 기반 알고리즘으로, 20년이 넘은 지금도 많은 파이프라인의 기준점(baseline)으로 사용된다. 이후 ConText(Harkema et al., 2009) 알고리즘은 부정뿐만 아니라 시간성(temporal context: 과거력, 현재, 가족력), 경험자(experiencer: 환자 본인 vs. 가족) 등 다차원 맥락을 함께 처리하는 프레임워크로 발전했다.

최신 딥러닝 기반 접근에서는 BioNLP 2024 공유 태스크(Shared Task) 결과들이 임상 이벤트의 시간적 관계를 그래프 신경망(GNN)과 트랜스포머를 결합하여 처리하는 방식이 주목을 받고 있다. 특히 임상 타임라인 추출은 만성질환 진행 모델링과 임상시험 코호트 구축에 핵심적 역할을 한다.

3. 명명된 개체 인식(NER)과 개념 정규화: UMLS와 SNOMED CT 연계

임상 NLP 파이프라인의 가장 기본이 되는 단계는 텍스트에서 임상 개체(질환, 약물, 처치, 검사 등)를 인식하고, 이를 표준 의학 온톨로지에 연결하는 것이다. 이 과정을 개념 정규화(concept normalization) 또는 **개체 연결(entity linking)**이라 한다.

cTAKES(Apache Clinical Text Analysis and Knowledge Extraction System)는 마요 클리닉이 개발한 오픈소스 임상 NLP 파이프라인으로, UMLS(Unified Medical Language System)와 연계하여 임상 텍스트를 구조화한다. 현재도 많은 기관에서 표준 파이프라인으로 활용된다.

최근에는 MedSpaCy, scispaCy, QuickUMLS 등 Python 기반 경량 라이브러리들이 연구자들 사이에서 빠르게 확산되고 있다. 특히 QuickUMLS는 UMLS의 330만 개 이상의 개념을 근사 문자열 매칭으로 빠르게 탐색할 수 있어 대용량 처리에 효율적이다.

트랜스포머 기반 접근에서는 BLINK(Wu et al., 2020)이나 BioEL 같은 신경망 기반 개체 연결 모델이 희귀 질환이나 신조어 처리에서 사전 매칭 방식을 능가하는 성능을 보인다.

4. 대형 언어 모델(LLM)의 임상 적용: 가능성과 한계

GPT-4는 USMLE(미국 의사면허시험) 기출문제에서 합격 점수를 넘겼고(Nori et al., 2023), 의학적 추론 능력 면에서 상당한 가능성을 보였다. 그러나 임상 NLP 실무에 바로 적용하기에는 몇 가지 심각한 한계가 있다.

첫째, 환각(hallucination) 문제. LLM은 존재하지 않는 약물 용량이나 가이드라인을 그럴듯하게 생성한다. 임상 문서화 자동화에서 이는 치명적이다.

둘째, 재현성(reproducibility) 문제. 동일한 프롬프트에도 다른 답변을 생성하며, 이는 FDA 승인을 위한 검증 가능성을 저해한다.

셋째, 개인정보 보호 문제. 클라우드 LLM API에 실제 환자 데이터를 전송하는 것은 HIPAA(미국), GDPR(EU), 개인정보보호법(한국) 위반 소지가 있다.

이에 대한 해법으로 온프레미스(on-premise) 배포 가능한 오픈소스 LLM의 임상 미세조정이 주목받고 있다. Llama 2, Mistral을 기반으로 한 MedAlpaca, BioMistral 등이 대표적이며, 기관 내 폐쇄망에서 환자 데이터를 처리할 수 있다. 2024년 발표된 BioMistral(Labrak et al., 2024)은 PubMed Central 데이터로 미세조정한 7B 파라미터 모델로, 여러 의료 NLP 벤치마크에서 GPT-3.5-turbo와 비슷하거나 앞서는 성능을 보이며 오픈소스 임상 LLM의 현실적 대안으로 제시됐다.

5. 검색 증강 생성(RAG)과 임상 지식 그래프의 결합

순수한 LLM의 한계를 극복하기 위해 **RAG(Retrieval-Augmented Generation)**와 **임상 지식 그래프(Clinical Knowledge Graph)**를 결합하는 하이브리드 아키텍처가 빠르게 확산 중이다.

RAG는 LLM이 답변을 생성할 때 실시간으로 관련 문서(진료 가이드라인, 약물 데이터베이스, 과거 유사 환자 기록)를 검색하여 맥락으로 제공함으로써 환각을 줄이는 방식이다. Microsoft의 BioGPT+RAG 파이프라인, NVIDIA의 BioNeMo 프레임워크 등이 이 방향의 대표적 산업계 구현 사례다.

임상 지식 그래프(예: PrimeKG, SPOKE)는 질환-유전자-약물-표현형 등의 관계를 구조화하여 LLM의 추론 정확도를 높이는 보조 지식 소스로 활용된다. 특히 희귀 질환 표현형 분류나 약물 재창출(drug repurposing) 연구에서 이 결합 방식의 효과가 보고되고 있다.

6. 한국어 임상 NLP의 현황

한국어 임상 텍스트는 추가적인 도전을 안고 있다. 교착어의 형태소 분석, 한영 혼재 의학 용어("BP 120/80, 환자 SOB 호소, 과거 HTN Hx"), 그리고 한국 특유의 기록 관행(보험 코딩 중심의 압축적 기록)이 맞물린다.

국내에서는 서울대병원, 서울아산병원, 세브란스병원 등 대형 병원들이 자체 임상 NLP 연구팀을 운영하며 한국어 임상 코퍼스 구축에 나서고 있다. **한국전자통신연구원(ETRI)**이 개발한 한국어 특화 BERT 기반 모델들과 NAVER의 HyperCLOVA를 임상 도메인에 적응시키는 연구도 진행 중이다. 그러나 공개 벤치마크 데이터셋의 절대적 부족이 여전히 최대 병목으로 지적된다.


임상·비즈니스 가치 — 적용 가능성과 한계

즉각적 적용 가능 영역

① 임상 코딩 자동화 (Clinical Coding Automation)
퇴원 요약지에서 ICD-10 코드를 자동 추출하는 NLP 시스템은 이미 상업화 단계에 진입했다. 3M Health Information Systems, Optum (UnitedHealth 계열), 국내의 비트컴퓨터, 유비케어 등이 관련 솔루션을 제공 중이다. 청구 오류 감소와 코딩 인력 비용 절감이 직접적 ROI로 측정된다.

② 약물 이상반응(ADE) 탐지
처방 데이터와 임상 노트를 결합한 NLP 기반 ADE 탐지 시스템은 전통적 자발적 보고 시스템(spontaneous reporting)보다 훨씬 높은 민감도를 보인다. FDA의 MedWatch 데이터만으로는 실제 ADE의 극히 일부만 파악 가능한 반면, EHR 기반 NLP는 수동적 감시를 능동적 약물 역학(pharmacoepidemiology)으로 전환시킨다.

③ 임상시험 코호트 자동 선별 (Trial Eligibility Matching)
임상시험 적격 기준(inclusion/exclusion criteria)을 자연어로 작성하면 NLP 시스템이 EHR에서 적합한 환자를 자동 탐색한다. TriNetX, Flatiron Health, Veeva Systems 등이 이 시장에서 활발히 경쟁 중이다. 임상시험 등록 기간과 비용을 획기적으로 줄일 수 있다는 점에서 바이오파마의 관심이 집중된다.

④ 앰비언트 임상 문서화 (Ambient Clinical Documentation)
진료실에서 의사와 환자의 대화를 실시간으로 인식, 요약하여 구조화된 노트를 자동 생성하는 기술이다. Nuance DAX Copilot(Microsoft), Abridge, Suki 등이 대표적이며, 의사의 번아웃(burnout)의 주요 원인으로 지목된 문서화 부담을 획기적으로 줄이는 솔루션으로 각광받고 있다. 2023년 기준 미국 의사의 평균 행정 문서 작성 시간은 주당 약 15~16시간으로, 이 시간의 절반만 줄여도 의료 시스템 전체의 생산성이 크게 향상된다.

시장 규모와 성장 전망

글로벌 임상 NLP 시장은 2023년 약 33억 달러 규모로 추정되며, 2030년까지 연평균 성장률(CAGR) 약 20% 이상으로 성장할 것으로 전망된다. 앰비언트 문서화, 임상 코딩 자동화, 약물 역학 분야가 성장을 주도할 것으로 분석된다.

극복해야 할 핵심 한계

① 데이터 접근성과 프라이버시
고품질 레이블 임상 코퍼스 구축에는 막대한 비용과 시간이 필요하며, 개인정보 보호 규정이 데이터 공유를 제한한다. **연합학습(Federated Learning)**과 합성 데이터(Synthetic Data) 생성이 이에 대한 기술적 해법으로 연구되고 있으나, 아직 임상 NLP에서의 검증은 초기 단계다.

② 편향(Bias)과 공정성(Fairness)
임상 NLP 모델은 학습 데이터의 편향을 그대로 증폭시킨다. 특정 인종, 언어, 사회경제적 집단이 과소 대표된 데이터로 학습된 모델은 해당 집단에서 성능 저하를 보인다. 이는 의료 불평등을 AI가 오히려 심화시킬 수 있다는 심각한 우려를 낳는다.

③ 설명 가능성(Explainability)과 신뢰
"이 환자가 재입원 고위험군"이라고 판단한 근거를 NLP 모델이 임상의에게 납득 가능하게 설명하지 못하면, 실제 진료 현장에서의 도입은 요원하다. EU AI Act는 이를 규제 요건으로 명시했다.

④ 임상 검증(Clinical Validation)과 규제 승인
연구 단계에서 뛰어난 성능을 보인 모델도, 실제 다기관 전향적 임상 검증에서 성능이 유의하게 저하되는 경우가 빈번하다. FDA와 식품의약품안전처(MFDS)의 SaMD 승인 경로는 NLP 기반 의사결정 지원 도구에 대해 아직 명확하지 않은 부분이 많아, 상업화 속도를 제한하고 있다.


References

  • Lee J, Yoon W, Kim S, Kim D, Kim S, So CH, et al. BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 2020;36(4):1234–40. https://doi.org/10.1093/bioinformatics/btz682

  • Yang X, Chen A, PourNejatian N, Shin HC, Smith KE, Parisien C, et al. GatorTron: A large clinical language model to unlock patient information from unstructured electronic health records. npj Digital Medicine. 2022;5(1):1–9. https://doi.org/10.1038/s41746-022-00742-2

  • Huang K, Altosaar J, Ranganath R. ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Readmission. arXiv preprint arXiv:1904.05342. 2019. https://doi.org/10.48550/arXiv.1904.05342

  • Nori H, King N, McKinney SM, Carignan D, Horvitz E. Capabilities of GPT-4 on Medical Challenge Problems. arXiv preprint arXiv:2303.13375. 2023. https://doi.org/10.48550/arXiv.2303.13375

  • Labrak Y, Bazoge A, Morin E, Gourraud PA, Rouvier M, Dufour R. BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains. arXiv preprint arXiv:2402.10373. 2024. https://doi.org/10.48550/arXiv.2402.10373

  • Harkema H, Dowling JN, Thornblade T, Chapman WW. ConText: An algorithm for determining negation, experiencer, and temporal status from clinical reports. J Biomed Inform. 2009;42(5):839–51. https://doi.org/10.1016/j.jbi.2009.05.002

  • Wu L, Petroni F, Josifoski M, Riedel S, Zettlemoyer L. Scalable Zero-shot Entity Linking with Dense Entity Retrieval. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020:6397–6407. https://doi.org/10.18653/v1/2020.emnlp-main.519

  • Savova GK, Masanz JJ, Ogren PV, Zheng J, Sohn S, Kipper-Schuler KC, et al. Mayo clinical Text Analysis and Knowledge Extraction System (cTAKES): architecture, component evaluation and applications. J Am Med Inform Assoc. 2010;17(5):507–13. https://doi.org/10.1136/jamia.2009.001560

  • Chapman WW, Bridewell W, Hanbury P, Cooper GF, Buchanan BG. A simple algorithm for identifying negated findings and diseases in discharge summaries. J Biomed Inform. 2001;34(5):301–10. https://doi.org/10.1006/jbin.2001.1029

  • US Food and Drug Administration. Artificial Intelligence and Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD) Action Plan. FDA; 2021. Available from: https://www.fda.gov/media/145022/download (Accessed: 2025 Jun 10)

  • European Parliament. Regulation (EU) 2024/1689 of the European Parliament and of the Council laying down harmonised rules on artificial intelligence (Artificial Intelligence Act). Official Journal of the European Union. 2024. Available from: https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=OJ:L_202401689 (Accessed: 2025 Jun 10)

Read more

임상 노트와 의료 영상을 동시에 읽는 AI — 멀티모달 진단 모델은 의사를 대체할 수 있을까?

임상 노트와 의료 영상을 동시에 읽는 AI — 멀티모달 진단 모델은 의사를 대체할 수 있을까?

도입 — 미충족 수요 또는 배경 문제 제시 응급실에서 흉통으로 내원한 65세 환자를 생각해보자. 담당 의사는 흉부 X선, 심전도, 혈액 검사 결과, 그리고 환자의 과거 병력이 기록된 수십 페이지의 의무기록을 동시에 검토해야 한다. 현실에서 이 과정은 수십 분이 걸리고, 피로하거나 과부하 상태의 의료진이라면 중요한 단서 하나를 놓칠 수도 있다. 의료 현장에서

By Cahn
AI가 백인 남성을 더 잘 진단한다면? 의료 AI 공정성 문제, 이제는 피할 수 없다

AI가 백인 남성을 더 잘 진단한다면? 의료 AI 공정성 문제, 이제는 피할 수 없다

도입 — 미충족 수요 또는 배경 문제 제시 2023년 미국 응급실에서 한 흑인 여성 환자가 흉통을 호소했다. 담당 의사는 AI 기반 위험도 예측 도구를 참고했고, 시스템은 '저위험'으로 분류했다. 그러나 이 환자는 결국 급성 심근경색으로 진단됐다. 이것은 단순한 의료 오류가 아니다. 해당 AI 모델이 훈련된 데이터셋에서 흑인 여성 환자의

By Cahn
Long COVID의 숨겨진 적: 면역계가 자신을 공격하고, 세포의 발전소가 꺼진다

Long COVID의 숨겨진 적: 면역계가 자신을 공격하고, 세포의 발전소가 꺼진다

도입 — 미충족 수요 또는 배경 문제 제시 전 세계 COVID-19 감염자 수가 7억 명을 넘어선 지금, 급성기를 무사히 넘긴 환자들 사이에서 전혀 예상치 못했던 '두 번째 위기'가 수면 위로 떠오르고 있다. 바이러스가 사라진 뒤에도 수개월 혹은 수년 동안 지속되는 피로감·인지 장애·호흡 곤란·자율신경 이상 등의

By Cahn
의료 데이터의 전쟁: AWS HealthLake vs. Azure Health Data Services, 어느 클라우드가 병원을 지배할 것인가?

의료 데이터의 전쟁: AWS HealthLake vs. Azure Health Data Services, 어느 클라우드가 병원을 지배할 것인가?

도입 — 미충족 수요 또는 배경 문제 전 세계 병원과 의료기관이 매일 생성하는 데이터의 양은 상상을 초월한다. 2020년 기준으로 글로벌 헬스케어 데이터는 약 2,314 엑사바이트(EB)에 달하며, 2025년까지 연평균 36%의 성장률로 폭발적으로 증가할 것으로 예측된다. 문제는 이 방대한 데이터의 대부분이 여전히 파편화된 레거시 시스템, 비표준화된 포맷, 상호운용 불가능한

By Cahn