AlphaFold3가 임상시험을 해체하고 있다 — AI 신약 개발이 "후보물질 → 환자" 속도를 10배 앞당기는 법

AlphaFold3가 임상시험을 해체하고 있다 — AI 신약 개발이 "후보물질 → 환자" 속도를 10배 앞당기는 법

도입 — 미충족 수요 또는 배경 문제

신약 하나를 시장에 내놓기까지 평균 10~15년, 비용은 약 26억 달러(Tufts CSDD 추정)가 든다. 그럼에도 불구하고 임상 3상까지 진입한 후보물질 중 약 90%가 실패한다. 실패의 주된 원인은 두 가지다: 표적 단백질의 3차원 구조에 대한 불완전한 이해, 그리고 적합한 환자 코호트를 선별하지 못하는 임상설계의 한계. 이 두 병목이 동시에 해결되지 않는 한, 신약 개발의 생산성 위기는 구조적으로 반복될 수밖에 없다.

2024년을 기점으로 이 방정식이 근본적으로 흔들리고 있다. 단백질 구조 예측을 넘어 단백질-리간드, 단백질-핵산, 항체-항원 복합체의 원자 수준 구조를 예측하는 AlphaFold3의 등장, 생성형 AI를 이용한 de novo 분자 설계, 그리고 임상시험 설계 자체를 최적화하는 AI 플랫폼이 파이프라인 전단부터 후단까지를 재편하고 있다. 이는 단순한 도구의 업그레이드가 아니라, 신약 개발의 인식론적 패러다임 전환이다.


이 연구/주제가 지금 주목받는 이유

미디어·빅테크·바이오테크의 집중 조명

2024년 5월, DeepMind는 Nature에 AlphaFold3 논문을 게재하면서 동시에 상업용 플랫폼 AlphaFold Server를 공개했다. 이 사건은 Science, The Economist, Financial Times의 1면을 장식했고, "단백질 구조 데이터베이스 PDB가 70년간 축적한 것보다 많은 구조를 단 며칠 만에 생성할 수 있다"는 헤드라인이 쏟아졌다.

투자 지형도 급변했다. Isomorphic Labs(DeepMind 스핀아웃)는 2024년 Eli Lilly, Novartis와 각각 최대 17억 달러, 12억 달러 규모의 AI 신약 개발 파트너십을 체결했다. Recursion Pharmaceuticals는 Nvidia와 5천만 달러 규모의 전략적 파트너십을 맺고 Hopper GPU 클러스터를 생물학적 표현 공간 탐색에 활용하고 있다. Xaira Therapeutics는 설립 직후 10억 달러 시리즈 A를 유치하며 생성형 AI 기반 신약 개발 분야 역대 최대 초기 투자 기록을 세웠다.

정책 전선에서도 변화가 감지된다. 미국 FDA는 2023~2024년에 걸쳐 AI/ML 기반 신약 개발 가이드라인 초안을 잇달아 발표했으며, EU는 "Pharma Legislation Reform" 패키지에서 AI 지원 임상시험 설계를 명시적으로 허용하는 조항을 포함시켰다. 2024년 노벨 화학상이 단백질 구조 예측·설계(Hassabis, Jumper, Baker)에 수여된 것은 이 흐름에 상징적 정점을 찍었다.


핵심 분석

1. AlphaFold3 — 구조 예측에서 상호작용 예측으로

**Abramson et al. (2024)**이 Nature에 발표한 AlphaFold3는 전작(AF2)과 질적으로 다른 도약을 이뤘다. AF2가 단일 단백질 구조 예측에 집중했다면, AF3는 확산 모델(diffusion model) 기반 통합 아키텍처를 채택하여 단백질, DNA, RNA, 소분자 리간드, 이온, 공유결합 변형(post-translational modification) 등 생체분자 전체를 하나의 프레임워크 안에서 처리한다.

핵심 성능 지표는 다음과 같다:

  • 단백질-리간드 결합 구조 예측: PoseBusters 벤치마크에서 기존 최고 성능 방법(Glide, Gnina 등) 대비 정확도 50% 이상 향상. 상업용 도킹 소프트웨어와의 격차가 통계적으로 유의미하게 확대됨.
  • 항체-항원 복합체: DockQ 점수 기준 AF3가 기존 방법 대비 평균 0.2 이상 우수, 특히 CDR-H3 루프 예측 정확도에서 두드러짐.
  • 단백질-핵산 복합체: RNA-단백질 상호작용 예측에서 최초로 PDB 구조와 직접 비교 가능한 수준의 정확도 달성.

임상적 함의: 표적 단백질의 결합 포켓 구조와 후보물질의 결합 모드를 원자 수준에서 예측할 수 있다면, in vitro 고처리량 스크리닝(HTS)의 규모를 대폭 축소하고 최적화 사이클을 단축할 수 있다. Isomorphic Labs는 자체 보고서에서 이 파이프라인을 통해 납 물질 발굴(lead discovery) 단계를 6~12개월 단축했다고 주장한다(단, 동료 심사 미완).

2. 생성형 AI를 이용한 de novo 분자 설계 — RFdiffusion과 ProteinMPNN

David Baker 그룹의 RFdiffusionProteinMPNN은 임상 파이프라인에 구체적으로 진입하기 시작했다. Watson et al. (2023)이 Nature에 발표한 RFdiffusion 논문은 단백질 백본을 조건부 확산 과정으로 생성하는 방법론을 제시했으며, 실험적으로 검증된 de novo 단백질 중 일부가 나노몰 수준의 결합 친화도를 보임을 보고했다. Design-then-screen 패러다임이 Generate-then-verify로 전환되는 흐름이다.

특히 주목할 것은 이중특이성 항체(bispecific antibody)분자 접착제(molecular glue) 설계에서의 활용이다. 전통적 방법으로는 설계 공간 탐색이 불가능했던 영역인데, AI 생성 모델이 이 미지의 화학 공간을 탐색 가능한 형태로 만들어주고 있다.

3. AI 기반 임상시험 설계 최적화

AI가 신약 개발 전단부만 아니라 임상시험 자체의 설계와 운영을 변환하고 있음을 보여주는 연구들이 최근 주요 저널에 등장하고 있다.

Coravos et al. 및 후속 연구들은 전자건강기록(EHR), 리얼월드 데이터(RWD), 바이오마커 데이터를 AI로 통합 분석하여 임상시험 적격 환자를 사전에 예측·식별하는 "디지털 트윈(digital twin) 대조군" 개념을 제안했다. FDA는 2024년 외부 대조군(external control arm) 지침에서 이러한 접근법을 조건부 허용하기 시작했다.

**플랫폼 임상시험(platform trial)**과 AI의 결합도 주목받는다. I-SPY 2, STAMPEDE, RECOVERY 등 적응형 임상시험(adaptive trial)에서 베이지안 적응 알고리즘이 이미 활용되고 있으며, 여기에 생성형 AI가 가설 공간을 확장하는 방향으로 융합이 진행 중이다.

4. 데이터 품질과 벤치마크의 문제

낙관적 서사에 균형을 잡아야 할 중요한 반론이 존재한다. Terwilliger et al. 및 구조생물학 커뮤니티의 여러 비평은 AF3의 훈련 데이터셋이 PDB에 과적합(overfitting)될 가능성, 결정학적 패킹 아티팩트(crystal packing artifact)를 진짜 구조로 학습했을 리스크, 그리고 "새로운" 표적 단백질 패밀리에 대한 일반화 성능의 불확실성을 지적한다. AI가 예측한 결합 구조가 실제 물리화학적 상호작용을 충실히 반영하는지는 여전히 실험적 검증이 필요하다.


임상·비즈니스 가치

가치

영역 구체적 임팩트
후보물질 발굴 속도 구조 기반 약물 설계 사이클 6~18개월 → 수 주로 압축 가능(초기 추정)
실패 비용 절감 구조 예측 기반 선제적 off-target 스크리닝으로 독성 시험 실패율 감소 기대
희귀질환·무시된 열대병 구조 데이터가 부족한 표적에 대한 AI 예측이 연구 진입장벽을 낮춤
바이오마커 기반 환자 층화 AI 멀티오믹스 통합 분석으로 반응군/비반응군 사전 예측 → 임상 성공률 제고
디지털 대조군 위약 투여 환자 수 감소 → 윤리적·경제적 효율성 향상

한계와 리스크

  1. 검증 격차(validation gap): 대부분의 AI 신약 개발 주장은 동료 심사된 임상 데이터가 아닌 계산적 벤치마크에 기반한다. 현재 AI-designed 약물이 실제 임상 3상을 완료한 사례는 전무하거나 극히 제한적이다.

  2. 데이터 편향: 훈련 데이터가 서구 인구 집단과 잘 연구된 단백질 패밀리에 집중되어 있어, 다양한 인구집단·신규 표적에서의 성능은 불확실하다.

  3. 규제 불확실성: FDA와 EMA 모두 AI 생성 후보물질에 대한 IND(임상시험계획) 승인 기준을 아직 확립하지 못했다.

  4. 지식재산권 분쟁: AlphaFold3의 상업용 라이선스 제한(비상업적 사용에만 무료)과 학습 데이터의 소유권 문제는 학계-산업계 협력에 마찰을 일으키고 있다.

  5. 과대 선전(hype) 리스크: Recursion, Insilico Medicine 등 AI-first 바이오텍이 임상 1~2상에서 겪고 있는 실패 사례들은 "AI라서 더 낫다"는 가설이 아직 임상적으로 증명되지 않았음을 시사한다.

비즈니스 전략적 시사점

헬스케어 플랫폼 기업 관점에서 이 흐름의 핵심 레버는 데이터 네트워크 효과다. 임상 데이터, 유전체 데이터, 구조 데이터를 통합한 플랫폼이 AI 모델의 학습 데이터로 피드백될 때 경쟁 해자(moat)가 형성된다. 국내 관점에서는 삼성서울병원·서울아산병원 수준의 임상 빅데이터를 보유한 기관이 글로벌 AI 신약 개발사와 데이터 파트너십을 맺는 전략이 현실적이다. 규제 샌드박스를 통한 디지털 대조군 허용, 범부처 신약개발사업단(KDDF)의 AI 파이프라인 지원 확대가 정책적 대응 방향이 될 수 있다.


References

Read more

임상 노트와 의료 영상을 동시에 읽는 AI — 멀티모달 진단 모델은 의사를 대체할 수 있을까?

임상 노트와 의료 영상을 동시에 읽는 AI — 멀티모달 진단 모델은 의사를 대체할 수 있을까?

도입 — 미충족 수요 또는 배경 문제 제시 응급실에서 흉통으로 내원한 65세 환자를 생각해보자. 담당 의사는 흉부 X선, 심전도, 혈액 검사 결과, 그리고 환자의 과거 병력이 기록된 수십 페이지의 의무기록을 동시에 검토해야 한다. 현실에서 이 과정은 수십 분이 걸리고, 피로하거나 과부하 상태의 의료진이라면 중요한 단서 하나를 놓칠 수도 있다. 의료 현장에서

By Cahn
AI가 백인 남성을 더 잘 진단한다면? 의료 AI 공정성 문제, 이제는 피할 수 없다

AI가 백인 남성을 더 잘 진단한다면? 의료 AI 공정성 문제, 이제는 피할 수 없다

도입 — 미충족 수요 또는 배경 문제 제시 2023년 미국 응급실에서 한 흑인 여성 환자가 흉통을 호소했다. 담당 의사는 AI 기반 위험도 예측 도구를 참고했고, 시스템은 '저위험'으로 분류했다. 그러나 이 환자는 결국 급성 심근경색으로 진단됐다. 이것은 단순한 의료 오류가 아니다. 해당 AI 모델이 훈련된 데이터셋에서 흑인 여성 환자의

By Cahn
Long COVID의 숨겨진 적: 면역계가 자신을 공격하고, 세포의 발전소가 꺼진다

Long COVID의 숨겨진 적: 면역계가 자신을 공격하고, 세포의 발전소가 꺼진다

도입 — 미충족 수요 또는 배경 문제 제시 전 세계 COVID-19 감염자 수가 7억 명을 넘어선 지금, 급성기를 무사히 넘긴 환자들 사이에서 전혀 예상치 못했던 '두 번째 위기'가 수면 위로 떠오르고 있다. 바이러스가 사라진 뒤에도 수개월 혹은 수년 동안 지속되는 피로감·인지 장애·호흡 곤란·자율신경 이상 등의

By Cahn
의료 데이터의 전쟁: AWS HealthLake vs. Azure Health Data Services, 어느 클라우드가 병원을 지배할 것인가?

의료 데이터의 전쟁: AWS HealthLake vs. Azure Health Data Services, 어느 클라우드가 병원을 지배할 것인가?

도입 — 미충족 수요 또는 배경 문제 전 세계 병원과 의료기관이 매일 생성하는 데이터의 양은 상상을 초월한다. 2020년 기준으로 글로벌 헬스케어 데이터는 약 2,314 엑사바이트(EB)에 달하며, 2025년까지 연평균 36%의 성장률로 폭발적으로 증가할 것으로 예측된다. 문제는 이 방대한 데이터의 대부분이 여전히 파편화된 레거시 시스템, 비표준화된 포맷, 상호운용 불가능한

By Cahn