2021년 9월, Paige Prostate가 병리학 최초의 AI FDA 승인(De Novo)을 받았다. 위음성을 70% 줄인 이 소프트웨어는 이후 파운데이션 모델 Virchow로 진화하고, 2025년 8월 Tempus AI에 $81.25M에 인수됐다. 2026년 1월에는 H&E 슬라이드 하나로 123개 바이오마커를 예측하는 Paige Predict가 출시됐다. 디지털 병리 AI의 탄생부터 인수합병까지, 임상 유효성이 어떻게 쌓였고 어디서 한계에 부딪히는지 추적한다.

병리의가 슬라이드를 보는 방식
병리 진단의 표준 워크플로우를 따라가 보자. 환자에게서 조직을 떼어낸다(생검). 이 조직을 포르말린에 고정하고 파라핀에 포매(embedding)한 뒤, 마이크로톰으로 4~5μm 두께로 잘라 유리 슬라이드 위에 올린다. 헤마톡실린과 에오신(H&E)으로 염색하면 세포핵은 보라색, 세포질과 결합조직은 분홍색으로 물든다. 병리의는 이 슬라이드를 현미경에 올려놓고 눈으로 읽는다. 150년 넘게 이어진 방식이다.
전립선암 진단을 예로 들어보자. 비뇨기과에서 12-core 생검을 시행하면 슬라이드가 수십 장 나온다. 병리의는 각 슬라이드를 현미경으로 훑으며 암 조직이 있는지 찾고, 있다면 Gleason 등급을 매긴다. 슬라이드 하나에 5~15분. 하루에 수십 건의 케이스를 소화해야 하는 병리의에게 전립선 생검은 가장 흔하면서도 가장 시간을 잡아먹는 업무다.
문제는 사람 눈의 한계다. Gleason 등급 판정에서 병리의 간 일치율을 측정한 연구들이 있다. 주 패턴(primary pattern)의 일치율이 63.96%(κ=0.34), 부 패턴(secondary pattern)이 63.45%(κ=0.37). Gleason 합산 점수(sum)의 일치율은 57.9%(κ=0.43)에 그친다. 비뇨기 병리 전문의(uropathologist)끼리 비교해도 가중 카파가 0.67 수준이다. 같은 슬라이드인데 전문가마다 판단이 갈린다. 환자 입장에서는 누가 읽느냐에 따라 등급이 달라지는 셈이다.
이건 병리의 역량 문제가 아니다. Gleason 패턴 자체가 경계가 모호한 연속 스펙트럼이기 때문이다. 패턴 3과 4의 경계, 크리브리폼(cribriform) 패턴의 분류는 세계 최고 전문가들도 의견이 갈리는 영역이다.
미국에서 전립선암은 남성 암 발생 2위다. 연간 28만 건 이상이 새로 진단되고, 사실상 모든 진단에 생검 조직의 Gleason 등급 판정이 수반된다. 판독할 슬라이드는 늘어나는데, 병리의는 줄고 있다. 미국 내 활동 중인 병리의는 약 18,000명이고, AAMC 추산으로 30%가 2030년까지 은퇴한다. 병리과 레지던트 매칭은 연간 600명 수준에 정체돼 있다. 인력 충원으로 풀리지 않는 구조적 병목이다.
이 배경에서 디지털 병리가 등장한다. 유리 슬라이드를 고해상도 스캐너로 디지털 이미지(Whole Slide Image, WSI)로 변환하고, 이 이미지를 AI가 분석하는 것이다. Philips IntelliSite, Leica Aperio, Hamamatsu NanoZoomer 같은 스캐너가 슬라이드를 디지털화하면, 그 위에 Paige, PathAI, Ibex 같은 AI 소프트웨어가 올라간다. 하드웨어(스캐너)와 소프트웨어(AI)가 분리된 구조다.
시장 규모를 보면, 2026년 기준 디지털 병리 이미지 분석이 $4.58억, AI 병리 시장이 $1.74억이다. AI 병리 시장은 2034년 $10.75억까지 연평균 25.56% 성장이 예상된다. 숫자만 보면 가파르지만, 현실은 아직 초기 단계에 가깝다. FDA가 승인한 WSI 시스템이 7개에 불과하고, 소규모 병리 검사실의 디지털 전환율은 33% 수준이다. 스캐너 한 대에 $20만~50만, 엔터프라이즈 구축에 $100만 이상이 드는 비용 장벽도 넘어야 한다.

Paige Prostate: 최초 De Novo 승인의 의미
2021년 9월 21일, Paige Prostate가 FDA De Novo 승인(DEN200080)을 받았다. 디지털 병리 분야에서 AI 제품이 FDA 승인을 받은 것은 이것이 처음이다. De Novo 경로를 택한 것은, 비교 대상이 되는 기존 인허가 제품(predicate device)이 없었기 때문이다. 문자 그대로 "새로운 유형"의 의료기기였다.
Paige AI는 2017년 메모리얼 슬론 케터링 암센터(MSKCC) 스핀오프로 설립됐다. 창업자 Thomas Fuchs는 ETH Zurich에서 머신러닝 박사학위를 받고, NASA 제트추진연구소(JPL)에서 연구원으로 근무한 뒤 MSKCC 전산병리학 연구소 소장을 맡았다. 공동 창업자 David Klimstra는 예일 의대 병리학 교수다. 우주와 암센터에서 온 두 사람이 병리 AI를 만들었다.
Paige Prostate의 FDA 임상시험은 이런 구조였다. 16명의 병리의가 527장의 전립선 생검 슬라이드(171장 암, 356장 양성)를 읽었다. 슬라이드는 150개 이상의 기관에서 수집됐다. 각 병리의는 동일한 슬라이드를 두 번 읽었는데, 한 번은 AI 보조 없이(unassisted read), 한 번은 Paige Prostate의 보조를 받으며(assisted read) 판독했다.
결과는 분명했다. 암 검출 민감도가 89.5%에서 96.8%로 7.3 퍼센트포인트 상승했다. 위음성(false negative)이 70% 감소하고, 위양성(false positive)이 24% 감소했다. 위음성 70% 감소가 특히 중요한데, 전립선 생검에서 위음성은 치료 시점을 직접 늦추기 때문이다. 미세한 암 병소(small foci)를 놓치면 다음 생검까지 수개월에서 1년을 기다려야 한다.
이 승인의 의미는 단순히 "첫 번째"라는 상징 이상이다. De Novo 경로로 새로운 제품 코드가 만들어지면, 후속 제품들은 이를 predicate로 삼아 510(k) 경로로 더 빨리 시장에 진입할 수 있다. 실제로 Paige Prostate 이후 PathAI Prostate(2026년 2월 510(k)), Ibex Prostate Detect 등 후발 제품들이 속속 승인을 받았다. Paige가 길을 닦은 것이다.

Virchow: 병리 AI의 파운데이션 모델
Paige Prostate는 전립선 생검이라는 특정 과업에 맞춰 훈련된 모델이었다. 전립선암은 잘 잡지만 유방암이나 폐암 슬라이드에는 쓸 수 없다. 이 한계를 넘기 위해 Paige가 택한 전략은 파운데이션 모델(foundation model)이다. 대규모 데이터로 병리 이미지의 일반적 특성을 학습한 뒤, 개별 과업에 미세 조정(fine-tuning)하는 접근이다.
2024년 7월, Nature Medicine에 Virchow 논문이 발표됐다. 19세기 세포병리학의 아버지 Rudolf Virchow에서 이름을 따왔다. Vision Transformer(ViT-H) 아키텍처를 기반으로, 1.5백만 장의 WSI(10만 명 환자)로 사전 학습(pre-training)했다. ImageNet의 3,000배가 넘는 픽셀 수다.
결과가 눈에 띄었다. 9가지 흔한 암과 7가지 희귀암을 포함한 범암종(pan-cancer) 검출에서 슬라이드 수준 AUC 0.95를 달성했다. 기존에는 암종별로 별도 모델을 훈련해야 했는데, 하나의 파운데이션 모델이 여러 암을 동시에 검출한 것이다. 희귀암에서의 성능이 특히 의미가 크다. 희귀암은 훈련 데이터 자체가 적어서 개별 모델을 만들기 어렵기 때문이다.
2024년 8월에는 2세대 모델 Virchow2(6.32억 파라미터)와 Virchow2G(18.5억 파라미터)가 발표됐다. 학습 데이터는 3.1백만 장의 WSI(22.5만 명 환자, 45개국)로 늘어났다. 2.4PB(페타바이트)에 달하는 데이터다. Microsoft Azure의 슈퍼컴퓨팅 인프라를 활용한 공동 개발이었고, Virchow2G는 발표 시점 기준 세계 최대 병리 파운데이션 모델이다.
파운데이션 모델이 병리 AI에서 갖는 의미를 정리하면 이렇다. 기존에는 전립선암 검출 모델, 유방암 검출 모델, 폐암 검출 모델을 각각 만들어야 했다. 데이터 수집, 라벨링, 훈련, FDA 인허가를 암종마다 별도로 거쳐야 했다는 뜻이다. 파운데이션 모델은 한 번의 대규모 사전 학습으로 병리 이미지의 범용적 표현(representation)을 확보한 뒤, 소량의 과업별 데이터로 미세 조정하면 된다. 개발 비용과 시간이 크게 줄어든다.
경쟁 파운데이션 모델도 있다. Microsoft와 Providence, University of Washington이 공동 개발한 Prov-GigaPath는 17만 장의 WSI에서 10억 개 이상의 256x256 타일로 학습했다. 2024년 5월 발표. 하지만 Paige의 Virchow가 학습 데이터 규모(1.5M → 3.1M WSI)와 Nature Medicine 게재라는 검증 측면에서 앞서 있다.

Tempus의 $81M 인수: 왜 병리 AI를 샀나
2025년 8월 22일, Tempus AI(NASDAQ: TEM)가 Paige를 $81.25M에 인수한다고 발표했다. 대가는 대부분 Tempus 보통주로 지급됐고, Paige의 기존 Microsoft Azure 클라우드 서비스 계약을 Tempus가 승계하는 조건이 포함됐다.
Tempus는 2015년 Eric Lefkofsky가 설립한 정밀 의학(precision medicine) 기업이다. 핵심 자산은 유전체(genomics) 데이터다. 종양의 유전자 변이를 분석해 표적 치료제를 매칭하는 서비스가 주력이다. 2024년 6월 나스닥에 상장했다.
그런데 유전체 분석에는 구조적 한계가 있다. 조직 검체가 충분해야 차세대 염기서열 분석(NGS)을 돌릴 수 있다. 생검으로 얻는 조직량이 적으면, 유전체 검사를 아예 못 하는 경우가 발생한다. 특히 폐암 침 생검(needle biopsy)이나 액체 생검 전환이 어려운 고형암에서 이 문제가 빈번하다.
Paige 인수의 전략적 핵심은 여기에 있다. H&E 염색 슬라이드는 모든 조직 검체에서 기본으로 만들어진다. 유전체 검사를 위한 추가 조직이 없어도, H&E 슬라이드는 이미 존재한다. AI가 이 H&E 슬라이드에서 유전자 변이를 예측할 수 있다면, 조직 부족 문제를 우회할 수 있다.
Lefkofsky는 인수 발표에서 "종양학에서 가장 큰 파운데이션 모델을 구축하는 데 Paige 인수가 크게 기여할 것"이라고 밝혔다. Paige가 가진 7백만 장의 디지털 병리 슬라이드(임상 주석 포함)와 Tempus의 유전체 데이터를 결합하면, 병리+유전체 멀티모달 AI 모델을 훈련할 수 있다.
$81.25M이라는 인수가는 어떻게 봐야 할까. Paige는 인수 전까지 누적 $2.7억 이상의 투자를 유치했다. 2022년 시리즈 C에서 $1억을 조달하며 기업 가치가 $10억 이상으로 평가됐다는 보도가 있었다. $81M 인수는 유니콘 가치 대비 상당한 할인이다. 최초 FDA 승인, Nature Medicine 논문, 7백만 장의 슬라이드를 보유한 기업의 가격치고는 싸 보인다. 하지만 다른 각도에서 보면, 매출 없이 기업 가치를 유지하기 어렵다는 의료 AI 업계의 현실이 그대로 드러난 가격이기도 하다.
Paige Predict: 조직에서 유전체를 읽는다
인수 5개월 만인 2026년 1월 21일, Tempus는 Paige Predict를 출시했다. 인수 결과물이 이렇게 빨리 나온 것은, Paige가 인수 전부터 이 방향의 연구를 진행하고 있었기 때문이다.
Paige Predict는 H&E 염색 WSI를 분석해 123개 바이오마커와 발암 분자 경로(oncogenic molecular pathway)의 존재 여부를 예측한다. 대상 암종은 비소세포폐암(NSCLC), 전립선암, 유방암, 췌장암, 대장암 등 16가지다. Tempus와 Paige의 합산 데이터셋, 20만 명 이상의 비식별 환자 데이터로 훈련됐다.
이 제품의 핵심 가치는 조직 부족 문제를 우회하는 데 있다. 기존에 특정 바이오마커(PD-L1, EGFR, HER2 같은)를 확인하려면 면역조직화학(IHC)이나 NGS 같은 추가 검사를 해야 했다. 추가 조직이 소모되고, 비용이 들고, 결과가 나오기까지 수일에서 수주가 걸린다. Paige Predict는 이미 만들어져 있는 H&E 슬라이드에서 바이오마커 존재 가능성을 예측한다. 추가 조직 없이, 비용 거의 없이, 빠르게.
물론 예측(prediction)과 확정 진단(definitive diagnosis)은 다르다. Paige Predict의 결과는 "이 환자는 EGFR 변이가 있을 가능성이 높으니 NGS 검사를 의뢰하라"는 의사결정 지원이지, NGS를 대체하는 것은 아니다. 그럼에도 가치가 있는 이유는 두 가지다. 첫째, 조직이 부족해 NGS를 아예 못 하는 환자에게 치료 방향의 실마리를 제공한다. 둘째, NGS 의뢰 전에 가능성이 낮은 바이오마커를 걸러내면 불필요한 검사 비용을 줄일 수 있다.
결과는 임상 보고서와 함께 주치의에게 자동 전달된다. Tempus의 기존 유전체 보고서 전달 인프라를 활용한 것이다. 여기서 인수의 시너지가 드러난다. Paige 단독으로는 병리 이미지 분석 결과를 의사에게 전달하는 인프라가 부족했다. Tempus의 전국 규모 유전체 보고서 네트워크에 끼워넣으면 별도 인프라 투자 없이 배포가 가능하다.

참값이 흔들릴 때: 병리 AI 유효성 검증의 근본 문제
병리 AI의 임상 유효성을 검증할 때 다른 의료 AI에서는 잘 드러나지 않는 난제가 있다. 영상 진단 AI를 예로 들어보자. 흉부 X-ray에서 폐결절을 검출하는 AI는 참값(ground truth)이 비교적 분명하다. CT 추적 관찰이나 조직 생검으로 결절의 양악성 여부를 확인하면 된다. 그런데 병리에서는 참값 자체가 병리의의 판독이다. 병리의가 읽은 결과가 곧 진단이다.
그 병리의들의 일치율이 60%대라면 어떤 일이 벌어질까. AI를 검증하는 기준 자체가 관찰자 간 변이(inter-observer variability)에 노출돼 있는 셈이다. 기술의 문제가 아니라 병리학이라는 학문의 구조적 특성이다.
PANDA 챌린지(Nature Medicine, 2022)가 이 문제를 정면으로 다뤘다. 전 세계 1,010명의 참가자가 전립선 생검 슬라이드의 Gleason 등급을 판정했다. 최우수 알고리즘이 달성한 quadratic weighted kappa는 0.862~0.868로, 전문 비뇨기 병리의의 평균 일치율 범위(0.777~0.916) 한가운데에 위치했다. AI가 병리의를 이긴 것이 아니다. 병리의 간 편차의 한가운데에 자리 잡은 것이다.
미묘하지만 중요한 구별이다. "AI가 의사보다 정확하다"는 서사와는 다른 결과다. 하지만 임상적으로 보면 오히려 더 가치가 있다. 같은 슬라이드를 10명이 읽으면 10가지 등급이 나올 수 있는 상황에서, AI가 일관된 기준점 역할을 한다. "이 슬라이드의 Gleason 등급은 여기쯤이다"라는 앵커(anchor)를 주는 것이다.
실제로 PANDA 연구에서 AI 보조를 받은 병리의 그룹이 AI 단독이나 병리의 단독보다 모두 좋은 성적을 냈다. 인간+AI 협업이 어느 쪽 단독보다 낫다는 결과다.
그럼에도 근본적 질문은 남는다. 병리 AI의 성능 지표(민감도, 특이도, AUC)는 모두 전문 병리의의 합의(consensus)를 참값으로 전제한다. 그 합의 자체가 κ=0.67 수준이라면, AI가 달성할 수 있는 정확도의 천장도 제한된다. 더 나은 AI를 만들어도 참값의 불확실성을 넘을 수 없기 때문이다.
이 한계를 돌파하는 방향이 두 가지 있다. 하나는 분자 수준의 참값이다. 유전체 분석 결과를 참값으로 삼으면, 병리의 간 의견 차이에 의존하지 않아도 된다. Tempus가 Paige를 인수한 전략적 이유가 여기에도 연결된다. 병리+유전체 멀티모달 데이터가 있으면, 병리 AI의 검증 기준 자체를 분자 수준으로 올릴 수 있다.
다른 하나는 예후(outcome) 기반 참값이다. Gleason 등급이 같은 환자라도 실제 재발률이나 생존율은 다르다. 장기 추적 데이터가 쌓이면, 병리 소견을 환자의 실제 예후와 직접 대응시킬 수 있다. AI가 형태학적 패턴에서 예후를 직접 예측하는 방향이다. Virchow 같은 파운데이션 모델이 대규모 멀티모달 데이터로 훈련되면 이 방향이 가능해진다.
Paige Prostate가 첫 관문을 열었고, Virchow가 기술적 도약을 이뤘고, Tempus 인수가 비즈니스 모델의 한 방향을 제시했다. 그런데 임상 유효성의 근본, "무엇이 정답인가"라는 질문은 여전히 열린 채로 남아 있다. 병리 AI가 참값의 천장을 넘는 순간이 올 때, 그것은 AI의 발전이 아니라 병리학 자체의 변혁이 될 것이다.
출처
- FDA De Novo DEN200080: FDA CDRH
- Paige Prostate 임상 결과: FDA De Novo Summary, BusinessWire (2021-09-22)
- Virchow Nature Medicine: Vorontsov et al., "A foundation model for clinical-grade computational pathology and rare cancers detection," Nature Medicine (2024)
- Virchow2/2G: Paige press release (2024-08-08), Microsoft Research Blog
- Tempus-Paige 인수: BusinessWire (2025-08-22), MedTech Dive
- Paige Predict 출시: Tempus investor relations (2026-01-21)
- PANDA Challenge: Bulten et al., "Artificial intelligence for diagnosis and Gleason grading of prostate cancer: the PANDA challenge," Nature Medicine (2022)
- Inter-observer variability: Allsbrook et al., "Interobserver variability in Gleason histological grading of prostate cancer" (2016)
- Digital pathology market: Mordor Intelligence, Fortune Business Insights (2026)
- Thomas Fuchs: Mount Sinai newsroom, NVIDIA Blog