IDx-DR, 의사 없이 진단하다: 최초 자율진단 AI의 임상 근거 8년

핵심 요약

IDx-DR은 2018년 FDA De Novo 경로로 승인된 역사상 최초의 자율진단(autonomous) AI다. 의사가 판독에 개입하지 않는다.

피벗 트라이얼(900명, 10개 1차의료기관)에서 민감도 87.2%, 특이도 90.7%, 진단가능율 96.1%를 달성했다.

2026년 실사용 연구에서 이미지 분석 불가율 26.1%가 확인되면서, 통제된 임상시험과 현장 사이의 간극이 숫자로 드러났다.

자율진단이라는 새로운 범주

AI 의료기기에는 세 가지 유형이 있다. 의사에게 "여기 좀 보세요"라고 영역을 표시하는 CADe(Computer-Aided Detection). "이 병변은 악성일 가능성이 높습니다"라고 소견을 제시하는 CADx(Computer-Aided Diagnosis). 그리고 의사 개입 없이 진단 결과를 확정하는 자율진단(Autonomous AI).

세 번째 유형은 앞의 둘과 본질적으로 다르다. CADe와 CADx에서는 의사가 최종 판단을 내린다. AI가 틀려도 의사라는 안전망이 작동한다. 자율진단 AI에는 그런 안전망이 없다. "이 환자에게 당뇨병성 망막병증이 있다" 또는 "없다"를 기계가 확정짓는다. 규제 당국이 자율진단에 더 높은 수준의 임상 근거를 요구하는 이유다.

FDA가 2014년부터 2023년까지 승인한 AI/ML SaMD(Software as a Medical Device)는 309개다. CADe 130개, CADx 21개, CADt(트리아지 보조) 67개. 이 가운데 자율진단 범주에 드는 것은 손에 꼽을 정도다. FDA가 승인한 AI 의료기기의 절대다수는 의사를 돕는 도구이지 의사를 대신하는 도구가 아니다.

2018년 4월 11일, IDx-DR이 그 경계를 넘었다. FDA De Novo 경로(DEN180001)를 통해 승인된 최초의 자율진단 AI. De Novo는 시장에 유사 제품이 없을 때 사용하는 경로다. "의사 없이 진단하는 AI"라는 제품 범주가 존재하지 않았으므로 기존 제품과 동등성을 입증하는 510(k)로는 갈 수 없었다. 범주를 새로 만들고, 그 범주에 맞는 근거를 처음부터 쌓아야 했다.

피벗 트라이얼: 왜 1차의료기관이었나

Abramoff 등이 2018년 npj Digital Medicine에 발표한 IDx-DR 피벗 트라이얼(doi:10.1038/s41746-018-0040-6)은 전향적 다기관 임상시험이다. 미국 10개 1차의료기관에서 900명을 등록했고, 852명이 분석 대상이 됐다.

시험 장소부터 살펴볼 필요가 있다. 안과가 아니라 1차의료기관이었다. 당뇨병성 망막병증(DR) 선별검사는 모든 당뇨 환자에게 권고되지만, 실제로 안과까지 찾아가는 환자는 절반이 채 안 된다. 미국 당뇨 환자 약 3,400만 명 가운데 매년 안저검사를 받는 비율이 50~60%에 머문다. 이유가 거창하지 않다. 동네 내과에서 당뇨약을 타다가 별도로 안과를 예약하고 시간을 내어 방문하는 일이 귀찮기 때문이다. IDx-DR이 겨냥한 것이 바로 이 간극이다. 환자가 이미 와 있는 1차의료기관에서 의료보조인력(medical assistant)이 카메라로 안저를 찍으면, AI가 1분 안에 결과를 알려주는 구조.

골드 스탠다드는 위스콘신 안저사진판독센터(FPRC) 소속 인증 안과전문의의 산동 안저촬영 판독이었다. IDx-DR은 산동 없이 Topcon NW400 카메라로 촬영한 이미지만 사용했다. 조건이 불리한 쪽에서 시험한 셈이다.

결과는 사전 설정된 세 가지 기준을 모두 넘겼다.

민감도 87.2% (95% CI: 81.8~91.2%). 기준 85% 이상.
특이도 90.7% (95% CI: 88.3~92.7%). 기준 82.5% 이상.
진단가능율 96.1% (819/852). 기준 85% 이상.
양성예측도(PPV) 73%, 음성예측도(NPV) 96%.

여기서 NPV 96%가 갖는 무게를 짚고 넘어가야 한다. AI가 "정상"이라고 판단한 환자 중 실제로 병이 있을 확률이 4%라는 뜻이다. 자율진단에서는 의사가 결과를 다시 확인하지 않는다. "없다"는 판정이 최종이므로, 그 판정의 신뢰도가 선별검사 전체의 안전성을 좌우한다.

진단가능율 96.1%도 따로 볼 필요가 있다. 852명 중 33명(3.9%)에 대해 AI는 판단을 보류했다. 이미지 품질이 충분하지 않다고 판단한 것이다. "모르겠다"고 말할 수 있는 능력은 자율진단 AI의 필수 요건이다. 틀린 답보다 보류가 낫고, 보류 후 안과 의뢰를 권하면 환자 안전이 유지된다.

ACCESS RCT: 소아/청소년으로의 확장

피벗 트라이얼 대상은 성인이었다. 그런데 당뇨병성 망막병증은 청소년에게도 생긴다. 제1형 당뇨를 앓는 아이들은 유병 기간이 길어지면서 DR 위험이 꾸준히 올라간다. 문제는 소아/청소년의 안과 선별검사 이행률이 성인보다 더 낮다는 데 있다.

ACCESS(AI for Children's diabetiC Eye ExamS) RCT가 이 지점을 정면으로 다뤘다. Wolf 등이 2024년 Nature Communications에 발표한 연구(doi:10.1038/s41467-023-44676-z)로, Johns Hopkins 소아당뇨센터에서 8~21세 164명을 1:1 무작위 배정했다.

중재군(81명)은 당뇨 진료차 방문한 바로 그 자리에서 자율 AI 안저검사를 받았다. 대조군(83명)은 안과를 예약하라는 교육 자료와 안내문을 받았다. 기존에 하던 방식 그대로다.

6개월 후의 결과가 이 시험의 핵심이다. 중재군의 안저검사 완료율은 100%(81/81). 대조군은 22%(18/82). 78%포인트 차이(p<0.001). 검사를 하러 온 그 자리에서 바로 했으니 100%가 나올 수밖에 없다고 할 수도 있겠지만, 그게 요점이다. "지금 여기서 바로"라는 조건이 검사율을 22%에서 100%로 끌어올렸다.

참가자 구성을 보면 맥락이 선명해진다. 35%가 흑인, 47%가 메디케이드(저소득층 공공보험) 가입자, 가구 소득 5만 달러 미만이 34%. 안과 별도 방문이 가장 어려운 집단이 표본의 상당수를 차지했다.

이상 소견이 발견됐을 때 안과 후속 방문율도 차이가 컸다. 중재군 64%, 대조군 22%. AI가 "이상이 있으니 안과를 방문하세요"라는 구체적 결과를 내놓았을 때, 환자가 실제로 움직일 확률이 세 배로 뛰었다.

진단 성능은 망막전문의 판독 대비 민감도 100%, 특이도 78.9%였다. 피벗 트라이얼보다 특이도가 낮은데, 소아 안저 이미지의 특성이 성인과 다르고 표본이 작아서 수치 자체를 직접 비교하기는 어렵다.

환자 만족도도 빼놓을 수 없다. 92.5%가 검사 시간에 만족했고, 85%가 다음에도 AI 검사를 선택하겠다고 답했다. 전통적 안과 의뢰를 선택하겠다는 응답은 57%에 그쳤다.

임상시험과 실사용 사이의 거리

통제된 임상시험에서 좋은 숫자를 받는 것과 실제 진료 현장에서 같은 성능을 유지하는 것은 별개의 문제다. 2026년 Scientific Reports에 발표된 전향적 단면 연구(doi:10.1038/s41598-026-36970-9)가 그 거리를 구체적 숫자로 보여줬다.

875명의 당뇨 환자(평균 52세)를 대상으로 훈련받은 보조인력이 비산동 안저 촬영을 하고 IDx-DR로 분석했다. 골드 스탠다드는 산동 안저검사와 안과전문의 판독.

결과에서 두 가지가 갈린다.

첫째, 분석 불가율이 26.1%였다. 피벗 트라이얼의 3.9%와 비교하면 거의 7배. 축동 상태에서 10.5%는 아예 촬영 자체가 안 됐고, 촬영은 됐으나 AI가 판독하기엔 품질이 부족한 이미지까지 합치면 4명 중 1명꼴로 결과를 받지 못했다. 교란 요인은 검사자의 숙련도, 동공 크기, 환자 나이, 시력이었다.

둘째, 분석이 가능한 이미지에 한해서는 성능이 오히려 좋았다. 중증 DR에 대해 민감도 94.4%, 특이도 90.5%. 피벗 트라이얼을 웃도는 수치다.

이 두 결과를 같이 놓고 봐야 한다. IDx-DR의 알고리즘은 실사용에서도 잘 돌아간다. 병목은 알고리즘에 이미지가 도달하기 전 단계, 즉 촬영(image acquisition)에서 생긴다. 임상시험에서는 프로토콜이 통제되고 훈련된 인력이 운영하지만, 현실의 1차의료기관에서는 촬영 환경과 운영자 숙련도가 제각각이다.

이 패턴은 IDx-DR에 국한된 현상이 아니다. 2025년 American Journal of Ophthalmology의 체계적 고찰 메타분석이 13개 연구, 13,233명의 IDx-DR 데이터를 종합했다. 통합 민감도 0.95(95% CI: 0.82~0.99), 통합 특이도 0.91(95% CI: 0.84~0.95), AUC 0.95. 알고리즘 정확도는 연구마다 일관되게 높았다. 성능의 변동성은 알고리즘이 아니라 이미지 품질에서 온다.

수가: 기계가 사람보다 비싼 이유

자율진단 AI에는 자체 보험 수가 코드가 있다. CPT 92229("망막 이미징: 포인트오브케어 자동 분석 및 보고")가 2021년 신설됐고, CMS(미국 메디케어/메디케이드 서비스센터)가 2022년 전국 수가를 확정했다.

2023년 기준 CPT 92229의 수가는 약 40~50달러다. 원격 이미지를 스태프가 판독하는 CPT 92227은 17.35달러, 의사가 판독하는 CPT 92228은 29.14달러. AI 자율진단이 인간 판독보다 수가가 높다.

사람이 하면 17~29달러, 기계가 하면 40~50달러. 역설적이지만 CMS의 논리를 따라가면 이해가 된다. 기존 원격 판독에서는 이미지를 전송하고 결과를 기다려야 한다. 환자가 재방문하거나 전화로 결과를 듣는다. 자율진단 AI는 촬영 후 1분 안에 결과가 나온다. 환자와 의료진이 그 자리에서 후속 조치를 논의할 수 있다. 높은 수가에는 이 즉시성의 가치와 선별검사 접근성을 끌어올리려는 정책적 유인이 녹아 있다.

Digital Diagnostics가 이 수가 구조 위에 사업을 세웠다. 2010년 망막 전문의이자 컴퓨터 공학자인 Michael Abramoff가 아이오와 대학교에서 IDx, LLC를 설립했다. 2018년 Series A 3,300만 달러(8VC, Optum Ventures), 2022년 Series B 7,500만 달러(KKR 주도)를 유치했고, 2020년에는 사명을 Digital Diagnostics로 바꾸면서 피부과 AI 기업 3Derm Systems를 인수했다. 현재 미국 1,000개 이상 의료기관에 배치돼 있다. 제품명도 IDx-DR에서 LumineticsCore로 바뀌었다.

책임 소재: 법이 따라가지 못하는 영역

자율진단 AI의 법적 프레임워크는 아직 완성되지 않았다.

CADe/CADx는 의사가 최종 판단을 내리기 때문에 오진의 법적 책임이 의사에게 돌아간다. 기존 의료과실법 체계와 충돌이 없다. 자율진단은 사정이 다르다. AI가 "정상"이라고 판정한 환자에게 실제로 병이 있었는데, 의사는 결과를 검토하지도 않았다면 책임을 물을 상대가 누구인가.

미국 의료과실법은 "합리적 의사(reasonable physician)" 기준으로 과실 여부를 따진다. 의사가 개입하지 않은 AI의 독립적 판단에 이 기준을 어떻게 적용할지부터가 정리되지 않은 상태다. AI 개발사(제품 결함 책임), 의료기관(도입 결정 책임), 촬영 인력(이미지 품질 관리 책임)이 모두 잠재적 책임 주체로 거론되지만, 대부분의 주법과 연방법에 AI 진단의 법적 책임을 규정하는 조항은 없다.

바로 여기에 자율진단 AI의 임상 유효성 요구 수준이 높아야 하는 구조적 이유가 있다. CADe/CADx에는 의사라는 안전망이 있으므로 AI의 실수가 곧바로 환자 피해로 연결되지 않는다. 자율진단에서는 AI 출력이 곧 임상 결정이다. 안전망 없이 내리는 판단이므로 정확도 기준이 높을 수밖에 없다.

IDx-DR의 De Novo 경로가 전향적 다기관 임상시험, 비전문가 운영 환경에서의 검증, 사전 설정 성능 기준 초과를 요구한 것은 이 구조적 차이의 반영이다. 510(k)를 통과한 CADe/CADx 대부분은 후향적 데이터셋만으로도 승인을 받는다. 같은 AI 의료기기라도 의사 개입 유무에 따라 규제의 무게가 달라진다.

8년의 궤적이 보여주는 것

2018년 피벗 트라이얼, 2024년 소아 RCT, 2025년 메타분석, 2026년 실사용 연구. IDx-DR의 임상 근거는 8년에 걸쳐 쌓였다. 이 궤적에서 몇 가지가 선명해진다.

알고리즘 정확도는 일관되게 높다. 피벗 트라이얼의 민감도 87.2%에서 메타분석의 통합 민감도 0.95까지, 방법론은 달라도 방향은 같다. 실사용에서 성능이 흔들리는 원인은 알고리즘이 아니라 이미지 품질이다. 26.1%의 분석 불가율은 AI의 한계가 아니라 촬영 인프라와 운영 체계의 한계다.

ACCESS RCT의 검사 완료율 100% vs 22%는 자율진단 AI의 가장 강력한 근거다. 진단 정확도가 아무리 높아도 검사를 받지 않으면 소용없다. 환자가 이미 있는 곳에서 즉시 결과를 주는 모델이 별도 안과 방문을 기다리게 하는 모델보다 선별검사의 원래 목적에 부합한다.

한편 2026년 실사용 연구의 26.1% 분석 불가율은 이 모델을 확대할 때 부딪힐 실질적 벽을 보여준다. 피벗 트라이얼에서 3.9%였던 수치가 현장에서 7배로 뛴다면, 소프트웨어만 보급하고 촬영 인프라와 인력 교육에 투자하지 않는 확장은 반쪽짜리가 된다.

자율진단 AI는 의사를 대체하는 기술이 아니다. 의사에 대한 접근성이 구조적으로 부족한 곳에서 그 공백을 메우는 기술이다. IDx-DR의 8년간 근거는 이 정의를 뒷받침하면서, 동시에 공백을 메우는 길에 아직 깔리지 않은 인프라가 있음을 함께 드러내고 있다.

출처

Abramoff MD, Lavin PT, Birch M, Shah N, Folk JC. Pivotal trial of an autonomous AI-based diagnostic system for detection of diabetic retinopathy in primary care offices. npj Digital Medicine. 2018;1:39. doi:10.1038/s41746-018-0040-6
Wolf RM et al. Autonomous artificial intelligence increases screening and follow-up for diabetic retinopathy in youth: the ACCESS randomized control trial. Nature Communications. 2024;15:421. doi:10.1038/s41467-023-44676-z
Real-world performance of the AI diagnostic system IDx-DR in the diagnosis of diabetic retinopathy and its main confounders. Scientific Reports. 2026;16:4349. doi:10.1038/s41598-026-36970-9
Diagnostic Accuracy of IDX-DR for Detecting Diabetic Retinopathy: A Systematic Review and Meta-Analysis. American Journal of Ophthalmology. 2025.
FDA De Novo Classification DEN180001. accessdata.fda.gov
CMS CY 2022 Medicare Physician Fee Schedule Final Rule (CPT 92229)

IDx-DR, 의사 없이 진단하다: 최초 자율진단 AI의 임상 근거 8년

자율진단이라는 새로운 범주

피벗 트라이얼: 왜 1차의료기관이었나

ACCESS RCT: 소아/청소년으로의 확장

임상시험과 실사용 사이의 거리

수가: 기계가 사람보다 비싼 이유

책임 소재: 법이 따라가지 못하는 영역

8년의 궤적이 보여주는 것

출처

신윤섭

AI 교육이 필요하신가요?

같은 주제의 다른 글

AI기본법, 의료 AI 기업에 실제로 달라지는 것들

AI 의료기기 1,016개, 근거 피라미드 꼭대기에 선 제품은 몇 개인가

HeartFlow FFRCT: NEJM과 Nature Medicine이 검증한 심혈관 AI 10년