AI 의료기기 1,016개, 근거 피라미드 꼭대기에 선 제품은 몇 개인가

핵심 요약: FDA가 승인한 AI 의료기기는 1,016개를 넘었지만, 무작위 대조 시험(RCT)으로 검증된 제품은 2%가 채 안 된다. 96%는 기존 기기와 "비슷하다"는 것만 보여주면 되는 510(k) 경로를 택했다. 이 글은 임상적 유효성의 근거 피라미드를 해부하고, AI 의료기기들이 그 피라미드의 어디쯤 서 있는지를 지도로 그린다.

1,016개라는 숫자의 속살

FDA가 공개하는 AI/ML 의료기기 목록은 2026년 2월 기준 1,016개를 넘어섰다. 2025년 한 해에만 295개가 추가됐다. 언론은 "AI 의료기기 시대"라고 쓰고, 투자자는 시장 규모 47.2억 달러(2029년 전망)를 인용한다.

숫자만 보면 AI가 이미 의료 현장을 장악한 것 같다. 하지만 한 꺼풀 벗기면 이야기가 달라진다. 2025년 JAMA Network Open에 실린 체계적 문헌 고찰이 이 숫자의 속살을 드러냈다. FDA 승인 AI 의료기기 중 무작위 대조 시험(RCT, Randomized Controlled Trial)으로 뒷받침된 제품은 전체의 2%도 안 됐다. 나머지 98%는 관찰 연구, 사례 보고, 혹은 후향적 데이터만으로 시장에 나왔다.

이게 왜 문제인지를 이해하려면 의학에서 "근거"를 어떻게 쌓아올리는지부터 알아야 한다.

근거 피라미드: 의학이 확신을 얻는 방법

의학에는 근거 기반 의학(EBM, Evidence-Based Medicine)이라는 오래된 약속이 있다. "경험과 감이 아니라 데이터로 판단하겠다"는 약속이다. 이 데이터의 신뢰도를 등급으로 정리한 것이 근거 피라미드(Evidence Pyramid)다.

피라미드 맨 아래부터 올라가 보자.

**1층: 사례 보고(Case Report)**는 "A 환자에게 이 치료를 했더니 이런 결과가 나왔다"는 이야기다. 의학 역사의 시작점이기도 하다. AI로 치면 "우리 병원에서 이 AI 소프트웨어를 써봤더니 결과가 좋더라" 수준의 경험담이다. 편향 위험이 크고, 이걸로 다른 병원에도 효과가 있으리라고 말하기는 어렵다.

**2층: 사례 시리즈(Case Series)**는 사례 보고를 여러 건 모은 것이다. 비교 대상(대조군)이 없어서 "AI 때문에 좋아진 건지, 원래 좋아질 환자였는지" 구분이 안 된다. FDA 승인 AI 의료기기 대다수가 이 수준의 근거를 갖고 있다.

**3층: 코호트 연구(Cohort Study)**에서는 AI를 쓴 그룹과 안 쓴 그룹을 비교한다. 다만 누가 어느 그룹에 들어가는지를 연구자가 무작위로 정하지 않기 때문에 선택 편향이 끼어든다. HeartFlow의 FISH&CHIPS 연구가 이 층에 해당한다. 영국 NHS에서 9만 명 넘는 환자 데이터를 분석했고, 불필요한 관상동맥 조영술이 40% 줄었다는 결과를 냈다. 규모가 크고 실제 의료 현장 데이터라는 점에서 가치가 있지만, 무작위 배정이 아니었다.

**4층: 무작위 대조 시험(RCT)**은 의학 연구의 금본위제(gold standard)다. 환자를 무작위로 두 그룹에 나누고, 한쪽에만 AI를 적용하고, 나머지는 기존 방식대로 한다. 이렇게 하면 "AI 때문에 나아진 건지"를 가장 깨끗하게 확인할 수 있다. HeartFlow FFRCT의 SCOT-HEART 연구가 New England Journal of Medicine(NEJM, IF 78.5)에 실릴 수 있었던 이유다. 4,146명을 무작위 배정해 5년 추적한 결과 심혈관 사망 또는 심근경색이 41% 감소했다.

**5층: 체계적 문헌 고찰/메타분석(Systematic Review & Meta-analysis)**은 피라미드 꼭대기다. 여러 RCT와 코호트 연구를 모아 통계적으로 합산한다. 개별 연구의 한계(표본 크기, 특정 지역 편향)를 극복할 수 있다. Viz.ai의 뇌졸중 AI가 이 꼭대기에 올랐다. 12개 연구, 15,595명의 환자 데이터를 메타분석한 결과, AI 도입 후 CT에서 혈관 내 치료(EVT)까지 걸리는 시간이 유의미하게 줄었다.

FDA 인허가 경로: 96%가 가장 낮은 문을 택했다

FDA에서 AI 의료기기가 시장에 나가는 문은 세 개다.

**510(k)**는 가장 낮은 문이다. "이미 시장에 있는 기기와 실질적으로 동등하다"는 것만 보여주면 된다. 새로운 임상 시험이 필요 없는 경우가 많다. 기존 AI 영상 판독 소프트웨어와 성능이 비슷하다는 회고적 데이터만으로 통과할 수 있다. 2025년 기준 FDA 승인 AI 의료기기의 96% 이상이 이 경로를 택했다. 심사 기간 중간값은 142일이다.

De Novo는 비교할 선례가 없는 새로운 유형의 기기를 위한 경로다. 510(k)보다 높은 수준의 임상 근거를 요구한다. IDx-DR(현 Digital Diagnostics)이 2018년 이 경로로 세계 최초의 자율진단 AI 승인을 받았다. 의사 개입 없이 당뇨 망막병증을 진단하는 소프트웨어였고, 10개 1차 의료 기관에서 900명을 대상으로 한 전향적 피벗 시험(민감도 87.2%, 특이도 90.7%)을 거쳤다.

**PMA(Premarket Approval)**는 가장 높은 문이다. 생명 유지 기기나 고위험 진단 기기가 대상이며, 대규모 전향적 임상 시험이 필수다. AI 의료기기 중 PMA를 받은 제품은 극소수다.

여기서 드러나는 구조적 아이러니가 있다. 510(k)는 "기존 기기와 동등하다"를 증명하는 경로인데, 해당 기존 기기도 510(k)로 승인받았다면 두 기기 모두 RCT 없이 시장에 나온 셈이다. 이를 "predicate creep"이라 부른다. 비교 대상의 비교 대상의 비교 대상을 따라 올라가다 보면 애초에 제대로 된 임상 검증을 거친 기기가 없는 경우가 생긴다. JAMA Network Open의 2025년 연구가 정확히 이 문제를 지적했다.

IMDRF: 위험이 크면 근거도 커야 한다

국제의료기기규제포럼(IMDRF)은 SaMD(Software as a Medical Device)의 위험을 네 단계로 분류한다. 두 축을 교차시킨 매트릭스다.

가로축은 "SaMD가 제공하는 정보가 의료 결정에 미치는 영향"이다. 단순 정보 제공(inform), 임상 판단 주도(drive clinical management), 치료/진단 결정(treat or diagnose) 순으로 올라간다.

세로축은 "대상 질환의 심각도"다. 비심각(non-serious), 심각(serious), 치명적(critical) 세 단계다.

이 둘을 교차하면 Category I(최저 위험)부터 IV(최고 위험)까지 나온다.

Category I은 비심각 질환에 대한 정보 제공. 피트니스 앱 수준이다. 사례 보고나 관찰 데이터면 충분하다. Category IV는 치명적 질환을 치료하거나 진단하는 소프트웨어. RCT 이상의 근거가 필요하다.

2025년 1월 IMDRF는 새로운 문서(N81 Final)를 발표해 이 프레임워크를 업데이트했다. 기존 2014년 문서가 SaMD만 다뤘다면, 새 문서는 의료 현장에서 사용되는 소프트웨어 전반으로 범위를 넓혔고, 위험 평가 방식도 고정된 카테고리 대신 맥락 기반 위험 특성화(risk characterization) 접근으로 전환했다.

CONSORT-AI와 SPIRIT-AI: AI 임상 시험을 위한 보고 규칙

AI가 임상 시험에 들어가기 시작하면서 새로운 문제가 생겼다. 전통적인 임상 시험 보고 양식(CONSORT)은 약물이나 수술 시험을 전제로 만들어졌다. AI 시험에는 맞지 않는 부분이 있었다. 학습 데이터의 출처는 어디인지, 알고리즘 버전은 무엇인지, 인간과 AI가 어떻게 상호작용했는지, 오류 사례 분석은 있는지. 기존 양식에는 이런 항목이 없었다.

2020년 Nature Medicine(IF 82.7)에 동시 게재된 CONSORT-AI와 SPIRIT-AI가 이 빈칸을 채웠다. CONSORT-AI는 기존 CONSORT 2010 항목에 AI 고유의 14개 항목을 추가했다. SPIRIT-AI는 임상 시험 프로토콜 설계 단계에서 AI 특성을 반영해야 할 15개 항목(확장 12개, 상세화 3개)을 제시했다.

103명의 다학제 전문가가 델파이 조사(2라운드)와 31명 합의 회의를 거쳐 만든 것이다. 핵심은 네 가지다. AI 개입의 버전과 학습 데이터를 명시할 것. 입력과 출력 데이터의 처리 과정을 기술할 것. 인간-AI 상호작용 방식을 보고할 것. 오류 사례 분석을 포함할 것.

흥미로운 후속 전개가 있다. 2025년에 CONSORT 2025와 SPIRIT 2025가 업데이트되었는데, 여기에 AI 관련 항목이 빠져 있었다. Lancet에 이를 지적하는 논평이 실렸다. AI가 임상 시험의 설계, 수행, 분석 단계에서 점점 더 많이 쓰이고 있는데 보고 가이드라인은 이를 반영하지 못한다는 비판이다.

근거 피라미드 지도: 누가 어디까지 올라갔나

지금까지 정리한 프레임워크로 실제 AI 의료기기들을 매핑해 보자. 이 시리즈의 후속 에피소드에서 각 제품을 깊이 다루겠지만, 전체 지형도를 먼저 그린다.

메타분석(최상위) 도달: Viz.ai의 뇌졸중 AI가 12개 연구, 15,595명을 합산한 메타분석에서 치료 시간 단축 효과를 확인받았다. AI 의료기기 중 가장 높은 근거 수준에 도달한 사례다.

다기관 RCT + 최상위 저널 게재: HeartFlow FFRCT는 SCOT-HEART 연구(NEJM, IF 78.5)로 심혈관 사망/심근경색 41% 감소를 입증했다. 2025년 매출 1억 7,300만 달러, 전년 대비 37% 성장. 임상 근거가 가장 직접적으로 매출로 전환된 사례다.

RCT 수준 도달: IDx-DR은 FDA De Novo 최초 자율진단 AI로, 피벗 트라이얼 900명(민감도 87.2%, 특이도 90.7%)과 ACCESS RCT(Nature Communications)를 거쳤다. Lunit INSIGHT MMG는 유방암 검출률을 50% 향상시켰다는 결과를 Lancet Digital Health에 게재했고, 2025년 상반기 매출 371억 원(전년 동기 대비 66% 증가), KOSDAQ 시가총액 8,370억 원을 기록했다.

대규모 코호트: HeartFlow FISH&CHIPS(NHS 9만 명), Aidoc(20건 이상 FDA clearance, 2억 달러 이상 투자 유치)가 대규모 실사용 데이터를 확보했지만, RCT 수준의 무작위 배정은 거치지 않았다.

사례 시리즈/회고적 데이터: FDA 승인 AI 의료기기 1,016개 중 대다수가 여기에 해당한다.

이 지형도에서 보이는 패턴이 있다. 근거 피라미드를 높이 올라간 제품일수록 매출이 크고, 성장도 빠르다. HeartFlow의 매출 1억 7,300만 달러는 NEJM 게재 논문 없이는 불가능했을 것이다. 보험사가 수가를 책정하고, 병원이 구매를 결정할 때 근거 수준이 핵심 변수이기 때문이다.

2026년, 규칙이 바뀐다

EU AI Act가 2026년 본격 시행된다. 의료 AI는 "고위험(high-risk)" 범주로 분류되어 정확성, 설명 가능성, 편향 평가에 관한 엄격한 요구사항이 적용된다. 기존 EU MDR(Medical Device Regulation)에 AI Act 요구사항이 덧붙여지는 구조다.

FDA도 움직이고 있다. TPLC(Total Product Life Cycle) 프레임워크 아래 PCCP(Predetermined Change Control Plan)를 본격 적용하기 시작했다. AI 모델이 학습을 계속하며 바뀌는 현실을 제도 안에서 관리하겠다는 시도다. "이 범위 안에서 모델을 업데이트하겠다"는 계획을 사전에 승인받으면 매번 새로운 승인 절차를 밟지 않아도 된다.

한국 식약처(MFDS)도 디지털의료제품법 시행과 함께 실사용평가(RWE, Real-World Evidence) 제도를 도입했다. 통제된 임상 시험 중심 평가에서 벗어나, 시판 후 실제 사용 환경에서 수집된 데이터를 활용하는 방향이다.

세 규제 기관 모두 같은 질문 앞에 서 있다. "AI 의료기기에 어느 수준의 임상 근거를 요구해야 하는가?" 그 답이 아직 정해지지 않았기 때문에 지금이 이 지형을 이해해야 할 시점이다.

이 시리즈가 그리는 지도

이 글은 "AI SaMD 임상 유효성 해부학" 시리즈의 첫 편이다. 여기서 세운 근거 피라미드를 기준 프레임으로, 후속 에피소드에서 개별 제품을 하나씩 깊이 파고든다.

각 에피소드는 하나의 질문에 답한다. "이 AI 제품은 근거 피라미드의 어디까지 올라갔고, 그것이 매출과 시장 지위에 어떤 차이를 만들었는가?"

EP.2는 NEJM에 실린 HeartFlow, EP.3은 한국에서 글로벌 시장까지 올라간 Lunit, EP.4는 메타분석으로 꼭대기에 선 Viz.ai, EP.5는 최초의 자율진단 AI IDx-DR, EP.6은 디지털 병리의 Paige AI를 다룬다.

출처

FDA AI-Enabled Medical Devices List (2026.02 기준, 1,016+ devices)
JAMA Network Open (2025), "FDA Approval of AI/ML Devices in Radiology: A Systematic Review"
JAMA Network Open (2025.04), "Generalizability of FDA-Approved AI-Enabled Medical Devices"
Nature npj Digital Medicine (2025), "A taxonomy across 1,016 FDA authorizations"
IMDRF SaMD WG/N81 Final (2025.01), "Software-Specific Risk Characterization"
CONSORT-AI & SPIRIT-AI, Nature Medicine (2020)
The Lancet (2025), "AI in clinical trials is missing from CONSORT and SPIRIT 2025 guidelines"
HeartFlow SCOT-HEART, NEJM (2018), FISH&CHIPS NHS Study (2025)
Viz.ai Meta-analysis (2025), 12 studies, 15,595 patients
Lunit Q3 2025 IR Letter, Lancet Digital Health
IDx-DR Pivotal Trial, npj Digital Medicine (2018)
Innolitics 2025 Year in Review: AI/ML Medical Device 510(k) Clearances

AI 의료기기 1,016개, 근거 피라미드 꼭대기에 선 제품은 몇 개인가

1,016개라는 숫자의 속살

근거 피라미드: 의학이 확신을 얻는 방법

FDA 인허가 경로: 96%가 가장 낮은 문을 택했다

IMDRF: 위험이 크면 근거도 커야 한다

CONSORT-AI와 SPIRIT-AI: AI 임상 시험을 위한 보고 규칙

근거 피라미드 지도: 누가 어디까지 올라갔나

2026년, 규칙이 바뀐다

이 시리즈가 그리는 지도

출처

신윤섭

AI 교육이 필요하신가요?

같은 주제의 다른 글

AI기본법, 의료 AI 기업에 실제로 달라지는 것들

HeartFlow FFRCT: NEJM과 Nature Medicine이 검증한 심혈관 AI 10년

IDx-DR, 의사 없이 진단하다: 최초 자율진단 AI의 임상 근거 8년