AI 의료기기 1,016건 중 LLM은 0건: FDA가 생성형 AI를 승인하지 못하는 구조적 이유

핵심 요약: FDA가 승인한 AI/ML 의료기기는 1,016건을 넘었지만, LLM 기반 제품은 단 하나도 없다. EU에서는 세계 최초 LLM 의료기기가 등장했고, 한국 식약처는 세계 최초 생성형 AI 가이드라인을 냈다. 이 격차가 생긴 구조적 이유를 분석한다.

1,016 대 0

2026년 2월 기준 FDA 승인 AI/ML 의료기기(SaMD, Software as a Medical Device)는 1,016건을 넘었다. 방사선 영상 판독, 심전도 이상 탐지, 당뇨 망막병증 선별까지 머신러닝이 의료 현장에 들어간 범위는 넓다. 그런데 이 목록을 아무리 훑어도 LLM(Large Language Model, 대규모 언어모델) 기반 제품은 없다. 한 건도.

시장 사정은 전혀 다르다. Ambient AI Scribe(진료 대화를 자동으로 의무기록으로 바꿔주는 소프트웨어)가 이미 100개 넘게 존재한다. Microsoft/Nuance의 DAX Copilot은 JAMA에 실린 무작위 대조 시험에서 의사 문서화 시간을 45% 줄였다고 보고했다. Ambience Healthcare, Suki, Glass Health도 비슷한 제품을 운영 중이다. 그런데 이 중 FDA 승인을 받은 제품은 없다.

RAND 예측 이니셔티브는 "2026년 3월까지 FDA가 LLM 기반 의료기기를 승인할 것인가"라는 질문을 열어두었고, 시장 참여자 다수가 '아니오'에 베팅했다. 1,016 대 0은 기술이 덜 성숙해서가 아니다. 규제 체계와 기술 사이에 구조적 충돌이 벌어지고 있기 때문이다.

FDA 승인 AI 의료기기 1,016건 vs LLM 기반 0건 비교 인포그래픽

LLM이 기존 AI 의료기기와 다른 세 가지

FDA가 승인한 1,016건의 AI 의료기기 대부분은 CNN(합성곱 신경망) 같은 지도학습 모델이다. CT 영상을 넣으면 결절 확률 0.87이 나온다. 같은 영상이면 같은 수치가 나온다. 검증할 수 있고, 재현할 수 있으며, 변경 이력을 추적할 수 있다. LLM은 이 세 가지를 전부 깨뜨린다.

매번 다른 답이 나온다. 같은 환자 증상을 입력해도 LLM은 다른 문장을 생성한다. temperature(무작위성 조절 파라미터)와 sampling 방식 때문이다. temperature를 0으로 고정하면 변동 폭이 줄지만 완전히 없어지지는 않는다. 기존 SaMD 검증 프레임워크인 21 CFR 820.30(설계 관리 규정)은 "같은 입력이면 같은 출력"을 전제로 만들어졌다. LLM은 이 전제 자체를 흔든다.

거짓말을 그럴듯하게 한다. 환각(hallucination)이라 부르는 현상이다. 사실이 아닌 정보를 마치 사실처럼 내놓는다. 일상 대화에서야 "좀 틀렸네" 수준이지만, 의료 현장에서는 오진이나 잘못된 처방으로 이어질 수 있다. NPJ Digital Medicine에 발표된 연구가 이 문제의 규모를 보여준다. GPT-4에 시간이 급한 응급 상황 질문을 던지자 출력의 100%가 FDA 기준 "의료기기 수준(device-like)"에 해당하는 임상 판단을 포함했다. 규제 대상이어야 할 출력을 비규제 소프트웨어가 매일 생성하고 있는 셈이다.

제조사가 통제하지 못하는 업데이트. OpenAI가 GPT-4를 GPT-4o로 바꾸면 같은 API를 쓰는 의료 소프트웨어의 성능이 달라진다. 전통 의료기기 규제에서 이 정도 변화는 "새로운 의료기기"로 간주된다. 문제는 LLM 기반 제품의 기저 모델을 의료기기 개발사가 아니라 제3자(OpenAI, Google 등)가 통제한다는 점이다. 변경의 범위와 시점을 제조사가 결정하지 못하는 상황에서 기존 변경 관리 프로세스는 작동할 수 없다.

FDA가 멈춘 자리

FDA가 LLM 앞에서 멈춘 건 의지 부족이 아니라 제도 설계의 한계다.

먼저 CDS 면제 조건이 안 맞는다. 21st Century Cures Act(2016)는 임상 의사결정 지원(CDS, Clinical Decision Support) 소프트웨어가 네 가지 기준을 모두 충족하면 의료기기 규제에서 빠진다고 규정했다. 핵심은 "판단의 근거를 의료인이 독립적으로 검토할 수 있어야 한다"는 조건이다. PMC에 발표된 분석 결과, GPT-4 출력의 100%와 Llama-3 출력의 52%가 이 기준을 충족하지 못했다. LLM은 근거와 결론을 하나의 문장으로 엮어버리기 때문에 의료인이 "AI의 추론"과 "근거 데이터"를 분리해 검토하기 어렵다.

승인 경로도 마땅치 않다. FDA 의료기기 승인은 크게 두 갈래다. 510(k)는 기존 승인 기기와 실질적 동등성을 증명하는 경로인데, LLM 의료기기에는 비교 대상 자체가 없다. De Novo는 선례 없는 새 기기 유형을 위한 경로로, Ambient AI Scribe의 최초 승인 시 이쪽이 유력하다. 다만 De Novo는 저-중간 위험 기기 대상으로 설계되었고 심사 기간이 길다. 첫 선례가 나오기까지의 불확실성도 크다.

그 사이 FDA는 enforcement discretion(집행 재량)이라는 회색 지대를 유지하고 있다. 텍스트 기반 LLM 의료 소프트웨어가 법적으로 의료기기에 해당할 수 있지만, 당장 규제하지는 않겠다는 뜻이다. 단 오디오나 비디오, 이미지, 생체신호를 처리하면 이 재량은 적용되지 않는다. 100개가 넘는 Ambient Scribe가 바로 이 회색 지대에서 영업 중이다.

해법으로 꺼내든 카드가 PCCP(Predetermined Change Control Plan, 사전결정 변경관리계획)다. FDA가 2021년부터 추진해 2024년 12월 최종안으로 확정했다. "이 범위 안에서 모델을 업데이트하겠다"는 계획을 사전에 승인받으면 개별 업데이트마다 재승인을 받지 않아도 되는 구조다. LLM의 버전 드리프트 문제에 현실적 답이 될 수 있으나, 실제로 LLM 기반 제품에 적용된 사례는 아직 없다.

EU의 우회: Prof.Valmed가 보여준 길

FDA가 서 있는 사이 유럽에서 세계 최초의 LLM 의료기기가 나왔다. Prof.Valmed가 EU MDR(Medical Device Regulation) Class IIb 의료기기로 CE 마킹을 받았다. 18개월이 걸렸다.

Prof.Valmed의 접근법은 LLM의 약점을 정면으로 인정하는 데서 출발했다. GPT-4.0을 기저 모델로 쓰되 이를 "SOUP(Software of Unknown Provenance, 출처 미상 소프트웨어)"로 공식 선언한 것이다. 의료기기 규제에서 SOUP란 제조사가 개발 과정을 완전히 통제하지 못하는 소프트웨어 구성요소를 뜻한다. GPT-4가 블랙박스라는 사실을 숨기는 대신 규제 프레임워크 안에서 관리하는 방법을 제시한 셈이다.

환각 문제는 아키텍처로 풀었다. LLM에는 "대화 능력"과 "정보 조합 능력"만 맡기고, 임상 정보의 출처는 PubMed와 Cochrane 등에서 큐레이션한 250만 건 의료문서 데이터베이스로 한정했다. LLM이 의학 지식을 스스로 만들어내는 게 아니라 검증된 문서에서 관련 정보를 찾아 조합하는 구조다. RAG(Retrieval-Augmented Generation)의 의료기기 버전이라 할 수 있다.

임상 검증은 3단계로 진행됐다. 기술 스트레스 테스트, 전문의 비교 평가, 실세계 환경 테스트를 거쳐 약 900개 질문에 대해 안전 지수 0.26(저위험)을 달성했다. 인증기관(Notified Body)은 MDC가 맡았다.

여기서 눈여겨볼 건 EU MDR과 FDA의 질문 방식 차이다. FDA의 510(k)는 "이 기기가 기존 기기와 같은가?"를 묻는다. EU MDR은 "이 기기가 안전하고 효과적인가?"를 묻는다. 선례가 없는 기술에는 후자가 훨씬 적합하다. Prof.Valmed가 활용한 건 바로 이 차이다.

Prof.Valmed EU CE Class IIb 인증 전략: SOUP 선언 + 큐레이션 DB + 3단계 검증

한국 식약처, 가장 먼저 판을 짠 이유

2025년 1월 24일, 한국 식약처(MFDS)가 세계 최초로 생성형 AI 의료기기 허가심사 가이드라인을 발간했다. FDA도 EU도 아직 LLM 특화 규제 프레임워크를 확정하지 못한 시점이었다.

가이드라인의 적용 대상은 "의료용 AI 파운데이션(기반) 모델과 이를 활용한 의료용 앱"이다. 허가 신청 시 제출해야 하는 항목을 구체적으로 못 박았다. 생성형 AI 모델의 임상적 원리와 호환 소프트웨어 작동 구조, 소프트웨어 버전과 운영 환경, 클라우드 서비스 구성, LLM 성능 검증지표와 임상평가 점수, 사이버보안 대책, 사용 시 주의사항이 포함된다.

눈에 띄는 건 LLM의 핵심 위해요소를 규제 문서에 명시적으로 박아넣었다는 점이다. 데이터 품질, 편향, 환각, 비결정론적 출력. 앞서 분석한 LLM의 구조적 문제 전부가 규제 프레임워크 안에 공식 편입됐다. FDA가 enforcement discretion으로 판단을 유보하는 사안에 대해 식약처는 "제출 의무"라는 형태로 답을 내놓은 것이다.

2025년 5월에는 디지털의료제품법 하위규정이 시행되면서 가이드라인 6종이 제개정되었고, 식약처는 LLM SaMD 파일럿 프로그램도 시작했다. 다만 파일럿의 구체적 결과는 아직 공개되지 않았다.

한국이 먼저 움직일 수 있었던 배경이 있다. 루닛, 뷰노 같은 영상 AI 기업이 이미 글로벌 시장에서 활동하고 있고, 퍼슬리 같은 LLM 기반 헬스케어 AI 기업도 등장했다. 규제 프레임워크가 산업을 따라가지 못하면 기업들이 해외 인증부터 추진하게 된다. 식약처의 선제적 움직임은 이 유출을 막겠다는 의도로 읽힌다.

한미EU LLM 의료기기 규제 비교: FDA vs EU MDR vs MFDS

2026년 하반기, 세 갈래 길

현재까지의 흐름을 종합하면 세 가지 시나리오를 근거 있게 그려볼 수 있다.

Ambient Scribe De Novo 첫 승인. 100개 넘는 Ambient AI Scribe 중 하나가 De Novo 경로로 FDA 승인을 받는 시나리오가 가장 현실적이다. Nuance DAX Copilot이 JAMA RCT 결과를 갖고 있어 유력 후보로 꼽힌다. 다만 De Novo 심사는 통상 6~12개월이 걸리고, 텍스트 전용 LLM에 대한 enforcement discretion이 언제 해제될지도 변수다. RAND 예측시장 참여자들이 2026년 3월까지의 승인을 부정적으로 본 건 이 절차적 시간을 반영한 결과다.

PCCP를 통한 LLM 변경 관리 틀 정착. 2024년 12월 확정된 PCCP 최종안이 LLM 제품에 실제 적용되려면 해당 제품이 먼저 승인을 받아야 한다. 닭과 달걀이다. 그러나 Prof.Valmed의 EU 사례가 FDA에 참조점을 제공할 수 있다. FDA가 2026년 2월 발효한 QMSR(Quality Management System Regulation) 전환, 즉 ISO 13485:2016 편입도 국제 규제 조화 방향의 움직임이다.

한미EU 규제 수렴 혹은 발산. 식약처가 가이드라인을, EU가 CE 마킹 선례를, FDA가 PCCP 프레임워크를 각각 확보한 상태다. 이 세 축이 수렴할지 발산할지가 글로벌 LLM 의료기기 시장의 구조를 결정한다. 2026년 2월 시점에서 확인 가능한 건 이렇다. FDA가 가장 신중하고, 한국이 가장 선제적이며, EU가 가장 실용적인 접근을 취하고 있다. 세 규제 기관 모두 환각과 비결정론적 출력, 버전 드리프트를 인식하고 있으나 해법이 서로 다르다. 이 차이가 어디로 수렴하느냐가 업계 관계자들이 주시해야 할 지점이다.

출처

FDA AI-Enabled Medical Devices 목록 (2026.02 기준, 1,016건+)
NPJ Digital Medicine, "Unregulated LLMs produce medical device-like output" (2025)
NPJ Digital Medicine, "AI taxonomy across 1,016 FDA authorizations" (2025)
PMC, "LLM non-compliance with FDA CDS guidance" (2024)
RAND Forecasting Initiative, "FDA LLM device by March 2026?" (2026)
Hardian Health, Prof.Valmed CE Class IIb regulatory clearance 상세 분석
Innolitics, Foundation Models and FDA Pre-Sub FAQ
서울경제, 식약처 생성형 AI 의료기기 가이드라인 보도 (2025.01)
식약처, 생성형 AI 의료기기 허가심사 가이드라인 공식 문서 (2025.01.24)
JAMA, Nuance DAX Copilot RCT 결과 (2024)
FDA QMSR Final Rule (2026.02.02 발효)
FDA AI/ML SaMD Action Plan, PCCP 최종안 (2024.12)

AI 의료기기 1,016건 중 LLM은 0건: FDA가 생성형 AI를 승인하지 못하는 구조적 이유

1,016 대 0

LLM이 기존 AI 의료기기와 다른 세 가지

FDA가 멈춘 자리

EU의 우회: Prof.Valmed가 보여준 길

한국 식약처, 가장 먼저 판을 짠 이유

2026년 하반기, 세 갈래 길

출처

신윤섭

AI 교육이 필요하신가요?

같은 주제의 다른 글

AI기본법, 의료 AI 기업에 실제로 달라지는 것들

AI 의료기기 1,016개, 근거 피라미드 꼭대기에 선 제품은 몇 개인가

HeartFlow FFRCT: NEJM과 Nature Medicine이 검증한 심혈관 AI 10년