말하는 용량 계산기: FDA가 처음 허가한 LLM 의료기기의 진짜 설계

2026년 6월 25일, 미국 스타트업 UpDoc이 자사 소프트웨어 'UpDoc V1.0'을 "환자와 직접 대화하는 최초의 FDA 허가 임상 LLM"이라고 공식 발표했다. 실제 허가(510(k) K253281)는 그보다 앞선 2025년 12월 23일에 나 있었다. 환자가 목소리나 문자로 대화하면 인슐린 용량을 안내하는 이 제품은, 겉은 생성형 AI지만 정작 용량을 계산하는 속은 25년 된 방식 그대로의 결정론적 계산기다. 바로 그 이중 구조가 규제를 통과시킨 핵심이다.

인슐린을 제때 못 올리는 병부터 짚어보자

제2형 당뇨병 인슐린 치료의 임상 관성 문제를 보여주는 지표: 미국 임상 관성 평균 60.6%, 기저 인슐린 환자 35%가 1년 뒤에도 혈당 목표 미달, 3분 진료의 한계

이 이야기는 규제나 인공지능이 아니라, 병원에서 매일 벌어지는 아주 흔한 실패에서 출발한다. 제2형 당뇨병 환자가 기저 인슐린(basal insulin, 하루 한 번 맞아 기본 혈당을 낮추는 지속형 인슐린)을 쓰기 시작하면, 혈당 수치를 보며 용량을 조금씩 올려 목표치에 맞춰야 한다. 이 조정 과정을 인슐린 적정(titration)이라고 부른다. 원리는 단순하다. 아침 공복 혈당이 높으면 며칠 간격으로 몇 단위씩 올리면 된다.

문제는 이 단순한 일이 현실에서 잘 안 된다는 데 있다. 의사가 용량을 올려야 하는 상황을 뻔히 알면서도 미루는 현상을 임상 관성(clinical inertia, 치료를 강화해야 할 시점에 강화하지 않는 관성)이라고 하는데, 미국에서 이 비율은 평균 60.6%, 높게는 85.8%까지 보고된다. 기저 인슐린을 쓰는 환자의 35%는 1년이 지나도 당화혈색소(HbA1c, 최근 두세 달 평균 혈당을 보여주는 지표)가 목표에 못 미친 채 새 약도 추가되지 않는다. 환자는 저혈당이 무섭고 주사가 번거로워 스스로 용량을 못 올리고, 의사는 3분 진료 안에 매번 혈당 로그를 들여다보며 미세 조정해줄 시간이 없다. 약은 이미 다 나와 있는데, 그 약을 제대로 쓰게 만드는 손이 부족한 셈이다.

UpDoc이 겨냥한 지점이 정확히 여기다. 새로운 약이나 진단법을 내놓은 게 아니라, 이미 처방된 인슐린을 환자가 집에서 제대로 올려 나가도록 곁에서 관리해주는 소프트웨어다. 환자는 앱에 대고 "오늘 아침 공복 혈당 180이었어요"라고 말로 알리고, 소프트웨어가 "그러면 오늘부터 2단위 올리세요" 하고 답한다. 사람 손이 부족해 생기던 공백을, 대화가 되는 프로그램으로 메우겠다는 발상이다.

FDA가 실제로 허가한 것은 '말하는 용량 계산기'였다

FDA 510(k) 우회 경로 다이어그램: UpDoc V1.0이 25년 된 예측기기 d-Nav(510(k) K181916, 21 CFR 868.1890 약물 용량 계산기)에 본질적 동등성으로 올라타 Class II로 허가받은 구조

여기까지만 들으면 흔한 헬스케어 앱처럼 들린다. UpDoc이 업계의 주목을 받은 이유는 이 제품이 FDA가 처음으로 시판을 허가한, 환자를 직접 상대하는 임상용 거대언어모델(LLM)이라는 점 때문이다. 그동안 의료 현장에 들어온 LLM은 대부분 의사의 진료 기록을 대신 받아 적는 서기 역할이거나, 최종 판단은 사람이 하도록 정보만 정리해주는 보조 도구였다. 환자에게 직접 "용량을 이렇게 바꾸세요"라고 지시하는 생성형 AI가 의료기기 허가를 받은 건 이번이 처음이다.

그런데 허가 문서를 열어보면 회사의 홍보 문구와는 결이 다른 그림이 나온다. FDA는 UpDoc V1.0을 510(k) 경로로 허가했다. 510(k)는 미국에서 의료기기를 내놓을 때 가장 많이 쓰는 통로로, 완전히 새로운 임상시험 대신 이미 허가된 유사 제품(예측기기, predicate device)과 견줘 "본질적으로 동등하다"는 점만 입증하면 되는 방식이다. UpDoc이 동등성의 기준으로 삼은 예측기기는 놀랍게도 하이지아(Hygieia)의 d-Nav라는 2019년 인슐린 용량 계산기(510(k) 번호 K181916)였다.

제품 분류도 그 성격을 그대로 드러낸다. UpDoc에 붙은 제품코드는 NDC, 규정 조항은 21 CFR 868.1890으로, 둘 다 오래전부터 약물 용량 계산기(drug dose calculator)에 쓰여 온 분류다. 등급은 중간 위험도인 2등급(Class II)이다. 정리하면 FDA는 이 제품을 "환자와 대화하는 자율 임상 AI"가 아니라 "말을 할 줄 아는 용량 계산기"로 받아들여 허가한 것이다. 허가받은 사용 목적(indication)의 문구 자체도 좁고 분명하다. "제2형 당뇨병으로 진단받은 18세 이상 환자의 약물 관리를 제공하는 소프트웨어." 자율적 임상 판단이나 다중 질환 관리 같은 표현은 어디에도 없다.

LLM은 바깥에, 결정은 안쪽에

UpDoc의 이중 구조 아키텍처 다이어그램: 바깥층 대화 서비스는 LLM이 환자 대화와 데이터 수집을 맡고, 안쪽층 임상 서비스는 결정론적 로직이 인슐린 용량을 계산하는 구조

FDA가 이 제품을 계산기로 분류할 수 있었던 건 UpDoc의 내부 설계 자체가 그렇게 짜여 있기 때문이다. 소프트웨어는 두 층으로 나뉜다. 바깥층은 대화 서비스(Conversation Service)로, 환자의 목소리나 문자를 받아 혈당, 식사, 증상, 복약 여부 같은 데이터를 알아듣고 자연스러운 말로 되돌려주는 역할을 LLM이 맡는다. 안쪽층은 임상 서비스(Clinical Service)로, 실제 인슐린 용량을 계산하는 부분이다. 그리고 이 계산은 LLM이 하지 않는다. 의료진이 미리 설정해둔 목표 혈당, 조정 폭, 안전 규칙에 따라 정해진 공식대로만 답을 내는 결정론적(deterministic) 로직이 담당한다.

이 구분이 왜 그렇게 중요한가. LLM은 같은 질문에도 매번 조금씩 다른 답을 내놓을 수 있는 확률적 모델이다. 그런데 인슐린 용량 계산기는 같은 혈당 값에 대해 언제나 같은 용량을 내놓아야 한다. 오늘은 2단위, 내일은 4단위를 권하는 계산기는 그 자체로 위험하다. FDA가 의료기기를 허가하는 근거는 "동작이 예측 가능하고 결정 경로를 추적할 수 있는가"인데, 생성형 모델은 태생적으로 이 요건과 부딪친다. UpDoc은 그 충돌을 정면 돌파하는 대신 우회했다. 말을 알아듣고 말을 거는 일은 LLM에게 맡기되, 환자의 몸에 실제로 영향을 주는 용량 계산에서는 LLM의 손을 완전히 떼어낸 것이다. 한 규제 분석가의 표현을 빌리면 "겉은 대화, 가운데는 구조화된 데이터, 속은 규약화된 임상 판단"이다.

FDA는 여기에 안전장치를 하나 더 걸었다. 사전 변경 관리 계획(PCCP, Predetermined Change Control Plan)이라는 제도인데, 허가 이후 소프트웨어를 어디까지 손봐도 되는지를 미리 정해두는 약속이다. UpDoc의 PCCP는 기본값이나 화면, 입력 방식은 고쳐도 되지만 "결정론적 용량 계산 로직은 유지해야 하며 핵심 임상 판단을 바꿔서는 안 된다"고 못박았다. 다시 말해 나중에 LLM에게 용량 결정 권한을 조금이라도 넘기려 하면, 그 순간 새로운 510(k) 심사를 다시 받아야 한다. 모델이 넘볼 수 없는 선을 규제가 처음부터 그어둔 셈이다.

임상시험 없이 통과한 이유

이 대목에서 짚어야 할 사실이 하나 더 있다. UpDoc의 510(k) 제출 자료에는 이 제품 자체의 임상시험 데이터가 들어 있지 않았다. FDA는 임상 연구가 이 경우엔 해당하지 않는다고 보고, 소프트웨어 문서와 사이버보안, 사용자 요인(human factors) 시험만으로 동등성을 인정했다. 510(k)의 논리상 예측기기와 본질적으로 같다는 점만 보이면 새 임상 자료가 필수는 아니기 때문이다. 25년 가까이 여러 인슐린 계산기를 품어 온 낡은 NDC 분류에 올라탄 대가로, UpDoc은 지루하지만 확실한 길을 택한 것이다.

혼동하기 쉬운 지점이 여기서 생긴다. UpDoc은 2023년 JAMA Network Open에 실린 임상시험을 근거로 제시하곤 하는데, 이 MIVA 임상(NCT05081011)은 스탠퍼드에서 진행된 32명 규모의 무작위 대조시험이다. 규모도 작지만 더 중요한 건, 그 연구가 검증한 시스템이 지금 허가받은 제품과 다른 소프트웨어라는 점이다. 해당 논문 자체가 "이 기술은 AI가 스스로 용량을 결정하도록 설계되지 않았다"고 명시하고 있고, 회사는 그 임상에 쓰인 소프트웨어를 실제 제품에 쓰지 않는다. 즉 "FDA 허가"라는 규제적 사실과 "임상적으로 입증됐다"는 효능 주장은 서로 다른 이야기인데, 둘이 자주 뒤섞여 전달된다.

홍보 문구와 허가 문구가 가리키는 두 개의 다른 제품

UpDoc은 스스로를 "의사를 대체하지 않고 돕는 에이전트형 임상 AI", "돌봄 전달을 위한 운영체제"로 소개한다. Cleveland Clinic, AHN, UCSF 같은 대형 병원 시스템에 초기 도입이 시작됐고, 보도에 따르면 Mayo Clinic과 일라이 릴리(Eli Lilly)가 참여한 1800만 달러 규모 시드 투자도 받았다. 당뇨 관리 소프트웨어에 세계 최대 인슐린 제조사와 미국을 대표하는 병원이 돈을 넣었다는 사실 자체가, 이 공백이 얼마나 큰 시장인지를 말해준다.

그런데 이 홍보 언어와 FDA가 실제로 검토한 범위 사이에는 뚜렷한 틈이 있다. "에이전트형", "자율적", "의사 수준의 케어" 같은 표현은 임상적 독립성을 떠올리게 하지만, 허가받은 사용 목적은 어디까지나 제2형 당뇨병 인슐린 관리 하나에 묶여 있다. FDA의 표시·광고 규정(21 CFR 807.97 등)은 허가 범위를 넘어 "FDA가 승인한 듯한 인상"을 주는 것을 금지한다. 가장 확장된 마케팅 문구와 실제 허가 문구는 사실상 서로 다른 두 제품을 묘사하고 있고, 파일을 직접 열어보지 않으면 독자는 어느 쪽을 FDA가 봤는지 구분하기 어렵다. 이건 UpDoc 한 회사를 탓할 일이라기보다, 새로운 기술이 낡은 분류에 끼워 맞춰질 때 필연적으로 벌어지는 틈이다.

LLM 의료기기를 만들려는 이들에게 남은 것

이번 허가가 업계에 남긴 신호는 두 갈래다. 하나는 길이 열렸다는 것이다. 생성형 AI를 환자 접점에 두면서도 의료기기 허가를 받는 게 불가능하지 않다는 사실을, UpDoc이 실제 사례로 보여줬다. 방법도 분명하다. LLM을 대화와 데이터 수집 같은 바깥층에 가두고, 규제 대상이 되는 실제 임상 출력은 추적 가능한 결정론적 로직에 맡기는 이중 구조다. 앞으로 비슷한 방식으로 좁게 설계된 임상 소프트웨어들이 이 경로를 따라올 여지가 커졌다.

다른 하나는 아직 길이 없다는 것이다. UpDoc이 25년 된 용량 계산기 분류에 몸을 맞춰야 했다는 사실 자체가, 생성형이나 에이전트형 임상 소프트웨어를 위한 전용 허가 경로가 여전히 존재하지 않는다는 방증이다. LLM이 용량 계산 같은 규제 대상 판단에 실제로 관여하기 시작하는 순간, 지금의 우회로는 더 이상 통하지 않는다. 예측 가능성과 추적 가능성을 요구하는 규제와, 매번 다른 답을 낼 수 있는 생성형 모델의 본질적 긴장은 이번 허가로 해소된 게 아니라 잠시 비켜간 것에 가깝다.

그래서 UpDoc의 의미는 "AI가 드디어 환자를 진료하기 시작했다"가 아니다. 오히려 반대다. 환자와 대화하는 첫 임상 LLM조차, 정작 몸에 영향을 주는 결정에서는 인공지능을 철저히 배제해야만 시장에 나올 수 있었다. 지금 규제가 허용하는 LLM 의료기기의 경계선이 어디까지인지를, 이 제품 하나가 꽤 정확하게 그려 보이고 있다.

말하는 용량 계산기: FDA가 처음 허가한 LLM 의료기기의 진짜 설계

인슐린을 제때 못 올리는 병부터 짚어보자

FDA가 실제로 허가한 것은 '말하는 용량 계산기'였다

LLM은 바깥에, 결정은 안쪽에

임상시험 없이 통과한 이유

홍보 문구와 허가 문구가 가리키는 두 개의 다른 제품

LLM 의료기기를 만들려는 이들에게 남은 것

출처

신윤섭

AI 교육이 필요하신가요?

같은 주제의 다른 글

FDA가 AI 영상 소프트웨어에 새 주소를 내줬다: 892.2055와 PCCP 내장 분류

하루 차이, 1년의 손실: 뷰노 딥카스가 마주한 미국의 두 캘린더

심전도 한 장이 잡아낸 희귀 심장병: Anumana FDA 허가와 ECG AI 급여 원년