Claude Fable 5: SWE-Bench 1위 코딩 모델이 3일 만에 꺼진 이유

코딩 AI가 처음 넘은 수치

2026년 6월 9일, 개발자 커뮤니티가 Fable 5 출시 공지에서 제일 먼저 스크롤을 멈춘 숫자는 SWE-Bench Pro 80.3%였다.

SWE-Bench는 GitHub에 실제로 올라온 버그 수정 이슈를 AI에 던져보는 벤치마크다. 교과서 문제가 아니라 현실 프로덕션 코드베이스에서 가져온 문제들이고, Pro 버전은 그 중에서도 까다로운 것들만 선별한 세트다. Fable 5 직전까지 가장 높은 점수는 Claude Opus 4.8의 69.2%였다. Fable 5는 거기서 11점포인트를 더 올렸다. GPT-5.5가 58.6%, Gemini 3.1 Pro가 54.2%였으니 격차가 상당하다.

숫자보다 중요한 건 이 수치가 어느 구간에 놓여 있느냐다. 코딩 AI의 능력은 선형으로 올라가지 않는다. 60%대 모델은 함수 하나를 완성해달라는 요청에는 쓸 만하지만, 코드베이스 전체를 보고 설계 문제를 짚으라는 요청은 감당 못 한다. 80%를 넘기는 순간 프로덕션 규모의 작업을 자율적으로 처리할 수 있는 문턱에 들어선다. Stripe 케이스가 그 의미를 구체적으로 보여준다.

하루 만에 끝난 두 달짜리 작업

Stripe는 5천만 줄 분량의 Ruby 코드베이스를 다른 시스템으로 이전하는 작업에 Fable 5를 투입했다. 결과는 1일 완료였다. 엔지니어팀이 직접 하면 두 달이 걸리는 일이다.

왜 코드 마이그레이션이 오래 걸리는지 잠깐 짚어둘 필요가 있다. 코드는 파일 하나가 독립적으로 서 있지 않는다. 어떤 함수가 다른 파일의 함수를 호출하고, 그 함수가 또 다른 모듈을 참조한다. 5천만 줄이면 이 의존 관계가 수백만 개다. 하나를 바꾸면 어디가 깨지는지 추적해야 하고, 추적하다 보면 맥락을 잃는다. 코딩 실력의 문제가 아니라 규모의 문제다.

Fable 5가 이를 가능하게 한 핵심은 컨텍스트 윈도우다. 컨텍스트 윈도우는 AI 모델이 요청 한 번에 처리할 수 있는 텍스트의 양이다. Fable 5는 100만 토큰으로, Claude Sonnet 4.6의 200K 토큰보다 5배 넓다. 중간 규모 코드베이스 전체를 한 번에 올려서 볼 수 있다. 파일을 쪼개 처리하고 맥락을 재조합하는 과정 없이 전체 구조를 보면서 추론하는 것이다.

Stripe의 파이프라인은 단순했다. 파일 스캔, 복잡도 분류, 변환 적용, 테스트 실행, 실패 로그 기록, 인간 검토. Fable 5가 앞의 다섯 단계를 처리하고 엔지니어는 마지막 검토만 담당했다. 두 달짜리 작업이 하루로 줄어든 구조다.

FrontierCode Diamond 벤치마크에서는 29.3%를 기록했다. 오픈소스로 공개되지 않은 실제 기업 코드베이스 문제를 다루는 벤치마크다. 2위인 Opus 4.8이 13.4%, GPT-5.5가 5.7%다. 현실 코드에 가까울수록 Fable 5와 다른 모델의 격차가 벌어지는 패턴이다.

위험 요청을 하위 모델로 넘기는 설계

성능만큼 주목받은 것은 설계 방식이었다. Fable 5는 사용자 요청을 처리하기 전에 실시간으로 안전 분류기를 통과시킨다.

분류기는 요청이 사이버보안, 생물학, 화학, 또는 모델 증류(다른 AI를 학습시키기 위한 데이터 생성)와 관련이 있는지 판단한다. 위험 신호가 감지되면 요청은 Fable 5 대신 Claude Opus 4.8로 넘어간다. 사용자 입장에서는 여전히 응답을 받지만, 더 보수적인 모델이 처리하는 것이다.

"가장 강한 모델을 어떻게 안전하게 공개할 것인가"에 대한 Anthropic의 답이 이 구조였다. 능력이 높아질수록 잠재적 위험도 커지니, 고위험 영역에서는 자동으로 다운그레이드하는 방식이다.

가격은 입력 $10/M 토큰, 출력 $50/M 토큰이었다. 이전에 연구 용도로만 제한 공개됐던 Mythos Preview의 절반 이하 수준이다. 출시와 함께 Pro, Max, Team, Enterprise 플랜에서 추가 비용 없이 사용 가능하도록 설계됐다. 3일이 지나기 전까지는.

72시간 후

6월 12일 오후, 미국 상무장관 Howard Lutnick이 Anthropic CEO Dario Amodei에게 직접 연락했다. Fable 5와 Mythos 5에 대한 외국인 접근을 즉시 차단하라는 지시였다.

이틀 전 일이 발단이었다. X(구 트위터)에서 활동하는 보안 연구자 "Pliny the Liberator"가 Fable 5에서 소프트웨어 취약점 식별 코드를 생성하도록 유도할 수 있는 탈옥 기법을 공개했다. 탈옥이란 AI 모델의 안전장치를 우회해서 원래 허용하지 않는 응답을 끌어내는 기법이다. 미국 상무부는 이를 사이버 무기 생성 우려로 해석했다.

Anthropic은 즉각 반박 성명을 냈다. 취약점 분석, 침투 테스트, 보안 감사는 방어적 사이버보안의 기본 작업이라는 것이다. 정부가 정상적인 보안 워크플로우를 안전장치 우회로 오해하고 있다는 주장이었다. 발견된 취약점 자체도 "비교적 단순"하고 다른 주요 모델에도 동일하게 존재한다고 밝혔다.

Anthropic의 반박이 맞을 수 있다. 하지만 명령은 이미 집행됐다.

미국 수출 행정 규정(EAR)은 원래 군사 장비, 암호화 기술, 반도체 같은 전략 물자의 수출을 통제하는 법이다. AI 모델은 그 목록에 없었다. 이번 사건이 미국 정부가 상용 AI 모델을 수출 통제 대상으로 다룬 첫 사례가 됐다.

"외국인만 차단"이 왜 불가능했나

명령의 내용은 "외국인 접근 차단"이었다. 결과는 전 세계 전면 차단이었다.

클라우드 서비스는 국적을 실시간으로 검증하지 않는다. 계정을 만들 때 국적을 입력받지 않고, API 요청이 들어올 때 그것이 미국인인지 외국인인지 판별하는 표준 메커니즘이 없다. IP 주소는 있지만 국적과 다르다. 미국에 거주하는 외국인, 해외에 체류 중인 미국인, 영주권자, 방문 연구자가 모두 한데 섞인다.

국적 기반 접근 제어를 기술적으로 구현하려면 여권 인증이나 법적 신분 확인 절차가 필요하다. 기존 API 서비스 구조와는 전혀 다른 인프라다. 금요일 오후에 즉시 구현할 수 있는 일이 아니었다.

Anthropic이 선택할 수 있는 방법은 하나뿐이었다. 전면 차단. Fable 5와 Mythos 5는 전 세계 모든 사용자에게 비활성화됐다. Anthropic 내부의 외국 국적 직원들도 포함됐다. 사전 공지는 없었다.

당시 Fable 5를 프로덕션 파이프라인에 연결해둔 팀들은 금요일 저녁부터 갑작스러운 장애를 맞았다. Opus, Sonnet, Haiku 계열은 이번 조치와 무관했다. Mythos 클래스, 즉 Fable 5와 Mythos 5에만 해당하는 차단이었다.

민간은 차단, 정부는 허가: Mythos 5의 행방

Fable 5가 전면 차단되는 동안, Mythos 5는 부분적으로 살아 있었다.

Mythos 5는 Fable 5와 같은 기반 모델에서 출발하지만 일부 영역의 안전장치가 해제된 버전이다. 일반 상용 배포용이 아니라 특수 목적으로 설계됐다. 차단 이후 Mythos 5는 "Project Glasswing"이라는 정부 프로그램을 통해 미국의 일부 핵심 인프라 보안 기관에만 제한적으로 재배포됐다.

아이러니한 구조다. 정부는 취약점을 이유로 Fable 5를 차단했지만, 같은 기반 모델에서 나온 더 강력한 버전은 정부 직접 사용 용도로 활성화했다. "위험한 AI는 민간이 쓰면 안 된다. 하지만 정부는 쓴다"는 논리다. 이 구조가 AI 안전 논의에서 오래 다뤄질 것은 분명하다.

Fable 5가 돌아와도 달라진 것

6월 29일 현재, 복구 협상이 진행 중이다. Anthropic은 미국 수출 행정 규정의 이의 신청 절차를 밟고 있다. 반도체나 군사 장비에는 수십 년간 쌓인 사례가 있지만 AI 모델에 이 절차가 적용된 것은 처음이라, 어떤 기준으로 어느 속도로 결론이 날지 전례가 없다.

지금까지 알려진 것은 미국 내 일부 핵심 인프라 기관에 Mythos 5 접근이 재개됐다는 것이다. 일반 상용 접근, 특히 미국 외 지역의 복구 시점은 협상 결과에 달려 있다.

중요한 건 복구 여부가 아니라 선례다. 이번 차단에 사용된 법적 근거가 확립되면 미국 정부는 앞으로도 동일한 방식으로 상용 AI 모델 접근을 제어할 수 있다. Anthropic에게만 해당하는 이야기가 아니다. 미국 클라우드 기반의 프론티어 AI 서비스를 제공하는 모든 기업이 같은 구조 아래에 있다.

답 없이 남겨진 네 가지 질문

Fable 5 사태는 업계 전체에 몇 가지 질문을 남겼다.

첫째는 코딩 AI의 이중용도 문제다. 취약점을 찾는 코드를 짜는 능력은 방어에도 공격에도 쓸 수 있다. Fable 5가 차단된 이유가 된 기법은 "비교적 단순"하고 다른 모델에도 존재한다고 Anthropic이 밝혔다. 그렇다면 Fable 5만의 문제가 아니다. SWE-Bench에서 70%를 넘긴 모든 모델이 같은 잣대로 검토 대상이 될 수 있다는 논리가 성립한다. 코딩 AI의 어느 수준부터를 수출 통제 대상으로 볼 것인지, 기준이 없다.

둘째는 안전장치 설계의 한계다. Fable 5는 안전 분류기를 내장하고 고위험 요청을 Opus 4.8로 폴백시키는 구조를 갖추고 있었다. 그럼에도 탈옥이 가능했다. Anthropic의 설계 실패인지, 아니면 어떤 모델에도 존재하는 구조적 한계인지에 대한 답은 아직 없다. 안전장치는 완벽할 수 없고, 그 불완전성을 어느 수준까지 허용할 것인지가 문제다.

셋째는 AI 인프라 의존성이다. Fable 5가 차단됐을 때 다른 모델로 즉각 전환한 팀과 그렇지 못한 팀의 차이는 기술 수준이 아니었다. 설계의 전제였다. "이 API가 내일도 작동한다"를 당연하게 여기느냐, 아니면 잠재적 장애 포인트로 보느냐. 전력망이나 통신망에는 이중화 설계가 기본이다. AI 서비스도 그 수준의 의존도에 들어섰지만, 실제 시스템 설계는 아직 거기에 맞춰지지 않은 경우가 많다.

넷째는 오픈소스와 클로즈드 모델의 논쟁이 새 국면에 접어들었다는 점이다. 오픈소스 모델은 가중치가 공개된다. 가중치는 AI 모델이 학습을 통해 쌓은 수십억 개의 파라미터 값이다. 가중치가 공개되면 누구든 자신의 서버에 내려받아 운영할 수 있다. 특정 정부의 API 차단 명령이 그 모델 자체에는 영향을 줄 수 없다는 뜻이다. Fable 5 사태 직후 오픈소스 진영 여러 모델이 "정부가 끄지 못하는 모델"이라는 메시지를 내놓은 이유가 거기에 있다.

안전 설계는 필요조건이지 충분조건이 아니다

사건의 타임라인을 다시 보면 긴장 관계가 선명하다.

Anthropic은 출시 전 내부적으로 Fable 5가 이전과 다른 종류의 모델임을 인지하고 있었다. TechCrunch 보도에 따르면 Anthropic은 Fable 5를 공개하기 며칠 전 "AI가 너무 위험해지고 있다"는 경고성 성명을 냈다. 그러면서도 공개했다. 안전장치를 내장하는 것으로 감당 가능한 범위라고 판단했기 때문이다.

정부는 다르게 봤다. "비교적 단순한" 취약점 하나가 발견되자 전 세계 접근을 차단하는 것이 비례적 대응이라고 판단했다. Anthropic은 이 수준의 취약점으로 상용 모델 전체를 회수하는 건 과도하다는 입장이다.

누가 맞는지는 아직 열려 있다. 다만 결정이 내려지는 구조는 드러났다. 기술 기업이 모델을 설계하고, 외부 연구자가 취약점을 발견하고, 정부가 자체 판단으로 조치를 내린다. 이 구조에서 AI 기업의 내부 안전 설계는 필요조건이지 충분조건이 아니다.

Fable 5가 복구된 이후에도 이 구조는 바뀌지 않는다. 다음에는 다른 모델이, 다른 이유로, 같은 과정을 거칠 수 있다. AI가 실질적인 인프라가 되는 속도와 그것을 다루는 규제 체계가 성숙하는 속도 사이의 간격, 그 간격이 당분간 좁혀지지 않을 것이라는 게 이 사건이 남긴 가장 무거운 메시지다.

Claude Fable 5: SWE-Bench 1위 코딩 모델이 3일 만에 꺼진 이유

코딩 AI가 처음 넘은 수치

하루 만에 끝난 두 달짜리 작업

위험 요청을 하위 모델로 넘기는 설계

72시간 후

"외국인만 차단"이 왜 불가능했나

민간은 차단, 정부는 허가: Mythos 5의 행방

Fable 5가 돌아와도 달라진 것

답 없이 남겨진 네 가지 질문

안전 설계는 필요조건이지 충분조건이 아니다

신윤섭

AI 교육이 필요하신가요?

같은 주제의 다른 글

출시 3일 만에 전 세계 차단, Fable 5 사태가 드러낸 AI 수출통제의 현실

Fable 5가 사흘 만에 내려간 이유

애플이 구글에게 시리를 맡긴 날