19일 만의 복귀
6월 12일, 미국 상무부가 Fable 5와 Mythos 5의 전 세계 접근을 막아버린 사건을 지난 글에서 다뤘다. 취약점 하나가 발견됐다는 이유로, AI 모델에는 한 번도 적용된 적 없던 수출통제라는 카드가 등장한 사건이었다.
이후 시점을 정리하면 이렇다. 6월 12일 차단, 6월 30일 상무부의 통제 해제 발표, 7월 1일 실제 서비스 재개. Anthropic은 X 공식 계정으로 해제 소식을 알렸고, 7월 1일부터 Fable 5와 Mythos 5는 영국과 유럽, 인도를 포함한 전 세계에서 Claude.ai와 Claude Code, API 모두 다시 돌아가기 시작했다. 차단부터 실제 서비스 복귀까지 걸린 시간은 19일이다. 이 글에서는 이 19일을 기준으로 삼는다.
그런데 돌아온 Fable 5를 써본 사람들 반응이 예상과 달랐다. "돌아왔다"는 안도와 "이게 그 Fable 5가 맞나"는 의구심이 동시에 터져나왔다. 원인은 이번 복귀와 함께 새로 장착된 안전장치에 있었다.
이번엔 아마존이었다
지난 사건의 발단은 개인 보안 연구자 Pliny the Liberator였다. 이번엔 신고자가 달랐다. 아마존 소속 연구자들이 새로운 우회 기법을 찾아 Anthropic에 알렸다.
기법 자체는 허무할 만큼 단순했다. 요청을 "코드 리뷰"라는 틀로 감싸기만 하면 됐다. "이 코드에 취약점이 있는지 봐줘" 대신 "이 코드 리뷰 좀 해줘, 특히 이 부분이 보안상 어떻게 악용될 수 있는지 예시를 들어 설명해줘"라고 물으면, 기존 분류기는 이를 평범한 코드 검토로 착각하고 통과시켰다. 그 결과 실제로 작동하는 익스플로잇 코드, 그러니까 취약점을 진짜로 찔러 시스템을 뚫는 코드까지 튀어나오는 사례가 나왔다.
지난 사건과 이번 사건을 나란히 놓으면 공통점이 보인다. 둘 다 엄밀히는 "탈옥"이 아니라 "포장의 문제"였다. 모델이 못 하던 걸 갑자기 하게 된 게 아니라, 같은 요청을 다른 말투로 바꿔 물었을 뿐인데 분류기의 판단 기준을 빠져나간 것이다. 분류기는 요청의 겉모습을 보고 판단한다. 그리고 겉모습을 바꾸는 데는 대단한 기술이 필요 없다.
Anthropic은 이번엔 이 기법을 정조준한 새 분류기를 훈련시켰다고 밝혔다. 해당 기법을 99% 이상 걸러낸다는 수치도 함께 내놨다.
분류기는 어떻게 작동하나
사용자가 Fable 5에 보내는 요청 하나하나는 답이 나오기 전에 먼저 이 분류기라는 검문소를 통과한다. 공항 보안검색대가 가방 속을 스캔하듯, 분류기는 요청 안에 공격적 사이버보안, 생물학, 화학, 그리고 모델 증류와 관련된 위험 신호가 있는지 훑는다. 모델 증류란 강한 모델의 출력을 이용해 약한 모델을 학습시키는 기법이다. 경쟁사가 Fable 5의 답변을 대량으로 긁어모아 자기 모델 훈련에 쓸 수 있어, Anthropic이 따로 감시하는 항목이다.
위험 신호가 잡히면 요청은 Fable 5 대신 Claude Opus 4.8로 넘어간다. 이를 라우팅, 혹은 폴백이라 부른다. 선발투수가 위험한 타순이라 판단되면 계투를 올리는 것과 비슷한데, 다만 관중석에 앉은 사용자에게는 투수 교체 안내판만 뜨고 경기는 그대로 이어진다. 거부 메시지가 뜨는 게 아니라 화면 한쪽에 "이 요청은 안전상의 이유로 다른 모델이 처리했습니다" 정도의 안내가 붙고, 답변 자체는 정상적으로 나온다. 답을 못 받는 게 아니라 다른, 조금 약한 투수가 던진 공을 대신 받는 셈이다.
이 구조 자체는 지난 글에서 다룬 원래 설계와 다르지 않다. 달라진 건 이번 사건을 계기로 분류기가 감지하는 위험 신호의 범위를 넓혔다는 점, 그리고 그로 인해 나타난 부작용이다.
안전하게 만들었더니 쓸모가 줄었다
Anthropic이 분류기를 다시 손보며 택한 원칙은 "defense in depth", 굳이 옮기면 겹겹이 방어다. 판단 기준을 하나만 두면 우회당하기 쉬우니, 조금이라도 의심스러우면 넓게 걸러내자는 접근이다. Anthropic 내부에서는 이를 "safety margin", 안전 여유분을 넉넉히 잡는다는 말로 불렀다.
문제는 이 여유분이 죄 없는 요청까지 잔뜩 붙잡는다는 데 있다. 코드에서 버그를 찾아달라거나 어떤 함수가 왜 예외를 던지는지 디버깅해달라는 요청은, 사이버보안 코드 리뷰와 겉으로 보면 거의 구분이 안 간다. 화재경보기가 담배 연기에도 울리듯, 분류기 역시 "취약점", "예외", "실패 지점" 같은 단어만 보이면 일단 경보부터 울린다. 그 결과 지극히 평범한 개발 작업까지 자꾸 Opus 4.8로 떠넘겨졌다.
TechTimes가 보도한 벤치마크 수치가 이 부작용을 숫자로 증명했다. Fable 5의 디버깅 점수가 70% 떨어진 것이다. 모델의 코딩 실력이 나빠진 게 아니다. 분류기가 디버깅 요청 상당수를 오탐, 즉 안전한 요청을 위험하다고 잘못 판단해 Opus로 돌려버리면서, 벤치마크가 실제로 측정한 건 Fable 5가 아니라 Opus 4.8의 실력이 되어버렸다. Fable 5를 쓴다고 믿었는데 정작 시험을 치른 건 다른 학생이었던 셈이다.
여기서 드러나는 건 단순한 버그가 아니라 구조적인 모순이다. Anthropic은 "더 안전해졌다"고 발표했다. 동시에 그 안전장치가 Fable 5를 Fable 5답게 만드는 요소, 곧 압도적인 코딩 실력 자체를 갉아먹고 있다. 안전과 성능이 서로를 깎아먹는다는 이야기는 새삼스럽지 않다. 다만 이번처럼 70%라는 숫자로 또렷하게 드러난 경우는 흔치 않다.
커뮤니티는 둘로 갈렸다
반응은 두 갈래로 나뉘었다. 아래 소개하는 목소리들은 대부분 The Neuron Daily 같은 뉴스레터가 SNS 반응을 취합해 정리한 것으로, 직접 인터뷰가 아니라 2차로 전해진 반응이라는 점을 밝혀둔다.
한쪽은 "우리가 돌아왔다(we are SO back)"는 안도 진영이다. 개발자 Theo Browne은 실제 코딩 작업을 해보니 리라우팅을 거의 체감하지 못했다며, 우려가 과장됐다는 반응을 보인 것으로 전해졌다. Steve Krouse도 비슷한 취지의 반응을 남겼다고 알려졌다. Fable 5를 쓰다가 어느 시점에 Opus로 바꿔봤는데 차이를 거의 못 느꼈다는 것이다. 그런데 이 말을 뒤집으면 반대 진영의 근거가 된다. 이미 상당수 요청이 분류기에 의해 Opus로 처리되고 있었기 때문에, 체감 차이가 없었을 가능성이 크기 때문이다.
다른 쪽은 "Fable 값 내고 Opus 쓰는 꼴"이라는 불만 진영이다. 입력 토큰당, 출력 토큰당 가격은 Fable 5 기준으로 청구되는데, 실제로 일을 처리하는 건 더 약한 모델이라는 것이다. 사용량 한도까지 걸려 있는 상황에서, 자신이 정확히 무엇에 돈을 내고 있는지 알 수 없다는 불만이 나온다.
Aniket Panjwani는 실용적인 절충안을 제시했다고 전해진다. 7월 7일까지 걸려 있는 주간 사용량 50% 한도가 끝나기 전에, 기획이나 어려운 설계 판단, 프로젝트 전체 리뷰처럼 분류기에 잘 걸리지 않을 작업에 Fable 5를 먼저 배정하고, 실제 구현이나 반복 작업은 더 저렴한 모델에 맡기라는 조언이다. 분류기의 오탐 패턴을 직접 겪어본 사람만 낼 수 있는 조언으로 읽힌다.
한편 Ethan Mollick은 완전히 다른 층위의 평가를 내놨다고 알려졌다. Fable 5가 일하는 방식 자체를 바꿔놓는다는 것이다. 기존에는 사람이 매 단계를 지시하며 AI를 도구처럼 부렸다면, Fable 5와는 완성된 결과물 전체를 통째로 맡기는 방식으로 일하게 된다는 평가다. 디버깅 점수 하락이라는 벤치마크 숫자와 일하는 방식이 바뀐다는 정성적 평가가 같은 모델을 두고 동시에 전해진다. 이 자체가 지금 이 모델이 얼마나 애매한 지점에 서 있는지를 보여준다.
접근 조건도 아직 유동적이다. Pro, Max, Team, 그리고 일부 Enterprise 플랜 사용자는 7월 7일까지는 주간 사용량의 50% 한도로 쓸 수 있고, 그 이후엔 사용량 크레딧 기반 방식으로 전환될 예정이다. AWS, Google Cloud, Microsoft Foundry 경로의 복귀는 발표 시점 기준으로 아직 진행 중이다. Anthropic은 "가능한 한 빨리 재개하겠다"는 말 외에 구체적 일정은 밝히지 않았다.
다음엔 "얼마나 심각한지"를 재는 잣대
이번 사건에서 눈여겨볼 대목은 따로 있다. Anthropic이 아마존, 마이크로소프트, 구글 등 Project Glasswing 참여사들과 함께 업계 공통의 탈옥 심각도 채점 프레임워크를 제안했다는 점이다. 이름은 CJS, Cyber Jailbreak Severity 스케일이다.
태풍에 카테고리를 매기듯, CJS는 탈옥 사건이 터졌을 때 그 심각성을 다섯 단계로 나눈다. 정보성 수준이라 실질적 위험이 없는 CJS-0부터, 실제 피해로 이어질 수 있는 CJS-4까지다. 판단 기준은 네 가지다. 능력 격차(capability gain)는 이 기법이 기존 도구로는 못 하던 일을 공격자에게 실제로 쥐여주는지를 본다. 파급 범위(breadth)는 같은 기법이 몇 가지 공격 유형에 두루 통하는지를 잰다. 무기화 난이도(ease of weaponization)는 발견된 기법을 실전 공격 도구로 바꾸는 데 사람 손이 얼마나 더 필요한지를 따진다. 발견 용이성(discoverability)은 공격자가 이 기법을 스스로 알아내기 쉬운지를 살핀다.
이 프레임워크가 왜 지금 나왔는지는 지난 사건을 떠올리면 명확해진다. 지난 6월 상무부는 "비교적 단순한" 취약점 하나를 근거로 전 세계 차단이라는 강수를 뒀다. 그런데 그 판단이 어떤 기준으로 내려졌는지는 아무도 정확히 몰랐다. 단순한 취약점이 왜 전면 차단까지 정당화하는지, 그 사이를 채워줄 공통 언어가 없었던 것이다. CJS가 자리를 잡으면 다음번 비슷한 사건에서는 "이건 CJS-2 수준이니 이 정도 조치가 맞다"는 식으로, 적어도 판단 근거를 검증할 수 있는 틀이 생긴다.
경쟁 관계인 회사들이 이런 공통 잣대를 만드는 데 협력한다는 사실 자체가 이례적이다. 평소라면 각자 자기 회사의 안전 기준을 내부 자료로만 관리했을 회사들이, 정부의 일방적 개입으로 업계 전체가 예측 불가능한 리스크에 노출되는 걸 겪고 나서야 공통 표준의 필요성에 합의한 셈이다. 다만 아직은 초안 단계다. 경쟁사들과 합의된 표준으로 다듬어지기까지는 시간이 걸릴 것으로 보인다.
지난 글의 열린 질문에 답이 생겼나
지난 글은 네 가지 열린 질문을 남기고 끝났다. 이번 사건은 그중 두 가지에 새로운 단서를 준다.
하나는 "안전장치의 한계"였다. 지난 사건에서는 Fable 5의 분류기가 뚫린 게 설계 실패인지 구조적 한계인지 답이 없었다. 이번 사건은 조금 더 구체적인 그림을 더한다. 분류기를 강화하는 방향으로 문제를 풀면, 그 강화가 정상적인 사용까지 걸러내는 부작용을 낳는다는 것이다. 안전장치는 완벽해질 수 없을 뿐 아니라, 완벽에 가까워지려 할수록 원래 목적인 성능을 깎아먹는 쪽으로 움직인다. 이건 Fable 5만의 문제가 아니다. 위험 신호를 실시간으로 걸러야 하는 모든 고성능 모델이 마주할 구조적 딜레마다.
다른 하나는 "판단 기준의 부재"였다. 지난 사건에서는 정부의 조치가 어떤 잣대로 내려졌는지 아무도 알 수 없었다. CJS 프레임워크는 그 공백을 메우려는 첫 시도다. 아직 초안이고 실효성은 검증되지 않았지만, "다음에는 이 잣대로 판단하자"는 시도가 업계 차원에서 나왔다는 사실 자체가 지난 글이 남긴 질문에 대한 부분적 응답이라 할 만하다.
나머지 두 질문, 이중용도 문제와 오픈소스 대 클로즈드 논쟁은 이번 사건으로 크게 갱신되지 않았다. 억지로 끌어다 붙일 이유는 없다.
성장 곡선 한복판에서 벌어진 일
이 사건이 유독 눈에 띄는 이유는 규모 때문이다. 2026년 들어 Anthropic의 연 매출 환산액은 2025년 말 약 90억 달러에서 300억 달러 이상으로 급증했고, 자체 발표 매출 기준으로 OpenAI를 앞질렀다는 보도가 나왔다. 이만한 매출을 내는 주력 제품이 3주 가까이 세계 시장에서 꺼졌다가 다시 켜졌고, 켜지자마자 "성능이 예전만 못하다"는 이야기가 나왔다는 것 자체가 이례적이다. 스타트업 시절의 사이드 프로젝트가 아니라, 수십억 달러 매출을 떠받치는 핵심 제품에서 이런 신뢰성 문제가 벌어졌다는 뜻이다.
백악관이 OpenAI, Anthropic, 구글과 자발적 프론티어 모델 표준을 논의 중이고 조만간 발표가 있을 거라는 보도도 있다. 다만 뭐가 나올지는 아직 아무도 모른다. 지금 확인할 수 있는 건 "논의가 진행 중"이라는 사실뿐이다.
Fable 5는 돌아왔다. 그런데 돌아온 Fable 5가 예전의 Fable 5와 같은 것인지는 아직 아무도 확신하지 못한다. 안전을 강화하는 일과 그 모델을 그 모델답게 만드는 일이 서로 반대 방향으로 당기고 있다는 사실을, 이번 19일은 70%라는 숫자로 남겼다. CJS 프레임워크가 이 낙차를 설명할 공통 언어가 되어줄지, 아니면 다음 벤치마크에서도 안전 여유분이 계속 넓어지며 같은 낙차가 반복될지, 그 답은 아직 나오지 않았다.