쓸 수 없는 최강 코딩 모델, OpenAI GPT-5.6 Sol

신제품을 내놓고, 못 쓰게 막았다

새 AI 모델이 나오면 보통 순서가 정해져 있다. 성능 표를 잔뜩 붙인 발표가 뜨고, 그날 밤 개발자들이 API 키를 발급받아 자기 코드에 붙여본다. 다음 날이면 "써봤더니 이렇더라" 후기가 커뮤니티에 쏟아진다.

6월 26일 OpenAI가 공개한 GPT-5.6은 그 순서를 밟지 못했다. 회사는 코딩과 보안, 생물학 영역에서 자사 최고 성능이라며 최상위 모델 Sol을 앞세웠는데, 정작 그걸 쓸 수 있는 곳은 전 세계에 스무 곳 남짓이었다. 그것도 OpenAI가 아니라 미국 정부가 골랐다. 발표문에 적힌 표현 그대로, 이 제한된 배포는 "미국 정부의 요청에 따른" 것이다.

성능이 화제가 되기도 전에 접근 권한이 먼저 화제가 됐다. 최고 성능 모델을 내놓으면서 대부분의 사용자에게는 문을 닫아걸었고, 그 문을 여닫는 열쇠를 정부가 쥐었다는 사실. 이번 발표에서 진짜 뉴스는 여기에 있다. 다만 그 이야기를 제대로 하려면, 먼저 이 모델이 기술적으로 뭘 들고 나왔는지부터 짚어야 한다.

세 개로 쪼갠 모델, 그리고 읽을 수 있는 이름

GPT-5.6은 하나의 모델이 아니라 세 등급으로 나뉜다. 최상위가 Sol, 중간이 Terra, 가볍고 싼 쪽이 Luna다. Sol은 어려운 코딩이나 보안 분석처럼 힘이 드는 작업을 겨냥한 주력 모델이고, Terra는 이전 세대인 GPT-5.5와 엇비슷한 성능을 절반 정도 가격에 내주는 실무용, Luna는 간단한 처리를 빠르고 저렴하게 쳐내는 용도다. 값을 보면 성격이 분명해진다. 100만 토큰 기준으로 Sol은 입력 5달러에 출력 30달러, Terra는 2.5달러와 15달러, Luna는 1달러와 6달러다. 토큰은 AI가 글을 읽고 쓸 때 다루는 최소 단위인데, 이렇게 세 칸으로 갈라두면 개발자가 작업 난이도에 맞춰 비싼 모델과 싼 모델을 골라 쓸 수 있다.

사소해 보이지만 짚고 넘어갈 대목이 이름이다. 그동안 OpenAI의 모델 이름은 악명이 높았다. 'GPT-4o mini'니 'o3-pro'니 하는 식으로 숫자와 접미사가 뒤엉켜, 어느 게 더 센 모델인지 사용자조차 헷갈렸다. 이번에 태양과 대지, 달이라는 이름을 붙이자 한 커뮤니티에서는 "드디어 사람이 읽을 수 있는 이름을 지었다"는 반응이 나왔다. 웃어넘길 얘기 같지만, 등급을 골라 써야 하는 제품에서 이름이 직관적인지 아닌지는 생각보다 중요하다.

혼자 오래 생각하기, 여럿이 나눠 생각하기

이번 모델의 진짜 새로움은 성능 숫자가 아니라 '생각하는 방식'을 두 갈래로 나눈 데 있다. OpenAI는 Sol에 max와 ultra라는 두 가지 모드를 새로 붙였다.

max는 이해하기 쉽다. 모델에게 답을 내기 전 생각할 시간을 더 많이 주는 설정이다. 사람으로 치면 어려운 문제 앞에서 "5분 줄 테니 천천히 풀어봐"라고 말하는 것과 같다. 오래 곱씹을수록 정답률은 올라가지만 그만큼 응답이 느려지고 비용도 더 든다. 쉬운 질문에 이 모드를 켜는 건 낭비이고, 까다로운 버그를 잡을 때나 값어치를 한다.

ultra는 접근 자체가 다르다. 한 모델이 처음부터 끝까지 혼자 붙들고 씨름하는 대신, 문제를 여러 조각으로 쪼갠 뒤 여러 개의 '서브에이전트'에게 나눠 맡긴다. 서브에이전트란 큰 작업을 처리하기 위해 잠깐 불러내는 보조 일꾼 같은 존재다. 본체 모델이 반장 노릇을 하면서 "너는 이 파일 고쳐, 너는 저 테스트 돌려"라고 일을 배분하고, 이들이 동시에 각자 맡은 부분을 처리한 다음, 반장이 결과를 다시 모아 하나로 엮는다. 한 사람이 서류 백 장을 순서대로 넘기는 것과, 열 사람이 열 장씩 나눠 동시에 넘기고 취합하는 것의 차이다. 일이 크고 병렬로 쪼갤 수 있을수록 이 방식이 빛을 발한다.

주의할 점은 ultra가 만능이 아니라는 것이다. 여럿이 나눠 일하려면 일을 쪼개고 나중에 다시 합치는 데도 품이 든다. 조각으로 잘리지 않는 작업, 그러니까 앞 단계 결과가 있어야 다음 단계를 시작할 수 있는 순차적인 일에서는 일꾼을 늘려봐야 서로 기다리기만 한다. 회의에 사람을 열 명 부른다고 결론이 열 배 빨리 나오지 않는 것과 같다. 게다가 서브에이전트를 여러 개 돌리면 그만큼 계산량과 비용이 불어난다. 그래서 ultra는 큰 코드베이스를 여러 파일에 걸쳐 손봐야 하거나, 서로 독립적인 여러 작업을 한꺼번에 처리해야 할 때 값어치를 하고, 짧고 단순한 질문에는 오히려 과한 도구가 된다. max와 ultra를 언제 켜고 끄느냐를 판단하는 것 자체가 이 모델을 잘 쓰는 요령인 셈이다.

흥미로운 건 이 구조가 낯설지 않다는 점이다. 이미 여러 코딩 도구가 '에이전트 팀'이라는 이름으로 여러 AI를 병렬로 굴려 작업을 나눠 처리하는 방식을 밀어왔다. 지금까지는 개발자가 도구 바깥에서 직접 짜 맞춰야 했던 이 구조를, OpenAI가 모델 자체의 기본 모드로 끌어들인 셈이다. 오케스트레이션이라 불리던 별도 작업을 회사가 안으로 삼킨 것이고, 이게 앞으로 다른 모델들도 따라갈 방향이라는 신호로 읽어도 무리는 아니다.

벤치마크는 이겼는데, 어디서 이겼나

성능은 실제로 어느 정도일까. OpenAI가 앞세운 지표는 Terminal-Bench 2.1이다. 이 시험은 AI를 실제 터미널 환경에 앉혀두고, 명령어를 직접 쳐가며 프로젝트를 설치하고 빌드하고 오류를 고치게 시킨 뒤 얼마나 해내는지를 잰다. IDE 안에서 코드 몇 줄 자동완성하는 수준이 아니라, 계획을 세우고 도구를 번갈아 써가며 일을 끝까지 밀고 가는 실전형 능력을 보는 시험이다.

여기서 Sol을 ultra 모드로 돌리자 91.9점이 나왔다. max 모드로는 88.8점이다. 경쟁 모델인 클로드 Mythos 5가 이 시험에서 88점 안팎이었으니, 적어도 이 항목에서는 Sol이 앞선 게 맞다. 터미널에서 프로젝트를 통째로 다루는 작업을 자주 시키는 개발자라면 체감할 만한 차이다.

속도도 함께 챙겼다. OpenAI는 7월 중 Cerebras라는 전용 하드웨어 위에서 Sol을 초당 최대 750토큰 수준으로 돌리겠다고 밝혔다. 에이전트형 코딩은 모델이 긴 코드를 계속 뱉어내며 여러 단계를 오가는 작업이라, 응답이 빠를수록 개발자가 기다리는 시간이 줄고 결과적으로 한 시간에 처리하는 일의 양이 달라진다. 여기에 프롬프트 캐싱도 손봤다. 한 번 읽힌 문맥을 잠시 저장해뒀다가 다시 쓰는 기능인데, 저장 구간을 개발자가 직접 지정할 수 있게 하고 저장이 최소 30분은 유지되도록 바꿨다. 같은 프로젝트 코드를 반복해서 모델에 물릴 때 매번 처음부터 다시 읽히지 않아도 되니 비용과 시간이 함께 준다. 성능 점수만큼이나 이런 운영 단의 개선이 실제 업무에서는 체감이 크다.

다만 벤치마크 하나로 "이제 최강"이라고 못 박는 건 성급하다. 같은 발표 안에서도 결이 갈린다. 보안 취약점을 실제로 파고드는 능력을 재는 ExploitBench 같은 시험에서는 Sol이 여전히 클로드 Mythos 5에 뒤처졌다. OpenAI 스스로도 Sol이 취약점의 실마리는 찾아냈지만 실제로 악용 가능한 완성된 공격 코드를 끝까지 스스로 만들어내지는 못했다고 밝혔다. 그러니 정확한 그림은 이렇다. 터미널에서 코드를 다루는 특정 작업에서는 앞섰지만, 모든 영역에서 경쟁 모델을 제친 건 아니다. 특히 공격 코드를 완성하는 데까지는 가지 못했다는 이 마지막 문장이, 뒤에 나올 정부 통제 이야기와 그대로 이어진다.

열쇠를 정부가 쥐었다

이제 본론이다. 왜 이 모델을 스무 곳만 쓸 수 있게 막았을까.

OpenAI의 설명은 이렇다. Sol의 능력이 코딩을 넘어 사이버 보안과 생물학 영역까지 닿아 있고, 이 능력은 방패로도 창으로도 쓰일 수 있다는 것. 취약점을 찾아 막는 데 쓰면 방어 도구지만, 같은 능력을 뒤집으면 공격 도구가 된다. 위험한 병원체를 다루는 지식도 마찬가지다. 이렇게 좋은 쪽과 나쁜 쪽 양쪽에 다 쓰일 수 있는 성질을 이중용도라 부른다. OpenAI는 이 위험을 걸러내는 여러 겹의 안전장치를 모델에 붙였다고 했는데, 회사 표현을 빌리면 이 장치가 때로는 정당한 보안 연구까지 막아버리는 부작용이 있다고 인정했다. 방어용 연구와 공격용 악용을 기계가 완벽히 구분하지 못하니, 애매하면 일단 막는 쪽을 택한 것이다.

그래서 나온 결론이 '일단 정부가 검토하고, 정부가 고른 곳에만 먼저 연다'였다. OpenAI는 모델과 배포 계획을 미국 정부와 공유했고, 그 요청에 따라 처음에는 API와 코딩 도구 Codex를 통해 스무 곳 안팎의 승인된 조직에만 접근을 열었다. 나머지 사용자에게는 몇 주 안에 순차적으로 문을 연다는 계획이지만, 지금 이 순간 프런티어급 코딩 모델을 실제로 만질 수 있는 사람은 극소수다.

여기서 한 발 떨어져 볼 필요가 있다. 이 방식은 앞서 데이너스 블로그에서 다룬 클로드 Fable 5의 발이 묶인 이야기, 그리고 AI 반도체 수출통제 흐름과 같은 뿌리에서 나온다. 예전에는 AI를 둘러싼 국가 개입이 주로 '어떤 칩을 어느 나라에 못 팔게 하느냐'는 하드웨어 수출통제의 문제였다. 그런데 이번엔 결이 다르다. 물건이 아니라 모델을 쓸 자격 자체를, 그것도 자국 안에서 정부가 배분하기 시작했다. 통제의 무대가 국경 바깥에서 국경 안으로, 하드웨어에서 능력 그 자체로 옮겨온 것이다.

"정부가 고른 소수만 최강 도구를 쥔다"

개발자들의 반응은 성능이 아니라 이 접근 통제에 쏠렸다. 해커뉴스에는 "미국 정부가 GPT-5.6을 누가 쓸지 정한다"는 제목의 글이 올라와 1000점 넘는 추천을 받으며 첫 화면을 차지했다. 스레드를 채운 정서는 규제 포획에 대한 경계였다. 규제 포획이란 규제를 만들거나 집행하는 힘이 결국 이미 자리 잡은 소수 대기업에 유리하게 작동해버리는 현상을 가리킨다.

논지는 이렇게 흘렀다. 지금까지 최고 성능 AI의 진입 장벽은 '돈'이었다. 비싼 API 요금을 감당할 수 있느냐의 문제였고, 이건 그나마 누구에게나 열린 경쟁이었다. 그런데 이제 장벽이 '승인'으로 바뀌면 이야기가 달라진다. 아무리 좋은 아이디어와 자본이 있어도 명단에 못 들면 최신 도구를 아예 만질 수 없다. 한 X 사용자의 표현을 빌리면 이건 "엘리트 접근 비대칭"이자 "국가가 승자를 지목하는" 구조다. 신생 기업이 프런티어 모델로 실험해볼 길이 좁아지고, 결국 이미 큰 회사들만 최신 모델을 손에 쥔 채 격차를 벌린다는 우려다.

물론 반대 시각도 있었다. 공격용 사이버 무기나 생물학 위협으로 악용될 수 있는 능력이라면, 세상에 풀기 전에 검증 단계를 두는 게 무책임한 개방보다 낫다는 주장이다. 실제로 Sol이 보안 취약점의 실마리까지 찾아낸다는 대목을 떠올리면, 이 우려가 괜한 겁이 아니라는 것도 분명하다. 문제는 그 검증의 열쇠를 특정 정부가 쥐고, 그 정부가 명단을 짠다는 데 있다. 안전이라는 명분과 시장 독점이라는 결과가 같은 문을 통과하는 셈이라, 어느 쪽 손을 들어주기가 쉽지 않다.

접근이 곧 경쟁력이 되는 시대

정리하면 이렇다. GPT-5.6 Sol은 터미널에서 코드를 다루는 특정 작업에서 지금까지 나온 것 중 가장 높은 점수를 받았고, 여러 서브에이전트를 병렬로 굴리는 ultra 모드로 '에이전트 팀' 방식을 모델 기본 기능으로 끌어들였다. 여기까지는 기술 경쟁의 연장선이다.

하지만 이번 발표가 기억될 이유는 성능이 아니라 배포 방식일 가능성이 크다. AI 성능을 가르는 축이 하나 늘었다. 예전에는 '누가 더 좋은 모델을 만드느냐'와 '누가 그 요금을 감당하느냐'가 전부였다면, 이제 '누가 그 모델을 쓸 자격을 얻느냐'가 끼어들었다. 돈으로 사는 접근이 아니라 승인으로 얻는 접근이다.

이게 한국의 개발자나 조직에 던지는 물음은 구체적이다. 최신 최고 성능 모델이 특정 국가의 승인 명단을 통해 배분되기 시작한다면, 그 명단 바깥에 있는 쪽은 반 박자 늦은 모델로 경쟁해야 한다. 그 반 박자가 코딩 생산성에서 얼마나 벌어질지는 아직 알 수 없지만, 적어도 "가장 센 도구는 돈만 있으면 누구나 쓴다"는 지난 몇 년의 전제가 흔들리기 시작한 건 분명하다. GPT-5.6 Sol이 남긴 진짜 질문은 91.9점이라는 숫자가 아니라, 그 숫자를 누가 만질 수 있느냐는 물음이다.

쓸 수 없는 최강 코딩 모델, OpenAI GPT-5.6 Sol

신제품을 내놓고, 못 쓰게 막았다

세 개로 쪼갠 모델, 그리고 읽을 수 있는 이름

혼자 오래 생각하기, 여럿이 나눠 생각하기

벤치마크는 이겼는데, 어디서 이겼나

열쇠를 정부가 쥐었다

"정부가 고른 소수만 최강 도구를 쥔다"

접근이 곧 경쟁력이 되는 시대

신윤섭

AI 교육이 필요하신가요?

같은 주제의 다른 글

Fable 5 복귀, 디버깅 점수는 왜 70% 떨어졌나

엔비디아 없이 훈련한 1조 6천억 모델, 메이투안 LongCat-2.0

Claude Fable 5: SWE-Bench 1위 코딩 모델이 3일 만에 꺼진 이유