AI 코딩 도구를 쓰는 방식은 지난 몇 년 동안 크게 바뀐 것 같으면서도, 실제로는 거의 그대로였다. 함수 하나를 요청하고 결과를 검토한다. 오류가 생기면 에러 메시지를 복사해 붙여넣고 수정을 요청한다. AI는 매번 대화 한 턴 안에서 처리할 수 있는 것을 하고, 그 너머는 사람이 이어받는다. 도구가 더 똑똑해졌지만 이 구조 자체는 바뀌지 않았다.
5월 28일 Anthropic이 Claude Opus 4.8을 출시했다. 이번에 주목해야 할 부분은 모델 성능 지표가 아니다. Dynamic Workflows, Effort Controls, Messages API 변경, 세 가지가 함께 묶여 나왔다. 각각을 따로 보면 기능 업데이트지만, 합쳐서 보면 방향이 보인다. Anthropic이 Claude를 어디로 가져가려는지.
벤치마크보다 정직함
수치부터 짚고 가자. Opus 4.8은 전작(4.7) 대비 코딩 에이전트 점수가 64.3%에서 69.2%로 올랐다. Terminal-Bench 2.1 기준으로는 74.2%, 4.7보다 8.4%포인트 높다. 브라우저 에이전트 벤치마크인 Online-Mind2Web에서는 84%를 찍었다. 현재 공개된 모델 중 가장 높은 수치다.
그런데 Anthropic이 이번 릴리스에서 유독 강조한 건 이 숫자들이 아니었다. 코드의 정직함이었다.
4.8은 결함 있는 코드를 그냥 제출하는 빈도가 전작 대비 4분의 1로 줄었다. 코드를 작성하다 문제를 발견하면 조용히 넘기지 않고 명시적으로 지적한다는 뜻이다. 돌아가는 척하다가 엣지케이스에서 무너지는 코드, 테스트를 통과했는데 나중에 버그로 돌아오는 코드. AI 코딩 도구를 쓰다 보면 이런 상황을 한 번쯤은 겪는다. AI가 "됩니다"라고 말했는데 안 되는 경험의 대부분은 모델이 몰라서가 아니라 모르는 척해서 생긴다. Opus 4.8은 이 문제를 모델 훈련 단계에서 직접 건드렸다. 성능 점수보다 이 변화가 실무에서 체감 차이를 더 크게 만들 수 있다.
1,000개 서브에이전트가 동시에 뛴다
이번 릴리스의 중심은 Claude Code에 추가된 Dynamic Workflows다. 아직 리서치 프리뷰지만, 이게 뭘 바꾸는지 이해하면 방향이 보인다.
기존 Claude Code의 작동 방식은 단순했다. 하나의 에이전트가 파일을 순서대로 처리한다. 리팩터링을 요청하면 파일을 하나씩 열고 수정하고 닫는다. 100개 파일이면 100번 반복한다. 느릴 뿐 아니라 한 파일에서 오류가 생기면 전체 흐름이 막힌다.
Dynamic Workflows는 이 구조를 바꾼다. Claude가 작업을 받으면 먼저 전체 계획을 세우고, 계획에 따라 서브에이전트들을 병렬로 생성해 분산 처리한다. 10만 줄짜리 Python 2 코드베이스를 Python 3로 바꾸는 작업이라면, Claude는 먼저 전체 의존성 구조를 파악한 뒤 파일 그룹별로 서브에이전트들을 배치해 동시에 작업한다. Anthropic이 밝힌 상한은 단일 세션에서 최대 1,000개다.
1,000개라는 숫자는 마케팅 수치처럼 들릴 수 있다. 하지만 이것이 가리키는 실질적 변화를 생각해보면 좀 다르다. 코드베이스 전체 마이그레이션은 지금까지 인간 팀이 수 주에 걸쳐 하는 일이었다. 모듈 간 의존성을 추적하고, 변경 사항이 어디에 영향을 미치는지 확인하고, 충돌을 해결하고. 이 과정을 병렬 에이전트들이 나눠 처리하면 몇 시간 안에 마칠 수 있다면, 기술 부채를 처리하는 방식 자체가 달라진다.
물론 1,000개 에이전트가 오류 없이 완벽하게 조율된다는 보장은 아직 없다. 리서치 프리뷰라는 딱지가 붙은 이유다. 하지만 Anthropic이 이 방향에 베팅하고 있다는 건 분명하다.
요청마다 비용을 조정한다
실무에서 더 즉각적으로 영향을 미칠 변화는 Effort Controls다.
Opus 모델을 API로 쓰면서 가장 큰 걸림돌 중 하나는 비용이었다. Opus는 Sonnet, Haiku 계열보다 훨씬 비싸다. 그래서 현장에서는 "간단한 건 Haiku, 복잡한 추론만 Opus"처럼 요청마다 모델을 바꿔가며 비용을 조절했다. 그런데 이 방식은 서비스 설계를 복잡하게 만든다. 어디서 어떤 모델을 써야 하는지 계속 판단해야 한다.
Effort Controls는 이 판단을 모델 선택이 아니라 요청 단위로 내릴 수 있게 한다. 낮은 effort 설정을 쓰면 Claude는 더 빠르게 응답하고 API 사용량도 적게 쓴다. 높은 effort가 기본값이고, 이게 품질과 속도의 최적 균형이라는 게 Anthropic의 설명이다.
같은 서비스 안에서도 요청의 성격에 따라 비용과 품질의 균형을 동적으로 조정할 수 있다는 것. 사용자가 빠른 응답을 원하는 간단한 질문에는 낮은 effort, 코드 생성이나 복잡한 분석에는 높은 effort. 모델을 두 개 운영하지 않아도 하나의 모델로 이 조정이 가능해진다.
Messages API에도 작지만 의미 있는 변화가 있다. 이제 messages 배열 안에서 system 항목을 중간에 업데이트할 수 있다. 긴 에이전트 작업 도중 Claude의 지시사항을 바꿀 수 있다는 뜻이다. 작업을 시작한 뒤에 새로운 컨텍스트가 생기거나 방향을 수정해야 할 때, 처음부터 다시 시작하지 않아도 된다.
삼성과 SK하이닉스가 Anthropic에 투자한 이유
모델과 기능 얘기만으로는 그림이 반쪽이다. 이번 릴리스와 같은 날 Anthropic은 650억 달러 규모의 신규 투자 유치를 공식화했다. 기업가치는 9,650억 달러, 1조 달러에 근접하는 수준이다.
이 라운드에 삼성전자, SK하이닉스, 마이크론이 이름을 올렸다. 메모리 반도체 회사들이 AI 모델 회사의 주요 투자자로 들어온 구조는 생각해볼 만하다. AI 모델 성능 경쟁은 결국 어떤 인프라를 얼마나 확보했느냐의 싸움이다. 모델 훈련과 추론 모두 메모리 대역폭에 크게 의존한다. 반도체 회사들이 AI 모델 회사와 전략적 파트너십을 맺는 건 AI 투자가 아니라 자신들의 제품 수요를 선점하는 것이기도 하다.
한국 독자에게 실용적 의미가 있다면 이것이다. 삼성, SK하이닉스가 Anthropic의 주요 파트너가 되면, 중장기적으로 국내 데이터센터나 클라우드 사업자를 통해 Claude 계열 모델을 더 낮은 지연시간으로 쓸 수 있는 인프라 옵션이 생길 여지가 있다. 아직 확정된 것은 없다. 그러나 지금까지 국내 AI API 시장이 OpenAI 중심이었다면, 이번 투자가 그 균형을 조금 바꾸는 계기가 될 수는 있다.
도구가 아니라 팀원처럼 쓰기 시작하면
Opus 4.8과 함께 나온 세 변화, Dynamic Workflows, Effort Controls, Messages API 업데이트를 따로 보면 기능 목록이다. 나란히 놓으면 다른 그림이 보인다.
AI가 대화 한 턴 안에서 답을 내놓는 도구에서, 긴 작업을 계획하고 실행하면서 중간에 방향을 조율할 수 있는 에이전트로. 1,000개 서브에이전트가 병렬로 뛰고, 요청마다 비용 수준을 정하고, 작업 도중 지시를 바꿀 수 있다는 건 모두 이 방향 위에 놓인다.
이 흐름이 개발자에게 의미하는 게 있다. AI 코딩 도구를 잘 쓰는 능력의 중심이 "좋은 프롬프트를 만드는 것"에서 "에이전트에게 어떤 작업 단위를 어떻게 맡길지 설계하는 것"으로 이동한다. 코드를 직접 짜는 역량만큼이나 에이전트 팀을 어떻게 구성하고 조율할지가 중요해지는 방향이다. Anthropic이 이 방향에 베팅하고 있고, 4.8은 그 베팅의 최근 형태다.