Gemini 3.1 Pro: 벤치마크 1위가 곧 실전 1위는 아니다

Google이 릴리스 주기를 바꿨다

어제(2월 19일) Google이 Gemini 3.1 Pro를 내놨다. 숫자만 보면 또 하나의 모델 업데이트 같지만, Gemini 시리즈 역사에서 이번 릴리스는 좀 다르다.

그동안 Google의 Gemini 업데이트는 큰 보폭이었다. 2.0에서 2.5로, 2.5에서 3.0으로. 한 번 업데이트할 때마다 아키텍처부터 기능까지 대폭 바뀌었고, 그만큼 주기도 길었다. 그런데 이번에 처음으로 0.1 단위의 중간 업데이트가 나왔다. 3.0이 나온 지 얼마 안 돼서 3.1이 등장한 것이다.

이런 패턴은 경쟁사에서는 이미 익숙하다. OpenAI는 GPT-4에서 4o, 4.5, 5까지 잦은 중간 업데이트를 해왔고, Anthropic도 Claude 3.5에서 4, 4.5, 4.6으로 빠르게 반복해왔다. Google이 같은 방식을 채택한 셈이다.

왜 하필 지금 0.1 업데이트를 했을까. 열쇠는 "Deep Think"에 있다. Gemini 3 Deep Think는 과학과 엔지니어링에 특화된 추론 모델이다. 일반 사용자가 쓸 일은 거의 없지만, 추론 벤치마크에서 눈에 띄는 성적을 냈다. Google이 한 일은 이 Deep Think의 추론 엔진을 뜯어다 범용 모델인 Gemini 3 Pro에 심은 것이다. 연구실에서 검증된 기술을 범용 모델로 빠르게 옮기는 전략이고, 이것이 3.1 Pro의 정체다.

Gemini 버전 타임라인: Deep Think에서 3.1 Pro로 추론 엔진 이식

벤치마크 점수, 어디까지 믿을 수 있나

벤치마크 결과부터 보자. 숫자 자체는 인상적이다.

ARC-AGI-2에서 77.1%를 기록했다. Gemini 3 Pro가 31.1%였으니 2.5배 가까이 뛴 것이다. ARC-AGI-2는 사람에게는 쉽지만 AI에게는 어려운 "패턴 인식 퍼즐" 테스트다. 격자 안에 색깔 점이 찍혀 있고, 규칙을 찾아 다음 패턴을 맞춰야 한다. 단순 지식이 아니라 처음 보는 문제를 추론으로 푸는 능력을 측정한다.

GPQA Diamond에서는 94.3%다. 대학원 수준의 과학 문제인데, 해당 분야 전문가도 30분 이상 고민해야 풀 수 있는 난이도다. Claude Opus 4.6의 91.3%, GPT-5.2의 92.4%를 모두 넘었다.

APEX-Agents에서는 33.5%. AI가 장기간에 걸쳐 전문적 작업을 자율 수행하는 능력을 평가하는 벤치마크다. Claude Opus가 29.8%, GPT-5.2가 23.0%였으니 격차가 꽤 된다.

여기까지만 보면 Gemini 3.1 Pro가 모든 면에서 압도하는 것 같지만, 전체 그림은 좀 다르다.

벤치마크	1위	2위
GDPval-AA Elo (전문가 작업 종합)	Claude Opus 4.6, 1633	Gemini 3.1 Pro, 1317
Humanity's Last Exam (도구 활용)	Claude Opus 4.6, 53.1%	Gemini 3.1 Pro, 51.4%

GDPval-AA Elo는 전문가 수준의 작업을 종합적으로 평가해 Elo 점수로 환산한 것인데, 1633 대 1317이면 꽤 큰 차이다. 벤치마크마다 측정하는 영역이 다르고, "전체 1위"라는 타이틀은 어느 벤치마크 세트를 기준으로 삼느냐에 따라 달라진다.

분명한 것 하나. Gemini 3.1 Pro는 "추론"이라는 특정 축에서 큰 도약을 이뤘다. 그리고 그 도약의 출처는 Deep Think다.

실전에서 드러나는 빈틈

여기서부터가 글의 핵심이다. 벤치마크를 잘 보는 것과 실제 작업에서 잘 동작하는 것은 다른 문제다. 수능 만점자가 회사에서 일을 가장 잘하는 건 아닌 것처럼.

Gemini 3.1 Pro 공개 직후 개발자 커뮤니티에서 쏟아진 반응을 보면 이 격차가 드러난다.

이미지 인식 능력은 확실히 좋다. 조류 식별이나 문서 처리 같은 비전 작업에서 경쟁 모델 대비 우위라는 평가가 많고, 일반적인 정보 질의에서도 만족도가 높다. 한 개발자는 단 하나의 프롬프트로 Windows 11 스타일의 웹 운영체제를 만들어냈는데, 텍스트 에디터와 터미널, 파일 관리자, 그림판까지 포함된 결과물이었다. 이 데모가 소셜미디어에서 꽤 화제가 됐다.

문제는 에이전틱 코딩 쪽이다. SWE-Bench Verified에서 80.6%로 1위를 찍었지만, 실전에서 코드를 작성하게 하면 이야기가 달라진다. Hacker News와 개발자 포럼에서 반복적으로 올라오는 문제가 몇 가지 있다.

모델이 thinking loop에 빠져서 토큰만 소모하는 현상이 대표적이다. 문제를 풀겠다고 사고를 시작하는데, 같은 생각을 빙빙 돌면서 결론에 도달하지 못한다. 사용자 입장에서는 API 비용만 나간다. 존재하지 않는 API 함수를 만들어내는 환각(hallucination)도 코딩 작업에서 특히 치명적이다. 겉보기에 그럴듯한 코드가 나오지만 없는 함수를 호출하고 있으니 실행하면 에러가 난다. 도구 사용과 지시 따르기도 Claude에 비해 불안정하다는 평가가 많다. "이 파일을 읽고 수정하고 테스트를 돌려줘"라고 하면 중간에 다른 일을 시작하거나, 지시한 내용을 건너뛰는 식이다.

Google도 이 격차를 의식하고 있다. 에이전틱 워크플로우를 "프리뷰"라고 명시한 것이 그 증거다. 프리뷰란 "써볼 수는 있지만 프로덕션에 넣기엔 아직 이르다"는 뜻이다. 벤치마크 1위를 찍어놓고도 정식 출시를 미루는 건, 실전 안정성이 아직 부족하다는 걸 Google 스스로도 인정하는 것이다.

Thinking 토큰의 불투명성도 아쉽다. Claude의 사고 과정은 추론의 중간 단계를 비교적 구체적으로 보여주는 반면, Gemini의 Thinking은 "지금 완전히 문제에 몰입하고 있습니다" 같은 모호한 메시지를 내보낸다. 왜 이런 결론에 도달했는지 알 수 없으니 디버깅하는 개발자 입장에서는 답답할 수밖에 없다.

가격이라는 변수

성능만 놓고 비교하면 그림이 불완전하다. 가격을 함께 봐야 한다.

모델	입력 가격 (1M 토큰)	출력 가격 (1M 토큰)
Gemini 3.1 Pro	$2	$12
Claude Sonnet 4.6	$3	$15
Claude Opus 4.6	$15	$75

Gemini 3.1 Pro와 Claude Opus 4.6의 출력 가격 차이는 6배가 넘는다. API 호출 한두 번이라면 체감하기 어렵지만, 하루에 수만 건을 처리하는 프로덕션 환경이라면 월 비용이 수천만 원 단위로 벌어진다.

그렇다고 "벤치마크에서 Gemini가 1위이고 가격도 싸니까 Gemini를 쓰면 된다"고 결론 내리기는 어렵다. 작업의 성격에 따라 갈린다. 도구를 정밀하게 사용하고 지시를 정확히 따라야 하는 에이전틱 워크플로우에서는 벤치마크 점수보다 실전 안정성이 더 중요하다. 반면 대량의 텍스트를 요약하거나 이미지를 분석하거나 일반적인 질의에 답하는 작업이라면, 6배 비싼 모델을 고집할 이유가 없을 수도 있다.

실제로 더 의미 있는 비교 대상은 가격이 비슷한 Claude Sonnet 4.6($3/$15)과 Gemini 3.1 Pro($2/$12)일 것이다. 같은 가격대에서 어떤 모델이 어떤 작업에 더 강한지가 실질적인 선택 기준이 된다.

한 가지 재미있는 점. Gemini 3 Pro에서 3.1 Pro로 넘어가면서 가격이 전혀 오르지 않았다. 추론 능력이 2.5배 뛰었는데 가격은 그대로다. Google이 의도적으로 "무료 업그레이드"를 포지셔닝한 것이다. 기존 Gemini 사용자는 아무것도 안 해도 더 나은 모델을 쓸 수 있게 됐다.

업계 전체에 반복되는 패턴

Gemini 3.1 Pro 하나만 놓고 보면 "Google이 좋은 모델을 냈네"로 끝나지만, 업계 흐름 속에서 보면 반복되는 패턴 세 가지가 보인다.

첫 번째는 특화 모델에서 범용 모델로의 기술 이식이다. Google은 Deep Think라는 연구 특화 모델에서 추론 기술을 검증한 뒤 범용 모델인 3.1 Pro에 넣었다. Anthropic도 비슷한 경로를 밟았다. Claude Sonnet에서 Thinking 기능을 먼저 도입하고 이후 Opus 라인에 통합했다. "좁은 범위에서 검증하고, 증명되면 넓은 범위로 확산"하는 방식이 업계의 표준 개발 전략이 되어가고 있다.

두 번째는 대화형 AI에서 에이전트 AI로의 전환이다. Google은 에이전틱 워크플로우를, Anthropic은 Computer Use를, OpenAI는 Codex를 밀고 있다. AI가 질문에 답하는 수준을 넘어서, 도구를 사용하고 여러 단계의 작업을 자율적으로 수행하는 방향이다. 다만 Gemini 3.1 Pro의 에이전틱 기능이 "프리뷰"인 것에서 알 수 있듯, 아직 어느 모델도 이 영역에서 완전히 안정적이지는 않다.

세 번째는 가격 하방 압력이다. Google이 벤치마크 상위권 모델을 $2/$12에 내놓으면 다른 벤더도 가격을 재검토할 수밖에 없다. 이미 Claude Sonnet 4.6이 Opus의 상당 부분을 대체하는 것처럼, "최상위 모델"과 "가성비 모델" 사이의 선택은 앞으로 더 복잡해질 것이다.

결국 모델 선택은 벤치마크가 아니라 작업이 결정한다

Gemini 3.1 Pro는 2026년 2월 시점에서 추론 벤치마크 대부분을 석권했고, 가격은 경쟁자의 1/6 수준이다. 65K 토큰 출력은 장문 작업에서 실질적 이점이고, 비전과 일반 질의에서도 좋은 평가를 받고 있다.

그런데 벤치마크 점수표가 곧 모델 선택의 답은 아니다. 에이전틱 코딩에서의 불안정성, 도구 사용의 일관성 부족, Thinking 토큰의 불투명성은 개발자 커뮤니티에서 반복적으로 보고되는 문제다. Google이 에이전틱 기능을 "프리뷰"로 출시한 것 자체가 이 격차를 인정하는 신호다.

"어떤 벤치마크에서 몇 퍼센트인가"보다 "내가 하려는 작업에서 어떤 모델이 안정적으로 동작하는가"가 선택의 기준이 되어야 한다. 벤치마크는 출발점이지 답이 아니다. 이번 Gemini 3.1 Pro가 바꾼 것은 그 출발점의 높이다.

Gemini 3.1 Pro: 벤치마크 1위가 곧 실전 1위는 아니다

Google이 릴리스 주기를 바꿨다

벤치마크 점수, 어디까지 믿을 수 있나

실전에서 드러나는 빈틈

가격이라는 변수

업계 전체에 반복되는 패턴

결국 모델 선택은 벤치마크가 아니라 작업이 결정한다

신윤섭

AI 교육이 필요하신가요?

같은 주제의 다른 글

AI 활용법의 진화, 프롬프트에서 하니스까지

AI 에이전트 하니스 해부: 네 가지 구성 요소로 보는 전체 지도

에이전트를 가두는 기술: 린터, 도구 제한, 편집 포맷