결론부터. 구글 I/O 2026에서 공개된 Gemini 3.5 Flash는 성능만 보면 역대 Flash 시리즈 최강이다. 전작 3.1 Pro를 대부분의 코딩·에이전트 벤치마크에서 뛰어넘었고, 처리 속도는 동급 모델 대비 약 4배 빠르다. 문제는 가격이다. 이전 세대 Flash Preview($0.50/1M 토큰) 대비 입력 토큰 기준 3배, 그리고 앱 사용량 한도는 2026년 5월 17일부터 조용히 1/8토막이 났다. 기술은 올라갔고, 지갑 부담도 같이 올라갔다.
최종 업데이트 · 2026년 5월 22일
2026년 5월 19일, 구글은 조용하지 않았다.
구글 I/O 2026 키노트에서 순다 피차이가 직접 무대에 올랐다. AI가 질문에 답하는 도구에서 "스스로 계획하고 실행하는 에이전트"로 진화하는 시대를 공식 선언했다. 그 선언의 한가운데 서 있는 모델이 바로 Gemini 3.5 Flash다.
근데 발표를 뜯어보면 좋은 소식과 나쁜 소식이 교차한다.
3.1 Pro를 Flash로 이겼다 — Gemini 3.5 Flash가 뭘 가져왔나
이번 발표에서 가장 비상식적으로 들리는 주장이 있다. Flash가 Pro를 이겼다는 것이다. 보통 Flash 라인은 빠르고 가벼운 대신 성능은 한 단계 아래였다. 그런데 Gemini 3.5 Flash는 직전 플래그십인 3.1 Pro를 코딩·에이전트 벤치마크 대부분에서 초과했다.
수치를 직접 보면 더 분명해진다.
| 벤치마크 | Gemini 3.5 Flash | 비고 |
|---|---|---|
| Terminal-Bench 2.1 (코딩) | 76.2% | 3.1 Pro 초과 |
| MCP Atlas (에이전트) | 83.6% | 3.1 Pro 초과 |
| CharXiv Reasoning (추론) | 84.2% | 3.1 Pro 초과 |
| 처리 속도 | 동급 모델 대비 약 4배 | 구글 공식 발표 |
스펙도 상향됐다. 컨텍스트 윈도우 100만 토큰(1M), 최대 출력 65,536 토큰, 4단계 동적 Thinking 모드 기본 탑재. 텍스트·이미지·오디오·동영상 입력 모두 지원하고, 지식 기준 시점(Knowledge Cutoff)은 2026년 1월이다.
핵심 포인트 · Gemini 3.5 Flash는 5월 19일 즉시 GA(정식 출시)로 공개됐다. API 모델 ID는 gemini-3.5-flash, 한 단계 위인 3.5 Pro는 다음 달 출시 예정이다.
성능 얘기는 여기까지다. 진짜 논쟁은 가격표에서 시작됐다.
Flash인데 Pro보다 비싸다? 가격표 앞에서 멈추게 되는 이유
Gemini 3.5 Flash의 API 가격은 입력 100만 토큰당 $1.50, 출력 100만 토큰당 $9.00이다. 구글은 "동급 대비 약 40% 저렴"하다고 했다. 3.1 Pro($2.00/$12.00) 대비로는 맞는 말이다.
그런데 비교 기준이 틀렸다. 실제로 기존 Flash 유저들이 쓰던 건 3.1 Pro가 아니라 Gemini 3 Flash Preview였다.
| 모델 | 입력 (1M 토큰) | 출력 (1M 토큰) | 3.5 Flash 대비 |
|---|---|---|---|
| Gemini 3.5 Flash (신) | $1.50 | $9.00 | 기준 |
| Gemini 3 Flash Preview (구) | $0.50 | $3.00 | 3배 저렴 |
| Gemini 3.1 Flash Lite Preview | $0.25 | $1.50 | 6배 저렴 |
| Gemini 3.1 Pro | $2.00 | $12.00 | 25% 비쌈 |
기존 Flash Preview 기반으로 파이프라인을 짜놓은 개발자 입장에서는 마이그레이션 전에 단가를 3배로 올려잡아야 한다. Artificial Analysis에 따르면, 에이전트 작업에서는 더 많은 입력 토큰이 소비되기 때문에 실제 운영 비용이 기존 대비 5.5배까지 오를 수 있다는 분석도 나왔다.
배치(Batch) 모드를 쓰면 50% 할인이 적용되긴 한다. 실시간 응답이 필요 없는 작업이라면 유효한 대안이다.
API 가격이 전부가 아니다. 일반 앱 사용자에게 더 크게 다가온 논란이 따로 있었다.
2026년 5월 17일, 조용히 바뀐 사용량 한도 — 유료 사용자도 당했다
I/O 발표 이틀 전인 5월 17일, 구글은 Gemini 앱 사용량 정책을 바꿨다. 기존의 '하루 몇 번' 방식에서 토큰 기반 5시간·주간 한도제로 전환한 것이다. Claude처럼 쓴 만큼 차감되는 구조다.
문제는 새로운 한도가 기존보다 1/8 수준으로 낮아졌다는 거다. 구글이 참고했다는 Claude도, 사실 이 방식으로 헤비 유저들 사이에서 불만이 많다. 그런데 구글은 그보다 훨씬 가혹한 기준을 택했다.
특히 타격을 받은 건 Thinking 모드를 자주 쓰는 헤비 유저들이다. 고성능 에이전트 작업이나 Deep Think 모드는 단순 질문보다 훨씬 많은 토큰을 소모한다. 유료 Google AI Pro($19.99/월) 구독자도 몇 번 쓰다 보면 "한도 초과"를 만나고, 몇 시간씩 강제 대기해야 하는 상황이 생겼다.
커뮤니티 반응은 단호하다. "유료 사용자 뒤통수를 제대로 쳤다", "나쁜 과금 버릇만 배워온 것 아니냐." 월 고정 결제로 무제한에 가깝게 쓰던 시대가 끝났다는 인식이 퍼졌다.
단, 반대 해석도 존재한다. 간단한 텍스트 질문은 토큰을 거의 안 쓰기 때문에, 가벼운 질문 위주로 쓰는 사람은 오히려 기존보다 더 많이 쓸 수도 있다. 결국 피해를 보는 건 "AI로 업무를 대체하는" 파워 유저들이다.
그렇다면 이 모든 논란을 감수하고 구글이 밀어붙이는 큰 그림은 뭔가.
구글이 노리는 건 모델 경쟁이 아니다 — 에이전트 시대의 인프라 장악
이번 I/O에서 진짜 주목해야 할 건 3.5 Flash 하나가 아니다. 구글이 동시에 발표한 것들을 나열해보면 그림이 보인다.
- Gemini Spark — 구글 클라우드 전용 VM에서 24시간 구동되는 자율 에이전트. 노트북을 꺼도 백그라운드에서 작업한다. 태스크를 단계별로 쪼개고, Google Sheets·Gmail과 연동해 자동 처리까지 해낸다.
- Antigravity 2.0 — 코딩 에이전트. 3.5 Flash 탑재 후 속도가 기존 대비 3배 향상됐다.
- AI Mode in Search — 출시 1년 만에 월 10억 MAU 도달. 구글 검색 자체가 AI 오버뷰로 재편되고 있다.
- Google AI Ultra $99.99/월 — 기존 $249.99에서 반값으로 내렸다. ChatGPT Pro($200)의 절반 가격으로 에이전트 전용 최상위 플랜을 포지셔닝했다.
- Gemini Omni — 어떤 입력이든(텍스트·이미지·오디오·영상) 받아 원하는 결과물로 바꾸는 멀티모달 모델. 영상 생성부터 시작한다.
구글이 공개한 수치가 있다. 월간 토큰 처리량이 2024년 9.7조 → 2025년 480조 → 2026년 3.2경(京)으로, 전년 대비 약 67배 증가했다. Gemini 앱 MAU는 4억에서 9억으로 두 배 이상이 됐다.
핵심 포인트 · 구글은 "모델을 잘 만드는 회사"에서 "AI가 작동하는 인프라 자체가 되는 회사"로 전환을 선언했다. 8세대 TPU 기반 인프라, 검색, 워크스페이스, 운영체제까지 수직 계열화된 생태계가 경쟁사와의 차이다.
에이전트 시대가 되면 "단순히 좋은 모델"보다 "작업 전체를 연결하는 플랫폼"이 더 중요해진다. 구글의 승부수는 거기 있다.
한 가지 약점은 있다. 3.5 Flash의 지식 기준 시점은 2026년 1월까지다. 최신 정보는 웹 검색에 의존해야 하고, 검색 없이 최근 이슈를 물으면 틀리거나 모른다고 할 수 있다.
에이전트 작업에서 정확도를 높이려면 고도의 프롬프트 엔지니어링, 즉 명확한 역할 지정·구조화된 출력·사실 확인 단계가 프롬프트에 설계되어야 한다. 구글 자체도 70페이지 분량의 공식 프롬프팅 가이드를 이번 I/O에서 함께 공개했다(구글 AI 개발자 공식 문서 참고).
자주 묻는 질문
Q. Gemini 3.5 Flash는 지금 바로 쓸 수 있나?
그렇다. 2026년 5월 19일 즉시 GA(정식 출시)로 공개됐다. Gemini 앱, Google AI Studio, API, Antigravity, 구글 검색 AI Mode에서 모두 사용 가능하다. API 모델 ID는 gemini-3.5-flash다.
Q. Gemini 3.5 Flash API 가격이 이전보다 정확히 얼마나 올랐나?
이전 세대인 Gemini 3 Flash Preview($0.50/$3.00)와 비교하면 입력 기준 3배 인상($1.50/$9.00)이다. 단, 3.1 Pro($2.00/$12.00) 대비로는 25% 저렴하다. 비교 기준을 어디로 잡느냐에 따라 "싸다"와 "비싸다"가 갈린다.
Q. 앱 사용량 한도는 어떻게 바뀌었나?
2026년 5월 17일부터 토큰 기반 5시간·주간 한도제로 변경됐다. 전체 한도가 기존 대비 1/8 수준으로 줄었다. 간단한 텍스트 질문은 토큰 소모가 적어 오히려 더 많이 쓸 수 있지만, Deep Think 모드나 에이전트 작업처럼 긴 응답을 요하는 작업은 훨씬 빨리 한도에 도달한다.
Q. Google AI Ultra $100 요금제, 가성비가 있나?
기존 $249.99에서 $99.99로 내렸다. ChatGPT Pro($200)의 절반이다. Gemini Spark 에이전트, 20TB 스토리지, 사용량 최대 20배, Gemini 앱·Antigravity·Omni 전부 포함이다. 구글 생태계를 이미 깊이 쓰고 있다면 검토 가치가 있다. 단, Spark 에이전트는 현재 일부 테스터 대상 순차 공개 중이며 일반 사용자 전면 개방은 아직이다.
Q. 환각(Hallucination) 문제는 해결됐나?
완전히는 아니다. 지식 기준 시점이 2026년 1월이라, 웹 검색 없이 최신 정보를 물으면 틀리거나 모른다고 할 수 있다. 에이전트 작업에서는 역할 지정·구조화된 출력·단계별 검증을 프롬프트에 설계하는 '프롬프트 엔지니어링'이 필수다.
지금 당장 할 것.
① API 쓰는 개발자라면 기존 3 Flash Preview 기반 파이프라인에 단가 3배를 반영해 비용을 다시 계산한다.
② 배치 모드 전환 가능 여부를 확인해 50% 절감 기회를 챙긴다.
③ Gemini 앱 헤비 유저라면 5월 17일 이후 사용량 감소가 체감된다면 Ultra 요금제 가성비를 검토한다.
기술은 이미 왔다. 결정은 비용 계산 이후다.
0 댓글