지원되는 모델

다음 표에는 프로비저닝된 처리량을 지원하는 모델, 각 생성형 AI 확장 단위(GSU)의 처리량, 각 모델의 소진율이 나와 있습니다.

Google 모델

프로비저닝된 처리량은 모델 별칭이 아닌 특정 모델 ID를 사용하여 프로젝트에서 직접 호출하는 모델만 지원합니다. 프로비저닝된 처리량을 사용하여 모델에 API를 호출하려면 모델 버전 별칭이 아닌 특정 모델 버전 ID(예: gemini-2.0-flash-001)를 사용해야 합니다.

또한 프로비저닝된 처리량은 Vertex AI Agents, Vertex AI Search와 같은 다른 Vertex AI 제품에서 호출하는 모델을 지원하지 않습니다. 예를 들어 Vertex AI Search를 사용하는 동안 Gemini 2.0 Flash에 API를 호출하면 Gemini 2.0 Flash의 프로비저닝된 처리량 주문으로 Vertex AI Search에서 실행한 호출을 보장할 수 없습니다.

프로비저닝된 처리량은 일괄 예측 호출을 지원하지 않습니다.

다음 표에는 프로비저닝된 처리량을 지원하는 Google 모델의 처리량, 구매 증분, 소진율이 나와 있습니다. 초당 처리량은 초당 모든 요청의 프롬프트 입력과 생성된 출력으로 정의됩니다.

워크로드에 필요한 토큰 수를 확인하려면 SDK 토크나이저 또는 countTokens API를 참고하세요.

모델	GSU당 초당 처리량	단위	최소 GSU 구매 증분	소진율
Gemini 3 Pro 지원되는 최신 버전: `gemini-3-pro-preview` (프리뷰)	500	토큰	1	입력 토큰 200,000개 이하: 입력 텍스트 토큰 1개 = 토큰 1개 입력 이미지 토큰 1개 = 토큰 1개 입력 동영상 토큰 1개 = 토큰 1개 입력 오디오 토큰 1개 = 토큰 1개 출력 응답 텍스트 토큰 1개 = 토큰 6개 출력 추론 텍스트 토큰 1개 = 토큰 6개 입력 토큰 200,000개 이상: 입력 텍스트 토큰 1개 = 토큰 2개 입력 이미지 토큰 1개 = 토큰 2개 입력 동영상 토큰 1개 = 토큰 2개 입력 오디오 토큰 1개 = 토큰 2개 출력 응답 텍스트 토큰 1개 = 토큰 9개 출력 추론 텍스트 토큰 1개 = 토큰 9개
Gemini 3 Pro Image 지원되는 최신 버전: `gemini-3-pro-image-preview` (프리뷰)	500	토큰	1	입력 텍스트 토큰 1개 = 토큰 1개 입력 이미지 토큰 1개 = 토큰 1개 출력 텍스트 토큰 1개 = 토큰 6개 출력 사고 토큰 1개 = 토큰 6개 출력 이미지 토큰 1개 = 토큰 60개
Gemini 2.5 Pro 지원되는 최신 버전: `gemini-2.5-pro`	650	토큰	1	입력 토큰 200,000개 이하: 입력 텍스트 토큰 1개 = 토큰 1개 입력 이미지 토큰 1개 = 토큰 1개 입력 동영상 토큰 1개 = 토큰 1개 입력 오디오 토큰 1개 = 토큰 1개 출력 응답 텍스트 토큰 1개 = 토큰 8개 출력 추론 텍스트 토큰 1개 = 토큰 8개 입력 토큰 200,000개 이상: 입력 텍스트 토큰 1개 = 토큰 2개 입력 이미지 토큰 1개 = 토큰 2개 입력 동영상 토큰 1개 = 토큰 2개 입력 오디오 토큰 1개 = 토큰 2개 출력 응답 텍스트 토큰 1개 = 1토큰 2개 출력 추론 텍스트 토큰 1개 = 1토큰 2개
Gemini 2.5 Flash Image 지원되는 최신 버전: `gemini-2.5-flash-image`	2,690	토큰	1	입력 텍스트 토큰 1개 = 토큰 1개 입력 이미지 토큰 1개 = 토큰 1개 출력 텍스트 토큰 1개 = 토큰 9개 출력 이미지 토큰 1개 = 토큰 100개
Gemini 2.5 Flash 지원되는 최신 버전(GA): `gemini-2.5-flash` 지원되는 최신 버전(프리뷰): `gemini-2.5-flash-preview-09-2025`	2690	토큰	1	입력 텍스트 토큰 1개 = 토큰 1개 입력 이미지 토큰 1개 = 토큰 1개 입력 동영상 토큰 1개 = 토큰 1개 입력 오디오 토큰 1개 = 토큰 4개 출력 응답 텍스트 토큰 1개 = 토큰 9개 출력 추론 텍스트 토큰 1개 = 토큰 9개
Gemini 2.5 Flash-Lite 지원되는 최신 버전(GA): `gemini-2.5-flash-lite` 지원되는 최신 버전(프리뷰): `gemini-2.5-flash-lite-preview-09-2025`	8,070	토큰	1	입력 텍스트 토큰 1개 = 토큰 1개 입력 이미지 토큰 1개 = 토큰 1개 입력 동영상 토큰 1개 = 토큰 1개 입력 오디오 토큰 1개 = 토큰 3개 출력 응답 텍스트 토큰 1개 = 토큰 4개 출력 추론 텍스트 토큰 1개 = 토큰 4개
Gemini Live API 네이티브 오디오를 사용한 Gemini 2.5 Flash 지원되는 최신 버전: `gemini-live-2.5-flash-native-audio`	1,620	토큰	1	입력 텍스트 토큰 1개 = 토큰 1개 입력 오디오 토큰 1개 = 토큰 6개 입력 동영상 토큰 1개 = 토큰 6개 입력 이미지 토큰 1개 = 토큰 6개 입력 세션 메모리 토큰 1개 = 토큰 1개 출력 텍스트 토큰 1개 = 토큰 4개 출력 오디오 토큰 1개 = 토큰 24개
Gemini 2.0 Flash 지원되는 최신 버전: `gemini-2.0-flash-001`	3,360	토큰	1	입력 텍스트 토큰 1개 = 토큰 1개 입력 이미지 토큰 1개 = 토큰 1개 입력 동영상 토큰 1개 = 토큰 1개 입력 오디오 토큰 1개 = 토큰 7개 출력 텍스트 토큰 1개 = 토큰 4개
Gemini 2.0 Flash-Lite 지원되는 최신 버전: `gemini-2.0-flash-lite-001`	6,720	토큰	1	입력 텍스트 토큰 1개 = 토큰 1개 입력 이미지 토큰 1개 = 토큰 1개 입력 동영상 토큰 1개 = 토큰 1개 입력 오디오 토큰 1개 = 토큰 1개 출력 텍스트 토큰 1개 = 토큰 4개
Veo 3.1 프리뷰 지원되는 최신 버전: `veo-3.1-generate-001`(프리뷰)	0.0040	동영상 초	1	출력 동영상 1초 = 출력 동영상 1초
Veo 3.1 프리뷰 지원되는 최신 버전: `veo-3.1-generate-001`(프리뷰)	0.0040	동영상+오디오 초	1	출력 동영상+오디오 1초 = 출력 동영상 2초
Veo 3.1 Fast 프리뷰 지원되는 최신 버전: `veo-3.1-fast-generate-001`(프리뷰)	0.0080	동영상 초	1	출력 동영상 1초 = 출력 동영상 1초
	0.0080	동영상+오디오 초	1	출력 동영상+오디오 1초 = 출력 동영상 1.45초
Veo 3 지원되는 최신 버전: `veo-3.0-generate-001`	0.0040	동영상 초	1	출력 동영상 1초 = 출력 동영상 1초
Veo 3 지원되는 최신 버전: `veo-3.0-generate-001`	0.0040	동영상+오디오 초	1	출력 동영상+오디오 1초 = 출력 동영상 2초
Veo 3 Fast 지원되는 최신 버전: `veo-3.0-fast-generate-001`	0.0080	동영상 초	1	출력 동영상 1초 = 출력 동영상 1초
Veo 3 Fast 지원되는 최신 버전: `veo-3.0-fast-generate-001`	0.0080	동영상+오디오 초	1	출력 동영상+오디오 1초 = 출력 동영상 1.45초
Imagen 4 Ultra Generate `imagen-4.0-ultra-generate-001`	0.015	이미지	1	프로비저닝된 처리량 할당량에는 출력 이미지만 반영됩니다.
Imagen 4 Generate `imagen-4.0-generate-001`	0.02	이미지	1	프로비저닝된 처리량 할당량에는 출력 이미지만 반영됩니다.
Imagen 4 Fast Generate `imagen-4.0-fast-generate-001`	0.04	이미지	1	프로비저닝된 처리량 할당량에는 출력 이미지만 반영됩니다.
Imagen 3 Generate 002 `imagen-3.0-generate-002`	0.02	이미지	1	프로비저닝된 처리량 할당량에는 출력 이미지만 반영됩니다.
Imagen 3 Generate 001 `imagen-3.0-generate-001`	0.025	이미지	1	프로비저닝된 처리량 할당량에는 출력 이미지만 반영됩니다.
Imagen 3 Fast	0.05	이미지	1	프로비저닝된 처리량 할당량에는 출력 이미지만 반영됩니다.

모델의 기능과 입력 또는 출력 제한에 대한 자세한 내용은 모델 문서를 참고하세요.

액세스 요청: 모델 gemini-live-2.5-flash는 비공개 정식 버전입니다. 이 출시 버전에 대한 액세스 권한에 관한 자세한 내용은 액세스 요청 페이지를 참고하세요.

새 모델이 출시되면 업그레이드할 수 있습니다. 모델 사용 가능 여부 및 지원 중단 날짜에 관한 자세한 내용은 Google 모델을 참고하세요.

지원되는 위치에 대한 자세한 내용은 사용 가능한 위치를 참고하세요.

파트너 모델

다음 표에는 프로비저닝된 처리량을 지원하는 파트너 모델의 처리량, 구매 증분, 소진율이 나와 있습니다. Claude 모델은 초당 토큰으로 측정되며, 이는 초당 모든 요청의 입력 및 출력 토큰의 총합으로 정의됩니다.

모델	GSU당 처리량(토큰/초)	최소 GSU 구매	GSU 구매 증분	소진율
Anthropic의 Claude Opus 4.5	210	35	1	입력 토큰 1개 = 토큰 1개 출력 토큰 1개 = 토큰 5개 캐시 쓰기 5분 토큰 1개 = 토큰 1.25개 캐시 쓰기 1시간 토큰 1개 = 토큰 2개 캐시 적중 토큰 1개 = 토큰 0.1개
Anthropic의 Claude Sonnet 4.5	350	25	1	입력 토큰이 200,000개 미만인 경우: 입력 토큰 1개 = 토큰 1개 출력 토큰 1개 = 토큰 5개 캐시 쓰기 5분 토큰 1개 = 토큰 1.25개 캐시 쓰기 1시간 토큰 1개 = 토큰 2개 캐시 적중 토큰 1개 = 토큰 0.1개 입력 토큰이 200,000개 이상인 경우: 입력 토큰 1개 = 토큰 2개 출력 토큰 1개 = 토큰 7.5개 캐시 쓰기 5분 토큰 1개 = 토큰 2.5개 캐시 쓰기 1시간 토큰 1개 = 토큰 4개 캐시 적중 토큰 1개 = 토큰 0.2개
Anthropic의 Claude Opus 4.1	70	35	1	입력 토큰 1개 = 토큰 1개 출력 토큰 1개 = 토큰 5개 캐시 쓰기 5분 토큰 1개 = 토큰 1.25개 캐시 쓰기 1시간 토큰 1개 = 토큰 2개 캐시 적중 토큰 1개 = 토큰 0.1개
Anthropic의 Claude Haiku 4.5	1,050	8	1	입력 토큰이 200,000개 미만인 경우: 입력 토큰 1개 = 토큰 1개 출력 토큰 1개 = 토큰 5개 캐시 쓰기 5분 토큰 1개 = 토큰 1.25개 캐시 쓰기 1시간 토큰 1개 = 토큰 2개 캐시 적중 토큰 1개 = 토큰 0.1개
Anthropic의 Claude Opus 4	70	35	1	입력 토큰 1개 = 토큰 1개 출력 토큰 1개 = 토큰 5개 캐시 쓰기 5분 토큰 1개 = 토큰 1.25개 캐시 쓰기 1시간 토큰 1개 = 토큰 2개 캐시 적중 토큰 1개 = 토큰 0.1개
Anthropic의 Claude Sonnet 4	350	25	1	입력 토큰이 200,000개 미만인 경우: 입력 토큰 1개 = 토큰 1개 출력 토큰 1개 = 토큰 5개 캐시 쓰기 5분 토큰 1개 = 토큰 1.25개 캐시 쓰기 1시간 토큰 1개 = 토큰 2개 캐시 적중 토큰 1개 = 토큰 0.1개 입력 토큰이 200,000개 이상인 경우: 입력 토큰 1개 = 토큰 2개 출력 토큰 1개 = 토큰 7.5개 캐시 쓰기 5분 토큰 1개 = 토큰 2.5개 캐시 쓰기 1시간 토큰 1개 = 토큰 4개 캐시 적중 토큰 1개 = 토큰 0.2개
Anthropic의 Claude 3.7 Sonnet(지원 중단됨)	350	25	1	입력 토큰 1개 = 토큰 1개 출력 토큰 1개 = 토큰 5개 캐시 쓰기 5분 토큰 1개 = 토큰 1.25개 캐시 적중 토큰 1개 = 토큰 0.1개
Anthropic의 Claude 3.5 Sonnet v2(지원 중단됨)	350	25	1	입력 토큰 1개 = 토큰 1개 출력 토큰 1개 = 토큰 5개 캐시 쓰기 5분 토큰 1개 = 토큰 1.25개 캐시 적중 토큰 1개 = 토큰 0.1개
Anthropic의 Claude 3.5 Haiku	2,000	10	1	입력 토큰 1개 = 토큰 1개 출력 토큰 1개 = 토큰 5개 캐시 쓰기 5분 토큰 1개 = 토큰 1.25개 캐시 쓰기 1시간 토큰 1개 = 토큰 2개 캐시 적중 토큰 1개 = 토큰 0.1개
Anthropic의 Claude 3 Opus	70	35	1	입력 토큰 1개 = 토큰 1개 출력 토큰 1개 = 토큰 5개 캐시 쓰기 5분 토큰 1개 = 토큰 1.25개 캐시 적중 토큰 1개 = 토큰 0.1개
Anthropic의 Claude 3 Haiku	4,200	5	1	입력 토큰 1개 = 토큰 1개 출력 토큰 1개 = 토큰 5개 캐시 쓰기 5분 토큰 1개 = 토큰 1.25개 캐시 쓰기 1시간 토큰 1개 = 토큰 2개 캐시 적중 토큰 1개 = 토큰 0.1개
Anthropic의 Claude 3.5 Sonnet(지원 중단됨)	350	25	1	입력 토큰 1개 = 토큰 1개 출력 토큰 1개 = 토큰 5개 캐시 쓰기 5분 토큰 1개 = 토큰 1.25개 캐시 적중 토큰 1개 = 토큰 0.1개

지원되는 위치에 대한 자세한 내용은 Anthropic Claude 사용 가능한 리전을 참고하세요. Anthropic 모델에 대해 프로비저닝된 처리량을 주문하려면 Google Cloud 계정 담당자에게 문의하세요.

모델 열기

다음 표에는 프로비저닝된 처리량을 지원하는 개방형 모델의 처리량, 구매 증분, 소진율이 나와 있습니다.

모델	GSU당 처리량(토큰/초)	최소 GSU 구매	GSU 구매 증분	소진율
DeepSeek-OCR 지원되는 최신 버전: `deepseek-ocr-maas`	3,360	1	1	입력 텍스트 토큰 1개 = 토큰 1개 입력 이미지 토큰 1개 = 토큰 1개 출력 텍스트 토큰 1개 = 토큰 4개
DeepSeek-V3.2 지원되는 최신 버전: `deepseek-v3.2-maas`	1,680	1	1	입력 텍스트 토큰 1개 = 토큰 1개 출력 텍스트 토큰 1개 = 토큰 4개
Kimi K2 Thinking 지원되는 최신 버전: `kimi-k2-thinking-maas`	1,680	1	1	입력 텍스트 토큰 1개 = 토큰 1개 출력 텍스트 토큰 1개 = 토큰 4개
Llama 3.3 70B 지원되는 최신 버전: `llama-3.3-70b-instruct-maas`	1,400	1	1	입력 텍스트 토큰 1개 = 토큰 1개 출력 텍스트 토큰 1개 = 토큰 1개
Llama 4 Maverick 17B-128E 지원되는 최신 버전: `llama-4-maverick-17b-128e-instruct-maas`	2,800	1	1	입력 텍스트 토큰 1개 = 토큰 1개 입력 이미지 토큰 1개 = 토큰 1개 출력 텍스트 토큰 1개 = 토큰 4개
Llama 4 Scout 17B-16E 지원되는 최신 버전: `llama-4-scout-17b-16e-instruct-maas`	4,035	1	1	입력 텍스트 토큰 1개 = 토큰 1개 입력 이미지 토큰 1개 = 토큰 1개 출력 텍스트 토큰 1개 = 토큰 3개
MiniMax M2 지원되는 최신 버전: `minimax-m2-maas`	3,360	1	1	입력 텍스트 토큰 1개 = 토큰 1개 출력 텍스트 토큰 1개 = 토큰 4개
OpenAI gpt-oss 120B 지원되는 최신 버전: `gpt-oss-120b-maas`	11,205	1	1	입력 텍스트 토큰 1개 = 토큰 1개 출력 텍스트 토큰 1개 = 토큰 4개
OpenAI gpt-oss 20B 지원되는 최신 버전: `gpt-oss-20b-maas`	14,405	1	1	입력 텍스트 토큰 1개 = 토큰 1개 출력 텍스트 토큰 1개 = 토큰 4개
Qwen3 235B 지원되는 최신 버전: `qwen3-235b-a22b-instruct-2507-maas`	4,035	1	1	입력 텍스트 토큰 1개 = 토큰 1개 출력 텍스트 토큰 1개 = 토큰 4개
Qwen3 Coder 지원되는 최신 버전: `qwen3-coder-480b-a35b-instruct-maas`	1,010	1	1	입력 텍스트 토큰 1개 = 토큰 1개 출력 텍스트 토큰 1개 = 토큰 4개
Qwen3-Next-80B Instruct 지원되는 최신 버전: `qwen3-next-80b-a3b-instruct-maas`	6,725	1	1	입력 텍스트 토큰 1개 = 토큰 1개 출력 텍스트 토큰 1개 = 토큰 8개
Qwen3-Next-80B Thinking 지원되는 최신 버전: `qwen3-next-80b-a3b-thinking-maas`	6,725	1	1	입력 텍스트 토큰 1개 = 토큰 1개 출력 텍스트 토큰 1개 = 토큰 8개

Google 및 개방형 모델에서 사용할 수 있는 기능

다음 표에는 Google 모델 및 개방형 모델의 프로비저닝된 처리량에서 사용할 수 있는 기능이 나와 있습니다.

기능	Google 모델	개방형 모델(프리뷰)
Google Cloud 콘솔을 통해 주문	예	예
전역 엔드포인트 지원	전역 엔드포인트 모델 지원을 참고하세요.	전역 엔드포인트 모델 지원을 참고하세요.
지도 미세 조정 모델 지원	예	아니요
API 키 사용 지원	예	아니요
암시적 컨텍스트 캐싱과 통합	예	해당 사항 없음
명시적 컨텍스트 캐싱과 통합	예	해당 사항 없음
ML 처리	특정 지역에서 사용할 수 있습니다. 자세한 내용은 단일 영역 프로비저닝된 처리량을 참고하세요.	해당 사항 없음
사용 가능한 주문 약관	1주, 1개월, 3개월, 1년	1개월, 3개월, 1년
콘솔에서 주문 변경	예	아니요
주문 상태: 검토 대기 중, 승인됨, 활성, 만료됨	예	예
초과분은 기본적으로 사용한 만큼만 지불로 이월됩니다.	예	예
API 헤더 제어: 프로비저닝된 처리량만 사용하려면 'dedicated'를 사용하고 사용한 만큼만 지불을 사용하려면 'shared'를 사용합니다.	예	예
모니터링: 측정항목, 대시보드, 알림	예	예

전역 엔드포인트 모델 지원

프로비저닝된 처리량은 Google 모델과 공개 모델의 전역 엔드포인트를 지원합니다.

프로비저닝된 처리량 할당량을 초과하는 트래픽은 기본적으로 전역 엔드포인트를 사용합니다.

모델의 글로벌 엔드포인트에 프로비저닝된 처리량을 할당하려면 프로비저닝된 처리량 주문을 할 때 리전으로 global을 선택합니다.

전역 엔드포인트를 지원하는 Google 모델

다음 표에는 프로비저닝된 처리량이 전역 엔드포인트를 지원하는 Google 모델이 나와 있습니다.

모델	지원되는 최신 모델 버전
Gemini 3 Pro(프리뷰)	`gemini-3-pro-preview`
Gemini 3 Pro Image(프리뷰)	`gemini-3-pro-image-preview`
Gemini 2.5 Pro	`gemini-2.5-pro`
Gemini 2.5 Flash Image	`gemini-2.5-flash-image`
Gemini 2.5 Flash	`gemini-2.5-flash-preview-09-2025`(프리뷰) `gemini-2.5-flash`(GA)
Gemini 2.5 Flash-Lite	`gemini-2.5-flash-lite-preview-09-2025`(프리뷰) `gemini-2.5-flash-lite`(GA)
Gemini 2.0 Flash	`gemini-2.0-flash-001`
Gemini 2.0 Flash-Lite	`gemini-2.0-flash-lite-001`

전역 엔드포인트 지원이 포함된 개방형 모델

다음 표에는 프로비저닝된 처리량이 전역 엔드포인트를 지원하는 개방형 모델이 나와 있습니다.

모델	지원되는 최신 모델 버전
DeepSeek-OCR	`deepseek-ocr-maas`
DeepSeek-V3.2	`deepseek-v3.2-maas`
Kimi K2 Thinking	`kimi-k2-thinking-maas`
MiniMax M2	`minimax-m2-maas`
OpenAI gpt-oss 120B	`gpt-oss-120b-maas`
Qwen3-Next-80B Instruct	`qwen3-next-80b-a3b-instruct-maas`
Qwen3-Next-80B Thinking	`qwen3-next-80b-a3b-thinking-maas`

감독 기반 세부 조정 모델 지원

지도 미세 조정을 지원하는 Google 모델에서는 다음이 지원됩니다.

프로비저닝된 처리량은 기본 모델과 이러한 기본 모델의 감독 기반 세부 조정 버전 모두에 적용할 수 있습니다.
감독 기반 세부 조정된 모델 엔드포인트와 이에 상응하는 기본 모델 수가 동일한 프로비저닝된 처리량 할당량에 반영됩니다.

예를 들어 특정 프로젝트의 gemini-2.0-flash-lite-001에 대해 구매한 프로비저닝된 처리량은 해당 프로젝트 내에서 생성된 gemini-2.0-flash-lite-001의 감독 기반 세부 조정된 버전에서 이루어진 요청에 우선순위를 둡니다. 적절한 헤더를 사용하여 트래픽 동작을 제어합니다.

다음 단계

프로비저닝된 처리량 계산 요구사항

지원되는 모델 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

Google 모델

파트너 모델

모델 열기

Google 및 개방형 모델에서 사용할 수 있는 기능

전역 엔드포인트 모델 지원

전역 엔드포인트를 지원하는 Google 모델

전역 엔드포인트 지원이 포함된 개방형 모델

감독 기반 세부 조정 모델 지원

다음 단계

지원되는 모델