Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini Enterprise Agent Platform의 생성형 AI 할당량 및 시스템 한도

이 페이지에서는 리전 및 모델별 할당량 목록을 제공하고 콘솔에서 할당량을 확인하고 수정하는 방법을 보여줍니다. Google Cloud

조정된 모델 할당량

조정된 모델 추론은 기본 모델과 동일한 할당량을 공유합니다. 조정된 모델 추론에 대한 별도의 할당량은 없습니다.

삽입 한도

gemini-embedding-001 요청에는 리전 할당량이 적용되는 반면 gemini-embedding-2 요청에는 전역 할당량이 적용됩니다.

기본 모델	Quota	측정항목
base_model: gemini-embedding	5,000,000	`aiplatform.googleapis.com/embed_content_input_tokens_per_minute_per_base_model`
base_model: gemini-embedding-2	10,000,000	`aiplatform.googleapis.com/global_embed_content_input_tokens_per_minute_per_base_model`
base_model: gemini-embedding-2	40,000	`aiplatform.googleapis.com/global_embed_content_requests_per_minute_per_base_model`

predict API를 사용하는 gemini-embedding-001 요청에도 다음 할당량이 적용됩니다.

기본 모델	Quota	측정항목
base_model: gemini-embedding	100,000	`aiplatform.googleapis.com/online_prediction_requests_per_base_model`
base_model: 해당 없음	30,000	`aiplatform.googleapis.com/online_prediction_requests`

Vertex AI Agent Engine 할당량

다음 할당량은 Vertex AI Agent Engine이 각 리전의 특정 프로젝트에 적용됩니다.

설명	Quota	측정항목
Vertex AI Agent Engine 리소스 만들기, 삭제 또는 업데이트(분당)	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
Vertex AI Agent Engine 세션 만들기, 삭제, 업데이트(분당)	100	`aiplatform.googleapis.com/session_write_requests`
Vertex AI Agent Engine 세션 가져오기, 나열, 검색(분당)	10000	`aiplatform.googleapis.com/session_read_requests`
`Query` 또는 `StreamQuery` Vertex AI Agent Engine(분당 )	90	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
Vertex AI Agent Engine 세션에 이벤트 추가(분당)	300	`aiplatform.googleapis.com/session_event_append_requests`
최대 Vertex AI Agent Engine 리소스 수	100	`aiplatform.googleapis.com/reasoning_engine_service_entities`
Vertex AI Agent Engine 메모리 리소스 만들기, 삭제, 업데이트(분당)	100	`aiplatform.googleapis.com/memory_bank_write_requests`
Vertex AI Agent Engine Memory Bank에서 가져오기, 나열, 검색(분당)	300	`aiplatform.googleapis.com/memory_bank_read_requests`
샌드박스 환경(Code Execution) 실행 요청 수(분당)	1000	`aiplatform.googleapis.com/sandbox_environment_execute_requests`
샌드박스 환경(Code Execution) 항목 수(리전)	1000	`aiplatform.googleapis.com/sandbox_environment_entities`
샌드박스 환경(Code Execution) 쓰기 요청 수(분당)	500	`aiplatform.googleapis.com/sandbox_environment_write_requests`
A2A 에이전트 POST 요청(예: `sendMessage` 및 `cancelTask`)( 분당)	60	`aiplatform.googleapis.com/a2a_agent_post_requests`
A2A 에이전트 GET 요청(예: `getTask` 및 `getCard`)(분당)	600	`aiplatform.googleapis.com/a2a_agent_get_requests`
`BidiStreamQuery` API를 사용하는 동시 라이브 양방향 연결(분당)	10	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`

일괄 예측

일괄 추론 작업에 대한 할당량과 한도는 모든 리전에서 동일합니다.

Gemini 모델의 동시 일괄 추론 작업 한도

Gemini 모델의 일괄 추론에는 사전 정의된 할당량 한도가 없습니다. 대신 일괄 서비스는 해당 모델의 실시간 가용성과 전체 고객 수요에 따라 동적으로 할당되는 대규모 공유 리소스 풀에 대한 액세스를 제공합니다. 활성 고객 수가 많아지고 모델의 용량이 포화 상태에 이르면 사용자의 일괄 요청은 용량이 확보될 때까지 대기열에 들어갈 수 있습니다.

Gemini 이외 모델의 동시 일괄 추론 작업 할당량

다음 표에서는 Gemini 모델에는 적용되지 않는, Gemini 이외 모델에 대한 동시 일괄 추론 작업 개수 할당량을 보여줍니다.

할당량	값
`aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs`	4

제출된 작업 수가 배정된 할당량을 초과하면 작업이 큐에 추가되고 할당량 용량을 사용할 수 있게 되면 처리됩니다.

콘솔에서 할당량 보기 및 수정 Google Cloud

콘솔에서 할당량을 확인하고 수정하려면 다음 단계를 따르세요.

Google Cloud

할당량 및 시스템 한도 페이지로 이동합니다.

할당량 및 시스템 한도로 이동

할당량을 조정하려면 필터에 속성 aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs을 복사하여 붙여넣습니다. Enter를 누릅니다.
행 끝에 있는 점 세 개를 클릭하고 할당량 수정 을 선택합니다.
창에 새 할당량 값을 입력하고 요청 제출 을 클릭합니다.

Gemini Enterprise Agent Platform의 RAG 엔진

RAG Engine을 사용하여 검색 증강 생성(RAG)을 수행하는 각 서비스에는 다음 할당량이 적용되며, 할당량은 분당 요청 수(RPM)로 측정됩니다.

서비스	할당량	측정항목
RAG Engine 데이터 관리 API	60 RPM	`VertexRagDataService requests per minute per region`
`RetrievalContexts` API	600 RPM	`VertexRagService retrieve requests per minute per region`
`base_model: textembedding-gecko`	1,500 RPM	`Online prediction requests per base model per minute per region per base_model` 지정할 수 있는 추가 필터는 `base_model: textembedding-gecko`입니다.

적용되는 요청 한도는 다음과 같습니다.

서비스	한도	측정항목
동시 `ImportRagFiles` 요청	3 RPM	`VertexRagService concurrent import requests per region`
`ImportRagFiles` 요청당 최대 파일 수	10,000	`VertexRagService import rag files requests per region`

비율 제한 및 할당량에 관한 자세한 내용은 Gemini Enterprise 에이전트 플랫폼의 생성형 AI 비율 제한을 참조하세요.

Gen AI Evaluation Service

Gen AI Evaluation Service는 모델 기반 측정항목에 Gemini 2.5 Flash를 기본 평가 모델로 사용합니다. 모델 기반 측정항목에 대한 단일 평가 요청으로 인해 Gen AI Evaluation Service에 대한 여러 개의 기본 요청이 발생할 수 있습니다. 각 모델의 소비량은 조직 수준에서 계산됩니다. 즉, 모델 추론 및 모델 기반 평가를 위해 평가 모델로 전달되는 모든 요청이 모델의 소비량에 반영됩니다. Gen AI Evaluation Service 및 기본 평가 모델의 할당량은 다음 표에 나와 있습니다.

요청 할당량	기본 할당량
분당 Gen AI Evaluation Service 요청 수	리전별 프로젝트당 1,000개 요청
Gemini 처리량	모델 및 소비 옵션에 따라 다름
동시 평가 실행	리전별 프로젝트당 동시 평가 20개 실행

Gen AI Evaluation Service를 사용하는 동안 할당량과 관련된 오류가 발생하면 할당량 증가 요청을 제출해야 할 수 있습니다. 자세한 사항은 할당량 보기 및 관리를 참조하세요.

한도	값
Gen AI Evaluation Service 요청 제한 시간	60초

새 프로젝트에서 Gen AI Evaluation Service를 처음 사용하는 경우 최대 2분까지 초기 설정이 지연될 수 있습니다. 첫 번째 요청이 실패하면 몇 분 정도 기다린 후 다시 시도하세요. 후속 평가 요청은 일반적으로 60초 이내에 완료됩니다.

모델 기반 측정항목의 최대 입력 및 출력 토큰은 평가 모델로 사용되는 모델에 따라 다릅니다. 모델 목록은 Google 모델을 참고하세요.

Gemini Enterprise 에이전트 플랫폼 파이프라인 할당량

각 조정 작업에는 Gemini Enterprise 에이전트 플랫폼 파이프라인이 사용됩니다. 자세한 내용은 Agent Platform 파이프라인 할당량 및 한도를 참조하세요.

다음 단계

개요

Gemini Enterprise Agent Platform의 생성형 AI 할당량 및 시스템 한도

조정된 모델 할당량

삽입 한도

Vertex AI Agent Engine 할당량

일괄 예측

Gemini 모델의 동시 일괄 추론 작업 한도

Gemini 이외 모델의 동시 일괄 추론 작업 할당량

콘솔에서 할당량 보기 및 수정 Google Cloud

Gemini Enterprise Agent Platform의 RAG 엔진

Gen AI Evaluation Service

Gemini Enterprise 에이전트 플랫폼 파이프라인 할당량

다음 단계

표준 종량제

Agent Platform 할당량 및 시스템 한도

Google Cloud 할당량

Gemini Enterprise Agent Platform의 생성형 AI 할당량 및 시스템 한도 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

조정된 모델 할당량

삽입 한도

Vertex AI Agent Engine 할당량

일괄 예측

Gemini 모델의 동시 일괄 추론 작업 한도

Gemini 이외 모델의 동시 일괄 추론 작업 할당량

콘솔에서 할당량 보기 및 수정 Google Cloud

Gemini Enterprise Agent Platform의 RAG 엔진

Gen AI Evaluation Service

Gemini Enterprise 에이전트 플랫폼 파이프라인 할당량

다음 단계

표준 종량제

Agent Platform 할당량 및 시스템 한도

Google Cloud 할당량

Gemini Enterprise Agent Platform의 생성형 AI 할당량 및 시스템 한도