할당량 및 시스템 한도

이 문서에서는 Vertex AI Agent Builder에 적용되는 할당량과 시스템 한도를 설명합니다.

할당량에는 기본값이 있지만 일반적으로 조정을 요청할 수 있습니다.
시스템 한도는 변경할 수 없는 고정 값입니다.

Google Cloud 는 공정성을 보장하고 리소스 사용 및 가용성의 급증을 줄이기 위해 할당량을 사용합니다. 할당량은 Google Cloud 프로젝트에서 사용할 수 있는Google Cloud 리소스 양을 제한합니다. 할당량은 하드웨어, 소프트웨어, 네트워크 구성요소를 포함하여 다양한 리소스 유형에 적용됩니다. 예를 들어 할당량에 따라 서비스에 대한 API 호출 수, 프로젝트에서 동시에 사용하는 부하 분산기 수, 만들 수 있는 프로젝트 수가 제한될 수 있습니다. 할당량은 서비스 과부하를 방지하여Google Cloud 사용자 커뮤니티를 보호합니다. 또한 할당량은 자체 Google Cloud 리소스를 관리하는 데 도움이 됩니다.

Cloud Quotas 시스템은 다음을 수행합니다.

Google Cloud 제품 및 서비스 소비량 모니터링
리소스 소비 제한
할당량값 변경을 요청하고 할당량 조정을 자동화하는 방법 제공

대부분의 경우 할당량이 허용하는 것보다 더 많은 리소스를 소비하려고 하면 시스템에서 리소스에 대한 액세스를 차단하고 수행하려는 작업이 실패합니다.

할당량은 일반적으로 Google Cloud 프로젝트 수준에서 적용됩니다. 한 프로젝트의 리소스를 사용해도 다른 프로젝트에서 사용 가능한 할당량에는 영향을 미치지 않습니다. Google Cloud 프로젝트 내에서 할당량은 모든 애플리케이션과 IP 주소에 공유됩니다.

자세한 내용은 Cloud Quotas 개요를 참고하세요.

Vertex AI Agent Engine 할당량

다음 할당량은 각 리전의 특정 프로젝트에 대한 Vertex AI Agent Engine에 적용됩니다.

설명	Quota	측정항목
Vertex AI Agent Engine 리소스 만들기, 삭제 또는 업데이트(분당)	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
Vertex AI Agent Engine 세션 만들기, 삭제, 업데이트(분당)	100	`aiplatform.googleapis.com/session_write_requests`
Vertex AI Agent Engine에 대한 `Query` 또는 `StreamQuery`(분당)	90	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
Vertex AI Agent Engine 세션에 이벤트 추가(분당)	300	`aiplatform.googleapis.com/session_event_append_requests`
최대 Vertex AI Agent Engine 리소스 수	100	`aiplatform.googleapis.com/reasoning_engine_service_entities`
Vertex AI Agent Engine 메모리 리소스 만들기, 삭제, 업데이트(분당)	100	`aiplatform.googleapis.com/memory_bank_write_requests`
Vertex AI Agent Engine Memory Bank에서 가져오기, 나열, 검색(분당)	300	`aiplatform.googleapis.com/memory_bank_read_requests`
샌드박스 환경(Code Execution) 실행 요청 수(분당)	1000	`aiplatform.googleapis.com/sandbox_environment_execute_requests`
샌드박스 환경(Code Execution) 항목 수(리전)	1000	`aiplatform.googleapis.com/sandbox_environment_entities`
A2A 에이전트 POST 요청(예: `sendMessage` 및 `cancelTask`)(분당)	60	`aiplatform.googleapis.com/a2a_agent_post_requests`
A2A 에이전트 GET 요청(예: `getTask` 및 `getCard`)(분당)	600	`aiplatform.googleapis.com/a2a_agent_get_requests`
`BidiStreamQuery` API를 사용하는 동시 라이브 양방향 연결(분당)	10	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`

프로덕션 부하의 할당량 관리

트래픽이 확장되면 429 Resource Exhausted 오류를 방지하기 위해 특정 Vertex AI API 할당량의 상향을 요청해야 할 수 있습니다. 사전에 런타임을 구성하고 할당량을 늘려 프로덕션 부하에서 Vertex AI Agent Engine 런타임의 응답성, 확장성, 안정성을 유지할 수 있습니다.

Vertex AI Agent Engine 성능을 최적화하고 확장하는 방법에 대한 자세한 내용은 Vertex AI Agent Engine 런타임 성능 최적화 및 확장을 참고하세요.

최대 할당량 요구사항을 추정하려면 다음 단계를 따르세요.

변수를 정의합니다.
- U: 최대 동시 사용자 수입니다 (예: 250).
- X: 사용자당 분당 평균 요청 수입니다 (예: 2).
- Y: 요청당 생성된 평균 세션 이벤트 수입니다 (예: 여러 도구 호출이 포함된 복잡한 체인의 경우 12).
최대 부하 계산:
- 분당 최대 쿼리 수(QPM)를 계산합니다(U * X).
- 분당 최대 세션 이벤트 수 계산: 최대 QPM * Y
버퍼가 있는 할당량 요청: 할당량 증가를 요청할 때 예상치 못한 급증을 처리하기 위해 계산된 최대치에 버퍼 (예: 50%)를 추가합니다.

다음 표에서는 peak concurrent users=250, average requests per user per minute=2, average session events generated per request=12의 예시 변수를 사용하여 Vertex AI Agent Engine의 주요 성능 관련 할당량을 계산한 결과를 보여줍니다.

할당량 이름 할당량 설명 기본 계산 (최고) 권장 값 (50% 버퍼 포함)

분당 Agent Engine 쿼리 (aiplatform.googleapis.com/reasoning_engine_service_query_requests) 상담사가 분당 수신할 수 있는 query 또는 stream_query 통화의 총수입니다. 250 users * 2 req/min = 500 QPM 500 * 1.5 = 750

할당량 이름	할당량 설명	기본 계산 (최고)	권장 값 (50% 버퍼 포함)
분당 Agent Engine 쿼리 (`aiplatform.googleapis.com/reasoning_engine_service_query_requests`)	상담사가 분당 수신할 수 있는 `query` 또는 `stream_query` 통화의 총수입니다.	`250 users * 2 req/min = 500 QPM`	`500 * 1.5 =` `750`
분당 세션 이벤트 추가 (`aiplatform.googleapis.com/session_event_append_requests`)	진행 중인 모든 세션 내의 턴 또는 이벤트 수입니다. 단일 쿼리는 다음과 같이 체인에서 여러 세션 이벤트를 생성할 수 있습니다. LLM 호출 LLM 응답: 도구 사용 도구를 실행합니다. 도구 응답으로 LLM을 호출합니다. LLM이 최종 대답을 제공합니다.	`500 QPM * 12 events/req = 6,000`	`6,000 * 1.5 =` `9,000`
분당 세션 쓰기 (`aiplatform.googleapis.com/session_write_requests`)	세션 리소스를 만들거나 업데이트하는 비율입니다. 일반적으로 쿼리 비율 이하입니다.	일반적으로 최대 QPM (`500`) 이하	일반적으로 쿼리 할당량 (`750`) 이하

분당 세션 이벤트 추가 (aiplatform.googleapis.com/session_event_append_requests)

진행 중인 모든 세션 내의 턴 또는 이벤트 수입니다. 단일 쿼리는 다음과 같이 체인에서 여러 세션 이벤트를 생성할 수 있습니다.

LLM 호출
LLM 응답: 도구 사용
도구를 실행합니다.
도구 응답으로 LLM을 호출합니다.
LLM이 최종 대답을 제공합니다.

500 QPM * 12 events/req = 6,000

6,000 * 1.5 = 9,000

분당 세션 쓰기 (aiplatform.googleapis.com/session_write_requests) 세션 리소스를 만들거나 업데이트하는 비율입니다. 일반적으로 쿼리 비율 이하입니다. 일반적으로 최대 QPM (500) 이하 일반적으로 쿼리 할당량 (750) 이하

할당량 조정 요청

대부분의 할당량을 조정하려면 Google Cloud 콘솔을 사용합니다. 자세한 내용은 할당량 조정 요청을 참조하세요.

Vertex AI Agent Engine Express 모드 할당량

Vertex AI 무료 등급 익스프레스 모드 사용자는 Vertex AI Agent Engine 서비스를 무료로 사용할 수 있으며, 다음과 같은 할당량이 적용됩니다. 무료 등급 및 익스프레스 모드에 대한 자세한 내용은 익스프레스 모드의 Vertex AI 개요를 참고하세요. 다음 할당량은 각 리전의 특정 익스프레스 모드 프로젝트에 대한 Vertex AI Agent Engine에 적용됩니다.

설명	Quota	측정항목
최대 Vertex AI Agent Engine 리소스 수	10	`aiplatform.googleapis.com/reasoning_engine_service_entities`
Vertex AI Agent Engine 리소스 만들기, 삭제 또는 업데이트(분당)	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
Vertex AI Agent Engine에 대한 `Query` 또는 `StreamQuery`(분당)	10	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
`BidiStreamQuery` API를 사용하는 동시 라이브 양방향 연결(분당)	1	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`
Vertex AI Agent Engine 세션 만들기, 삭제, 업데이트(분당)	10	`aiplatform.googleapis.com/session_write_requests`
Vertex AI Agent Engine 세션에 이벤트 추가(분당)	30	`aiplatform.googleapis.com/session_event_append_requests`
Vertex AI Agent Engine 메모리 리소스 만들기, 삭제, 업데이트(분당)	10	`aiplatform.googleapis.com/memory_bank_write_requests`
Vertex AI Agent Engine Memory Bank에서 가져오기, 나열, 검색(분당)	10	`aiplatform.googleapis.com/memory_bank_read_requests`