Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Capacidade de processamento provisionada

A capacidade de processamento provisionada (PT) é uma assinatura de custo e prazo fixos disponível em vários períodos que reserva capacidade de processamento na plataforma de agentes do Gemini Enterprise. Para reservar a capacidade de processamento, especifique o modelo e os locais disponíveis em que ele é executado.

Esta página explica como a capacidade de processamento provisionada funciona, como controlar os excedentes ou ignorar a capacidade de processamento provisionada e como monitorar o uso.

Quando usar a capacidade de processamento provisionada

Se alguma das considerações a seguir se aplicar ao seu caso de uso, considere usar a capacidade de processamento provisionada:

Suas cargas de trabalho críticas exigem constantemente uma alta capacidade de processamento. A medição da capacidade de processamento depende do modelo.
Você quer oferecer uma experiência consistente e previsível para os usuários dos apps.
Você quer custos de IA generativa determinísticos pagando um preço mensal ou semanal fixo com controle de gastos excedentes.

A capacidade de processamento provisionada é uma das várias opções de consumo da plataforma de agentes do Gemini Enterprise. Para saber mais sobre todas as opções de consumo, consulte Opções de consumo.

Como funciona a capacidade de processamento provisionada

Esta seção explica como a capacidade de processamento provisionada funciona usando a verificação de cota durante o período de aplicação de cota.

Verificação da cota de capacidade de processamento provisionada

Sua cota máxima de capacidade de processamento provisionada é um múltiplo do número de unidades de escalonamento de IA generativa (GSUs) compradas e da capacidade de processamento por GSU. Ele é verificado sempre que você faz uma solicitação no período de aplicação da cota, que é a frequência com que a cota máxima de Capacidade de processamento provisionada é aplicada.

Quando uma solicitação é recebida, o tamanho real da resposta é desconhecido. Como priorizamos a velocidade de resposta para aplicativos em tempo real, a capacidade de processamento provisionada estima o tamanho do token de saída. Se a estimativa inicial exceder a cota máxima disponível de capacidade de processamento provisionada, a solicitação será processada como pagamento por uso. Caso contrário, ela será processada como capacidade de processamento provisionada. Isso é feito comparando a estimativa inicial com sua cota máxima de capacidade de processamento provisionada.

Quando a resposta é gerada e o tamanho real do token de saída é conhecido, o uso e a cota reais são reconciliados adicionando a diferença entre a estimativa e o uso real ao valor da cota de Capacidade de processamento provisionada disponível.

Janelas de aplicação da cota de capacidade de processamento provisionada

A plataforma de agentes do Gemini Enterprise aplica uma janela dinâmica ao impor a cota de capacidade de processamento provisionada para modelos do Gemini. Isso oferece estabilidade ideal para tráfego propenso a picos. Em vez de uma janela fixa, a plataforma do agente aplica a cota em uma janela flexível que se ajusta automaticamente, dependendo do tipo de modelo e do número de GSUs provisionadas. Como resultado, você pode ter um tráfego temporariamente priorizado que excede a cota por segundo em alguns casos. No entanto, você não pode exceder sua cota durante o período da janela. Esses períodos são baseados no tempo interno do relógio da plataforma de agentes e são independentes do momento em que as solicitações são feitas.

Como funciona a janela de aplicação de cotas

A janela de aplicação determina o quanto você pode exceder ou "ultrapassar" o limite por segundo antes de ter a taxa limitada. Essa janela é aplicada automaticamente. Essas janelas estão sujeitas a mudanças para otimizar a performance e a confiabilidade.

Alocações pequenas de GSU (3 GSUs ou menos): a janela pode variar de 40 a 120 segundos para permitir que solicitações individuais maiores sejam processadas sem interrupção.

Por exemplo, se você comprar uma GSU do gemini-2.5-flash, vai receber uma média de 2.690 tokens por segundo de capacidade de processamento contínua. O uso total em qualquer janela de 120 segundos não pode exceder 322.800 tokens (2.690 tokens por segundo * 120 segundos). Portanto, se você enviar uma solicitação que usa 70.000 tokens por segundo, mas o uso total em 120 segundos permanecer abaixo de 322.800 tokens, a burst de 70.000 tokens por segundo ainda será considerada como Capacidade de processamento provisionada, já que o uso médio não excede 2.690 tokens por segundo.
Alocações padrão (tamanho médio) de GSU (mais de 3 GSUs): para implantações de GSU de tamanho médio (por exemplo, menos de 50 GSUs), a janela pode variar de 5 a 30 segundos. Os limites e as janelas de contexto da GSU variam de acordo com o modelo.

Por exemplo, se você comprar 25 GSUs de gemini-2.5-flash, vai receber uma média de 67.250 tokens por segundo (2.690 tokens por segundo * 25) de capacidade de processamento contínua. Seu uso total em qualquer período de 30 segundos não pode exceder 2.017.500 tokens (67.250 tokens por segundo * 30 segundos). Portanto, se você enviar uma solicitação que usa 1.000.000 de tokens por segundo, mas o uso total em 30 segundos permanecer dentro de 2.017.500 tokens, a explosão de 1.000.000 de tokens por segundo ainda será considerada capacidade de processamento provisionada, já que o uso médio não excede 67.250 tokens por segundo.
Alocações de GSU de alta precisão (em grande escala): para implantações de GSU em grande escala (por exemplo, 50 GSUs ou mais), a janela pode variar de 1 a 5 segundos para garantir que as solicitações de alta frequência sejam processadas com máxima acurácia em toda a infraestrutura.

Por exemplo, se você comprar 250 GSUs de gemini-2.5-flash, vai receber uma média de 672.500 tokens por segundo (2.690 tokens por segundo * 250) de capacidade de processamento contínua. O uso total em qualquer janela de 5 segundos não pode exceder 3.362.500 tokens (672.500 tokens por segundo * 5 segundos). Portanto, se você enviar uma solicitação que use 5.000.000 de tokens por segundo, ela não será processada como capacidade de processamento provisionada, porque o uso total de 5.000.000 de tokens excede o limite de 3.362.500 tokens em uma janela de 5 segundos. Por outro lado, uma solicitação que usa 1.000.000 de tokens por segundo pode ser processada como capacidade de processamento provisionada se o uso médio na janela de 5 segundos não exceder 672.500 tokens por segundo.

Controlar excedentes ou ignorar a capacidade de processamento provisionada

Use a API para controlar excedentes quando você exceder a capacidade de processamento comprada ou para ignorar a capacidade de processamento provisionada por solicitação.

Leia cada opção para determinar o que você precisa fazer para atender ao seu caso de uso.

Comportamento padrão

Se uma solicitação exceder a cota restante de capacidade de processamento provisionada, ela será processada como uma solicitação sob demanda por padrão e será cobrada de acordo com a taxa de pagamento por uso. Quando isso acontece, o tráfego aparece como transbordamento nos painéis de monitoramento. Para mais informações sobre como monitorar o uso da capacidade de processamento provisionada, consulte Monitorar a capacidade de processamento provisionada.

Depois que o pedido de capacidade de processamento provisionada estiver ativo, o comportamento padrão vai ocorrer automaticamente. Não é preciso mudar o código para começar a consumir seu pedido desde que ele seja consumido na região provisionada.

Usar apenas a capacidade de processamento provisionada

Se você estiver gerenciando custos evitando cobranças sob demanda, use apenas a capacidade de processamento provisionada. As solicitações que excedem o valor do pedido de capacidade de processamento provisionada retornam um erro 429.

Ao enviar solicitações para a API, defina o cabeçalho HTTP X-Vertex-AI-LLM-Request-Type como dedicated.

Usar apenas o pagamento por uso

Isso também é chamado de uso sob demanda. As solicitações ignoram o pedido de capacidade de processamento provisionada e são enviadas diretamente para o pagamento por uso. Isso pode ser útil para experimentos ou aplicativos que estão em desenvolvimento.

Ao enviar solicitações para a API, defina o cabeçalho HTTP X-Vertex-AI-LLM-Request-Type como shared.

Exemplo

Python

Instalar

pip install --upgrade google-genai

Para saber mais, consulte a documentação de referência do SDK.

Defina variáveis de ambiente para usar o SDK de IA generativa com a Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(
    http_options=HttpOptions(
        api_version="v1",
        headers={
            # Options:
            # - "dedicated": Use Provisioned Throughput
            # - "shared": Use pay-as-you-go
            # https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
            "X-Vertex-AI-LLM-Request-Type": "shared"
        },
    )
)
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

Go

Saiba como instalar ou atualizar o Go.

Para saber mais, consulte a documentação de referência do SDK.

Defina variáveis de ambiente para usar o SDK de IA generativa com a Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

import (
	"context"
	"fmt"
	"io"
	"net/http"

	"google.golang.org/genai"
)

// generateText shows how to generate text Provisioned Throughput.
func generateText(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{
			APIVersion: "v1",
			Headers: http.Header{
				// Options:
				// - "dedicated": Use Provisioned Throughput
				// - "shared": Use pay-as-you-go
				// https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
				"X-Vertex-AI-LLM-Request-Type": []string{"shared"},
			},
		},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	modelName := "gemini-2.5-flash"
	contents := genai.Text("How does AI work?")

	resp, err := client.Models.GenerateContent(ctx, modelName, contents, nil)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// Artificial Intelligence (AI) isn't magic, nor is it a single "thing." Instead, it's a broad field of computer science focused on creating machines that can perform tasks that typically require human intelligence.
	// .....
	// In Summary:
	// ...

	return nil
}

Node.js

Instalar

npm install @google/genai

Para saber mais, consulte a documentação de referência do SDK.

Defina variáveis de ambiente para usar o SDK de IA generativa com a Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

const {GoogleGenAI} = require('@google/genai');

const GOOGLE_CLOUD_PROJECT = process.env.GOOGLE_CLOUD_PROJECT;
const GOOGLE_CLOUD_LOCATION = process.env.GOOGLE_CLOUD_LOCATION || 'global';

async function generateWithProvisionedThroughput(
  projectId = GOOGLE_CLOUD_PROJECT,
  location = GOOGLE_CLOUD_LOCATION
) {
  const client = new GoogleGenAI({
    vertexai: true,
    project: projectId,
    location: location,
    httpOptions: {
      apiVersion: 'v1',
      headers: {
        // Options:
        // - "dedicated": Use Provisioned Throughput
        // - "shared": Use pay-as-you-go
        // https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
        'X-Vertex-AI-LLM-Request-Type': 'shared',
      },
    },
  });

  const response = await client.models.generateContent({
    model: 'gemini-2.5-flash',
    contents: 'How does AI work?',
  });

  console.log(response.text);

  // Example response:
  //  Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
  //  Here's a simplified overview:
  //  ...

  return response.text;
}

Java

Saiba como instalar ou atualizar o Java.

Para saber mais, consulte a documentação de referência do SDK.

Defina variáveis de ambiente para usar o SDK de IA generativa com a Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True


import com.google.genai.Client;
import com.google.genai.types.GenerateContentConfig;
import com.google.genai.types.GenerateContentResponse;
import com.google.genai.types.HttpOptions;
import java.util.Map;

public class ProvisionedThroughputWithTxt {

  public static void main(String[] args) {
    // TODO(developer): Replace these variables before running the sample.
    String modelId = "gemini-2.5-flash";
    generateContent(modelId);
  }

  // Generates content with Provisioned Throughput.
  public static String generateContent(String modelId) {
    // Client Initialization. Once created, it can be reused for multiple requests.
    try (Client client =
        Client.builder()
            .location("us-central1")
            .vertexAI(true)
            .httpOptions(
                HttpOptions.builder()
                    .apiVersion("v1")
                    .headers(
                        // Options:
                        // - "dedicated": Use Provisioned Throughput
                        // - "shared": Use pay-as-you-go
                        // https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
                        Map.of("X-Vertex-AI-LLM-Request-Type", "shared"))
                    .build())
            .build()) {

      GenerateContentResponse response =
          client.models.generateContent(
              modelId, "How does AI work?", GenerateContentConfig.builder().build());

      System.out.println(response.text());
      // Example response:
      // At its core, **AI (Artificial Intelligence) works by enabling machines to learn,
      // reason, and make decisions in ways that simulate human intelligence.** Instead of being
      // explicitly programmed for every single task...
      return response.text();
    }
  }
}

REST

Depois de configurar seu ambiente, use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao endpoint do modelo de editor.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Usar a capacidade de processamento provisionada com uma chave de API

Se você comprou a capacidade de processamento provisionada para um projeto, modelo do Google e região específicos e quer usá-la para enviar uma solicitação com uma chave de API, inclua o ID do projeto, o modelo, o local e a chave de API como parâmetros na solicitação.

Para informações sobre como criar uma Google Cloud chave de API vinculada a uma conta de serviço, consulte Receber uma Google Cloud chave de API. Para saber como enviar solicitações à API Gemini usando uma chave de API, consulte o guia de início rápido da API Gemini na plataforma de agentes do Gemini Enterprise.

Por exemplo, a amostra a seguir mostra como enviar uma solicitação com uma chave de API ao usar a Capacidade de processamento provisionada:

REST

Depois de configurar seu ambiente, use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao endpoint do modelo de editor.

curl \
-X POST \
-H "Content-Type: application/json" \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_ID:generateContent?key=YOUR_API_KEY" \
-d $'{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "Explain how AI works in a few words"
        }
      ]
    }
  ]
}'

Monitorar a capacidade de processamento provisionada

É possível monitorar o uso da capacidade de processamento provisionada usando um conjunto de métricas medidas no tipo de recurso aiplatform.googleapis.com/PublisherModel.

O monitoramento de tráfego da capacidade de processamento provisionada é um recurso do Acesso antecipado.

Dimensões

É possível filtrar as métricas usando as seguintes dimensões:

Dimensão Valores

type input
output

Dimensão	Valores
`type`	`input` `output`
`request_type`	`dedicated`: o tráfego é processado usando a capacidade de processamento provisionada. `spillover`: o tráfego é processado como cota de pagamento por uso depois que você excede a cota de Capacidade de processamento provisionada. A métrica `spillover` não é compatível com a capacidade de processamento provisionada para modelos do Gemini 2.0 se o armazenamento em cache explícito estiver ativado, porque esses modelos não oferecem suporte a esse recurso. Nesse caso, o tráfego aparece como `shared`. `shared`: se a Capacidade de processamento provisionada estiver ativa, o tráfego será processado como uma cota de pagamento por uso usando o cabeçalho HTTP compartilhado. Se a capacidade de processamento provisionada não estiver ativa, o tráfego será processado como pagamento por uso, por padrão.

request_type

dedicated: o tráfego é processado usando a capacidade de processamento provisionada.

spillover: o tráfego é processado como cota de pagamento por uso depois que você excede a cota de Capacidade de processamento provisionada. A métrica spillover não é compatível com a capacidade de processamento provisionada para modelos do Gemini 2.0 se o armazenamento em cache explícito estiver ativado, porque esses modelos não oferecem suporte a esse recurso. Nesse caso, o tráfego aparece como shared.

shared: se a Capacidade de processamento provisionada estiver ativa, o tráfego será processado como uma cota de pagamento por uso usando o cabeçalho HTTP compartilhado. Se a capacidade de processamento provisionada não estiver ativa, o tráfego será processado como pagamento por uso, por padrão.

Prefixo do caminho

O prefixo do caminho de uma métrica é aiplatform.googleapis.com/publisher/online_serving.

Por exemplo, o caminho completo da métrica /consumed_throughput é aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Métricas

As seguintes métricas do Cloud Monitoring estão disponíveis no recurso aiplatform.googleapis.com/PublisherModel para os modelos do Gemini. Use os tipos de solicitação dedicated para filtrar o uso da capacidade de processamento provisionada.

Métrica	Nome de exibição	Descrição
`/dedicated_gsu_limit`	Limite (GSU)	Limite dedicado em GSUs. Use essa métrica para entender sua cota máxima de capacidade de processamento provisionada em GSUs.
`/tokens`	Tokens	Distribuição da contagem de tokens de entrada e saída.
`/token_count`	Contagem de tokens	Contagem acumulada de tokens de entrada e saída.
`/consumed_token_throughput`	Capacidade de processamento de tokens	Uso da capacidade de processamento, que considera a taxa de burndown em tokens e incorpora a conciliação de cotas. Consulte Verificação da cota de capacidade de processamento provisionada. Use essa métrica para entender como sua cota de capacidade de processamento provisionada foi usada.
`/dedicated_token_limit`	Limite (tokens por segundo)	Limite dedicado em tokens por segundo. Use essa métrica para entender sua cota máxima de capacidade de processamento provisionada para modelos baseados em tokens.
`/characters`	Caracteres	Distribuição de contagem de caracteres de entrada e saída.
`/character_count`	Contagem de caracteres	Contagem de caracteres de entrada e saída acumulados.
`/consumed_throughput`	Capacidade de processamento de caracteres	Uso da capacidade de processamento, que considera a taxa de burndown em caracteres e incorpora a reconciliação de cota Verificação da cota de capacidade de processamento provisionada. Use essa métrica para entender como sua cota de capacidade de processamento provisionada foi usada. Para modelos baseados em tokens, essa métrica é equivalente à taxa de transferência consumida em tokens multiplicada por 4.
`/dedicated_character_limit`	Limite (caracteres por segundo)	Limite dedicado em caracteres por segundo. Use essa métrica para entender sua cota máxima de Capacidade de processamento provisionada para modelos baseados em caracteres.
`/model_invocation_count`	Contagem de invocações de modelo	Número de invocações de modelo (solicitações de previsão).
`/model_invocation_latencies`	Latências de invocação de modelo	Latências de invocação de modelo (latências de previsão).
`/first_token_latencies`	Latências do primeiro token	Duração da solicitação recebida até o primeiro token retornado.

Os modelos da Anthropic também têm um filtro para capacidade de processamento provisionada, mas apenas para tokens e token_count.

Painéis

Os painéis de monitoramento padrão para capacidade de processamento provisionada fornecem métricas que permitem entender melhor o uso e a utilização da capacidade de processamento provisionada. Para acessar os painéis, faça o seguinte:

No console do Google Cloud , acesse a página Capacidade de processamento provisionada.
Acessar a capacidade de processamento provisionada
Para conferir o uso da capacidade de processamento provisionada de cada modelo nos seus pedidos, selecione a guia Resumo de uso.

Na tabela Utilização da capacidade de processamento provisionada por modelo, é possível conferir o seguinte para o período selecionado:
- Número total de GSUs que você tinha.
- Pico de uso da capacidade de processamento em termos de GSUs.
- O uso médio da GSU.
- O número de vezes que você atingiu o limite de capacidade de processamento provisionada.
Selecione um modelo na tabela Utilização da capacidade de processamento provisionada por modelo para conferir mais métricas específicas do modelo selecionado.

Como interpretar painéis de monitoramento

A capacidade de processamento provisionada verifica a cota disponível em tempo real no nível de milissegundos para solicitações à medida que são feitas, mas compara esses dados com um período de aplicação de cota contínuo, com base no tempo do relógio interno da plataforma do agente. Essa comparação é independente do momento em que as solicitações são feitas. Os painéis de monitoramento informam as métricas de uso depois que a reconciliação de cota é realizada. No entanto, elas são agregadas para fornecer médias de períodos de alinhamento do painel com base no intervalo de tempo selecionado. A menor granularidade compatível com os painéis de monitoramento é no nível do minuto. Além disso, o horário dos painéis de monitoramento é diferente do horário da plataforma do agente.

Essas diferenças de horários podem resultar em discrepâncias entre os dados nos painéis de monitoramento e a performance em tempo real. Isso pode acontecer por um dos seguintes motivos:

A cota é aplicada em tempo real, mas os gráficos de monitoramento agregam dados em períodos de alinhamento do painel de 1 minuto ou mais, dependendo do período especificado nos painéis de monitoramento.
A plataforma do agente e os painéis de monitoramento são executados em diferentes relógios do sistema.
Em um período de um segundo, se um pico de tráfego exceder sua cota de capacidade de processamento provisionada com base na janela de aplicação, toda a solicitação será processada como tráfego excedente. No entanto, a utilização geral da capacidade de processamento provisionada pode parecer baixa quando os dados de monitoramento desse segundo são calculados na média dentro do período de alinhamento de um minuto, porque a utilização média em todo o período de alinhamento pode não exceder 100%. Se você notar um aumento no tráfego, isso confirma que sua cota de capacidade de processamento provisionada foi totalmente utilizada durante o período de aplicação da cota em que essas solicitações específicas foram feitas. Isso acontece independente da utilização média mostrada nos painéis de monitoramento.

Exemplo de possível discrepância nos dados de monitoramento

Este exemplo ilustra algumas das discrepâncias resultantes do desalinhamento de janelas. A Figura 1 representa o uso da capacidade de processamento em um período específico. Nesta figura:

As barras azuis representam o tráfego aceito como Capacidade de processamento provisionada.
A barra laranja representa o tráfego que ultrapassa o limite da GSU e é processado como transbordamento.

**Figura 1.** Uso da capacidade de processamento em períodos

Com base no uso da capacidade de processamento, a Figura 2 representa possíveis discrepâncias visuais devido ao desalinhamento de janelas. Nesta figura:

A linha azul representa o tráfego de capacidade de processamento provisionada.
A linha laranja representa o tráfego de transbordamento.

Possíveis discrepâncias nos dados de monitoramento — **Figura 2.** Possíveis discrepâncias visuais em painéis de monitoramento

Nesse caso, os dados de monitoramento podem mostrar o uso da Capacidade de processamento provisionada sem estouro em um período de agregação de monitoramento, enquanto observam simultaneamente o uso da Capacidade de processamento provisionada abaixo do limite da GSU, coincidindo com um estouro em outro período de agregação de monitoramento.

Resolver problemas em painéis de monitoramento

Para resolver problemas de transbordamento inesperado nos seus painéis ou erros 429, siga estas etapas:

Ampliar: defina o período do painel como 12 horas ou menos para fornecer o período de alinhamento mais granular de 1 minuto. Intervalos grandes suavizam picos que causam limitação e aumentam as médias do período de alinhamento.
Verifique o tráfego total: os painéis específicos do modelo mostram o tráfego dedicado e de transbordamento como duas linhas separadas, o que pode levar à conclusão incorreta de que a cota de capacidade de processamento provisionada não está sendo totalmente utilizada e está transbordando prematuramente. Se o tráfego exceder a cota disponível, toda a solicitação será processada como transbordamento. Para outra visualização útil, adicione uma consulta ao painel usando o Metrics Explorer e inclua a capacidade de processamento de tokens para o modelo e a região específicos. Não inclua outras agregações ou filtros para ver o tráfego total em todos os tipos (dedicado, transbordamento e compartilhado).

Monitorar modelos de Genmedia

O monitoramento da capacidade de processamento provisionada não está disponível nos modelos do Veo 3.

Alertas

Depois de ativar os alertas, defina os padrões para ajudar a gerenciar o uso do tráfego.

Ativar alertas

Para ativar os alertas no painel, faça o seguinte:

No console do Google Cloud , acesse a página Capacidade de processamento provisionada.
Acessar a capacidade de processamento provisionada
Para conferir o uso da capacidade de processamento provisionada de cada modelo nos seus pedidos, selecione a guia Resumo de uso.
Selecione Alertas recomendados. Os seguintes alertas vão aparecer:
- Provisioned Throughput Usage Reached Limit
- Provisioned Throughput Utilization Exceeded 80%
- Provisioned Throughput Utilization Exceeded 90%
Confira os alertas que ajudam você a gerenciar seu tráfego.

Ver mais detalhes do alerta

Para mais informações sobre os alertas, faça o seguinte:

Acesse a página Integrações.
Acessar "Integrações"
Digite vertex no campo Filtro e pressione Enter. A plataforma de agentes do Gemini Enterprise do Google aparece.
Para mais informações, clique em Ver detalhes. O painel Detalhes da plataforma de agentes do Google Gemini Enterprise é exibido.
Selecione a guia Alertas e escolha um modelo de política de alertas.

Capacidade de processamento provisionada Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Quando usar a capacidade de processamento provisionada

Como funciona a capacidade de processamento provisionada

Verificação da cota de capacidade de processamento provisionada

Janelas de aplicação da cota de capacidade de processamento provisionada

Como funciona a janela de aplicação de cotas

Controlar excedentes ou ignorar a capacidade de processamento provisionada

Comportamento padrão

Usar apenas a capacidade de processamento provisionada

Usar apenas o pagamento por uso

Exemplo

Python

Instalar

Go

Node.js

Instalar

Java

REST

Usar a capacidade de processamento provisionada com uma chave de API

REST

Monitorar a capacidade de processamento provisionada

Dimensões

Prefixo do caminho

Métricas

Painéis

Como interpretar painéis de monitoramento

Exemplo de possível discrepância nos dados de monitoramento

Resolver problemas em painéis de monitoramento

Monitorar modelos de Genmedia

Alertas

Ativar alertas

Ver mais detalhes do alerta

Capacidade de processamento provisionada