Utilizzare la velocità effettiva di cui è stato eseguito il provisioning

Questa pagina spiega come funziona il throughput di cui è stato eseguito il provisioning, come controllare i superamenti o bypassare il throughput di cui è stato eseguito il provisioning e come monitorare l'utilizzo.

Come funziona la velocità effettiva di cui è stato eseguito il provisioning

Questa sezione spiega come funziona il throughput di cui è stato eseguito il provisioning utilizzando il controllo delle quote durante il periodo di applicazione delle quote.

Controllo della quota di throughput riservato

La quota massima di velocità effettiva di cui è stato eseguito il provisioning è un multiplo del numero di unità della scala di AI generativa (GSU) acquistate e della velocità effettiva per GSU. Viene controllato ogni volta che fai una richiesta entro il periodo di applicazione della quota, ovvero la frequenza con cui viene applicata la quota massima di throughput di cui è stato eseguito il provisioning.

Al momento della ricezione di una richiesta, le dimensioni effettive della risposta sono sconosciute. Poiché diamo la priorità alla velocità di risposta per le applicazioni in tempo reale, il throughput di cui è stato eseguito il provisioning stima le dimensioni dei token di output. Se la stima iniziale supera la quota massima di Provisioned Throughput disponibile, la richiesta viene elaborata come pagamento a consumo. In caso contrario, viene elaborata come Provisioned Throughput. Ciò avviene confrontando la stima iniziale con la quota massima di throughput di cui è stato eseguito il provisioning.

Quando la risposta viene generata e le dimensioni effettive del token di output sono note, l'utilizzo e la quota effettivi vengono riconciliati aggiungendo la differenza tra la stima e l'utilizzo effettivo all'importo della quota di throughput di cui è stato eseguito il provisioning disponibile.

Finestre di applicazione delle quote di throughput riservato

Vertex AI applica una finestra dinamica durante l'applicazione della quota di throughput di cui è stato eseguito il provisioning per i modelli Gemini. Ciò garantisce una stabilità ottimale per il traffico soggetto a picchi. Anziché una finestra fissa, Vertex AI applica la quota su una finestra flessibile che si adatta automaticamente in base al tipo di modello e al numero di GSU di cui hai eseguito il provisioning. Di conseguenza, in alcuni casi potresti riscontrare temporaneamente un traffico prioritario che supera l'importo della quota al secondo. Tuttavia, non devi superare la quota durante la durata della finestra. Questi periodi si basano sull'ora dell'orologio interno di Vertex AI e sono indipendenti dal momento in cui vengono effettuate le richieste.

Come funziona la finestra di applicazione della quota

La finestra di applicazione determina di quanto puoi superare, o "burst", il limite al secondo prima che venga applicata la limitazione. Questa finestra viene applicata automaticamente. Tieni presente che questi periodi sono soggetti a modifiche per ottimizzare le prestazioni e l'affidabilità.

Allocazioni di piccole dimensioni di unità di servizio Google (3 unità di servizio Google o meno): la finestra può variare da 40 a 120 secondi per consentire l'elaborazione di richieste individuali più grandi senza interruzioni.

Ad esempio, se acquisti 1 GSU di gemini-2.5-flash, ottieni una media di 2690 token al secondo di throughput continuo. L'utilizzo totale in un periodo di 120 secondi non può superare i 322.800 token (2690 token al secondo * 120 secondi). Pertanto, se invii una richiesta che utilizza 70.000 token al secondo, ma l'utilizzo totale in 120 secondi rimane al di sotto di 322.800 token, il burst di 70.000 token al secondo viene comunque conteggiato come throughput di cui è stato eseguito il provisioning, poiché l'utilizzo medio non supera i 2690 token al secondo.
Allocazioni GSU standard (di medie dimensioni) (più di 3 GSU): per implementazioni GSU di medie dimensioni (ad esempio, meno di 50 GSU), la finestra può variare da 5 a 30 secondi. Le soglie e le finestre contestuali di GSU variano in base al modello.

Ad esempio, se acquisti 25 GSU di gemini-2.5-flash, ottieni una velocità effettiva continua media di 67.250 token al secondo (25 * 2690 token al secondo). L'utilizzo totale in un periodo di 30 secondi non può superare 2.017.500 token (67.250 token al secondo * 30 secondi). Pertanto, se invii una richiesta che utilizza 1.000.000 di token al secondo, ma l'utilizzo totale in 30 secondi rimane entro 2.017.500 token, il burst di 1.000.000 di token al secondo viene comunque conteggiato come throughput riservato, poiché l'utilizzo medio non supera 67.250 token al secondo.
Allocazioni GSU ad alta precisione (su larga scala): per deployment GSU su larga scala (ad esempio, 50 GSU o più), la finestra può variare da 1 a 5 secondi per garantire che le richieste ad alta frequenza vengano elaborate con la massima precisione nell'infrastruttura.

Ad esempio, se acquisti 250 GSU di gemini-2.5-flash, ottieni una media di 672.500 token al secondo (2690 token al secondo * 250) di throughput continuo. L'utilizzo totale in un periodo di 5 secondi non può superare 3.362.500 token (672.500 token al secondo * 5 secondi). Pertanto, se invii una richiesta che utilizza 5.000.000 di token al secondo, non verrà elaborata come throughput di cui è stato eseguito il provisioning, perché l'utilizzo totale di 5.000.000 di token supera il limite di 3.362.500 token in un intervallo di 5 secondi. D'altra parte, una richiesta che utilizza 1.000.000 di token al secondo può essere elaborata come throughput di cui è stato eseguito il provisioning, se l'utilizzo medio nella finestra di 5 secondi non supera i 672.500 token al secondo.

Controllare gli addebiti per superamento o ignorare il throughput sottoposto a provisioning

Utilizza l'API per controllare le eccedenze quando superi la velocità effettiva acquistata o per ignorare la velocità effettiva di provisioning in base alla singola richiesta.

Leggi attentamente ogni opzione per determinare cosa devi fare per soddisfare il tuo caso d'uso.

Comportamento predefinito

Se una richiesta supera la quota di throughput di cui è stato eseguito il provisioning rimanente, l'intera richiesta viene elaborata come richiesta on demand per impostazione predefinita e viene fatturata alla tariffa pay-as-you-go. Quando ciò si verifica, il traffico viene visualizzato come overflow nelle dashboard di monitoraggio. Per ulteriori informazioni sul monitoraggio dell'utilizzo del throughput riservato, vedi Monitorare il throughput riservato.

Una volta attivo l'ordine di Provisioned Throughput, il comportamento predefinito si verifica automaticamente. Non devi modificare il codice per iniziare a utilizzare l'ordine, a condizione che lo utilizzi nella regione di provisioning.

Utilizza solo il throughput riservato

Se gestisci i costi evitando gli addebiti on demand, utilizza solo la velocità effettiva di cui è stato eseguito il provisioning. Le richieste che superano l'importo dell'ordine di throughput di provisioning restituiscono un errore 429.

Quando invii richieste all'API, imposta l'intestazione HTTP X-Vertex-AI-LLM-Request-Type su dedicated.

Utilizzare solo il pagamento a consumo

Questa operazione è detta anche utilizzo on demand. Le richieste ignorano l'ordine di throughput di cui è stato eseguito il provisioning e vengono inviate direttamente al pagamento a consumo. Questa opzione potrebbe essere utile per esperimenti o applicazioni in fase di sviluppo.

Quando invii richieste all'API, imposta l'intestazione HTTP X-Vertex-AI-LLM-Request-Type su shared.

Esempio

Python

Installa

pip install --upgrade google-genai

Per saperne di più, consulta la documentazione di riferimento dell'SDK.

Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(
    http_options=HttpOptions(
        api_version="v1",
        headers={
            # Options:
            # - "dedicated": Use Provisioned Throughput
            # - "shared": Use pay-as-you-go
            # https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
            "X-Vertex-AI-LLM-Request-Type": "shared"
        },
    )
)
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

Go

Scopri come installare o aggiornare Go.

Per saperne di più, consulta la documentazione di riferimento dell'SDK.

Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

import (
	"context"
	"fmt"
	"io"
	"net/http"

	"google.golang.org/genai"
)

// generateText shows how to generate text Provisioned Throughput.
func generateText(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{
			APIVersion: "v1",
			Headers: http.Header{
				// Options:
				// - "dedicated": Use Provisioned Throughput
				// - "shared": Use pay-as-you-go
				// https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
				"X-Vertex-AI-LLM-Request-Type": []string{"shared"},
			},
		},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	modelName := "gemini-2.5-flash"
	contents := genai.Text("How does AI work?")

	resp, err := client.Models.GenerateContent(ctx, modelName, contents, nil)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// Artificial Intelligence (AI) isn't magic, nor is it a single "thing." Instead, it's a broad field of computer science focused on creating machines that can perform tasks that typically require human intelligence.
	// .....
	// In Summary:
	// ...

	return nil
}

Node.js

Installa

npm install @google/genai

Per saperne di più, consulta la documentazione di riferimento dell'SDK.

Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

const {GoogleGenAI} = require('@google/genai');

const GOOGLE_CLOUD_PROJECT = process.env.GOOGLE_CLOUD_PROJECT;
const GOOGLE_CLOUD_LOCATION = process.env.GOOGLE_CLOUD_LOCATION || 'global';

async function generateWithProvisionedThroughput(
  projectId = GOOGLE_CLOUD_PROJECT,
  location = GOOGLE_CLOUD_LOCATION
) {
  const client = new GoogleGenAI({
    vertexai: true,
    project: projectId,
    location: location,
    httpOptions: {
      apiVersion: 'v1',
      headers: {
        // Options:
        // - "dedicated": Use Provisioned Throughput
        // - "shared": Use pay-as-you-go
        // https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
        'X-Vertex-AI-LLM-Request-Type': 'shared',
      },
    },
  });

  const response = await client.models.generateContent({
    model: 'gemini-2.5-flash',
    contents: 'How does AI work?',
  });

  console.log(response.text);

  // Example response:
  //  Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
  //  Here's a simplified overview:
  //  ...

  return response.text;
}

Java

Scopri come installare o aggiornare Java.

Per saperne di più, consulta la documentazione di riferimento dell'SDK.

Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True


import com.google.genai.Client;
import com.google.genai.types.GenerateContentConfig;
import com.google.genai.types.GenerateContentResponse;
import com.google.genai.types.HttpOptions;
import java.util.Map;

public class ProvisionedThroughputWithTxt {

  public static void main(String[] args) {
    // TODO(developer): Replace these variables before running the sample.
    String modelId = "gemini-2.5-flash";
    generateContent(modelId);
  }

  // Generates content with Provisioned Throughput.
  public static String generateContent(String modelId) {
    // Client Initialization. Once created, it can be reused for multiple requests.
    try (Client client =
        Client.builder()
            .location("us-central1")
            .vertexAI(true)
            .httpOptions(
                HttpOptions.builder()
                    .apiVersion("v1")
                    .headers(
                        // Options:
                        // - "dedicated": Use Provisioned Throughput
                        // - "shared": Use pay-as-you-go
                        // https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
                        Map.of("X-Vertex-AI-LLM-Request-Type", "shared"))
                    .build())
            .build()) {

      GenerateContentResponse response =
          client.models.generateContent(
              modelId, "How does AI work?", GenerateContentConfig.builder().build());

      System.out.println(response.text());
      // Example response:
      // At its core, **AI (Artificial Intelligence) works by enabling machines to learn,
      // reason, and make decisions in ways that simulate human intelligence.** Instead of being
      // explicitly programmed for every single task...
      return response.text();
    }
  }
}

REST

Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. L'esempio seguente invia una richiesta all'endpoint del modello del publisher.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Utilizzare il throughput riservato con una chiave API

Se hai acquistato il throughput riservato per un progetto, un modello Google e una regione specifici e vuoi utilizzarlo per inviare una richiesta con una chiave API, devi includere l'ID progetto, il modello, la località e la chiave API come parametri nella richiesta.

Per informazioni su come creare una Google Cloud chiave API associata a un account di servizio, consulta Ottieni una Google Cloud chiave API. Per scoprire come inviare richieste all'API Gemini utilizzando una chiave API, consulta la guida rapida all'API Gemini in Vertex AI.

Ad esempio, il seguente campione mostra come inviare una richiesta con una chiave API durante l'utilizzo del throughput di cui è stato eseguito il provisioning:

REST

Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. L'esempio seguente invia una richiesta all'endpoint del modello del publisher.

curl \
-X POST \
-H "Content-Type: application/json" \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_ID:generateContent?key=YOUR_API_KEY" \
-d $'{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "Explain how AI works in a few words"
        }
      ]
    }
  ]
}'

Monitorare il throughput riservato

Puoi monitorare autonomamente l'utilizzo del throughput di cui è stato eseguito il provisioning utilizzando un insieme di metriche misurate sul tipo di risorsa aiplatform.googleapis.com/PublisherModel.

Il monitoraggio del traffico del throughput riservato è una funzionalità in anteprima pubblica.

Dimensioni

Puoi filtrare in base alle metriche utilizzando le seguenti dimensioni:

Dimensione Valori

type input
output

Dimensione	Valori
`type`	`input` `output`
`request_type`	`dedicated`: il traffico viene elaborato utilizzando il throughput riservato. `spillover`: il traffico viene elaborato come quota pay-as-you-go dopo aver superato la quota di throughput di cui è stato eseguito il provisioning. Tieni presente che la metrica `spillover` non è supportata per Provisioned Throughput per i modelli Gemini 2.0 se è attivata la memorizzazione nella cache esplicita, perché questi modelli non la supportano. In questo caso, il traffico viene visualizzato come `shared`. `shared`: se il throughput di cui è stato eseguito il provisioning è attivo, il traffico viene elaborato come quota pay-as-you-go utilizzando l'intestazione HTTP condivisa. Se il throughput di cui è stato eseguito il provisioning non è attivo, il traffico viene elaborato in modalità pay-as-you-go per impostazione predefinita.

request_type

dedicated: il traffico viene elaborato utilizzando il throughput riservato.

spillover: il traffico viene elaborato come quota pay-as-you-go dopo aver superato la quota di throughput di cui è stato eseguito il provisioning. Tieni presente che la metrica spillover non è supportata per Provisioned Throughput per i modelli Gemini 2.0 se è attivata la memorizzazione nella cache esplicita, perché questi modelli non la supportano. In questo caso, il traffico viene visualizzato come shared.

shared: se il throughput di cui è stato eseguito il provisioning è attivo, il traffico viene elaborato come quota pay-as-you-go utilizzando l'intestazione HTTP condivisa. Se il throughput di cui è stato eseguito il provisioning non è attivo, il traffico viene elaborato in modalità pay-as-you-go per impostazione predefinita.

Prefisso percorso

Il prefisso del percorso per una metrica è aiplatform.googleapis.com/publisher/online_serving.

Ad esempio, il percorso completo della metrica /consumed_throughput è aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Metriche

Le seguenti metriche di Cloud Monitoring sono disponibili per la risorsa aiplatform.googleapis.com/PublisherModel per i modelli Gemini. Utilizza i tipi di richiesta dedicated per filtrare l'utilizzo del throughput di cui è stato eseguito il provisioning.

Metrica	Nome visualizzato	Descrizione
`/dedicated_gsu_limit`	Limite (GSU)	Limite dedicato nelle GSU. Utilizza questa metrica per comprendere la quota massima di velocità effettiva di cui è stato eseguito il provisioning in GSU.
`/tokens`	Token	Distribuzione del conteggio dei token di input e output.
`/token_count`	Conteggio token	Conteggio dei token di input e output accumulati.
`/consumed_token_throughput`	Throughput dei token	Utilizzo della velocità effettiva, che tiene conto del tasso di esaurimento dei token e incorpora la riconciliazione delle quote. Consulta Controllo della quota di velocità effettiva sottoposta a provisioning. Utilizza questa metrica per capire come è stata utilizzata la quota di velocità effettiva sottoposta a provisioning.
`/dedicated_token_limit`	Limite (token al secondo)	Limite dedicato in token al secondo. Utilizza questa metrica per comprendere la quota massima di throughput di cui è stato eseguito il provisioning per i modelli basati su token.
`/characters`	Caratteri	Distribuzione del conteggio dei caratteri di input e output.
`/character_count`	Conteggio dei caratteri	Conteggio dei caratteri di input e output accumulati.
`/consumed_throughput`	Velocità effettiva dei caratteri	Utilizzo della velocità effettiva, che tiene conto del tasso di esaurimento in caratteri e incorpora la riconciliazione delle quote Controllo della quota di velocità effettiva di cui è stato eseguito il provisioning. Utilizza questa metrica per capire come è stata utilizzata la quota di velocità effettiva di cui è stato eseguito il provisioning. Per i modelli basati su token, questa metrica equivale al throughput consumato in token moltiplicato per 4.
`/dedicated_character_limit`	Limite (caratteri al secondo)	Limite dedicato in caratteri al secondo. Utilizza questa metrica per comprendere la quota massima di throughput di cui è stato eseguito il provisioning per i modelli basati su caratteri.
`/model_invocation_count`	Conteggio chiamate del modello	Numero di chiamate del modello (richieste di previsione).
`/model_invocation_latencies`	Latenze di chiamata del modello	Latenze di chiamata del modello (latenze di previsione).
`/first_token_latencies`	Latenze del primo token	Durata dal momento in cui la richiesta viene ricevuta al momento in cui viene restituito il primo token.

I modelli Anthropic hanno anche un filtro per il throughput riservato, ma solo per tokens e token_count.

Dashboard

Le dashboard di monitoraggio predefinite per il throughput di cui è stato eseguito il provisioning forniscono metriche che ti consentono di comprendere meglio l'utilizzo e l'utilizzo del throughput di cui è stato eseguito il provisioning. Per accedere alle dashboard:

Nella console Google Cloud , vai alla pagina Throughput di cui è stato eseguito il provisioning.
Vai a Throughput riservato
Per visualizzare l'utilizzo del throughput riservato di ciascun modello negli ordini, seleziona la scheda Riepilogo utilizzo.

Nella tabella Utilizzo del throughput riservato per modello puoi visualizzare quanto segue per l'intervallo di tempo selezionato:
- Numero totale di GSU che avevi.
- Utilizzo del throughput di picco in termini di GSU.
- L'utilizzo medio di GSU.
- Il numero di volte in cui hai raggiunto il limite di throughput di provisioning.
Seleziona un modello dalla tabella Utilizzo della velocità effettiva di cui è stato eseguito il provisioning per modello per visualizzare altre metriche specifiche per il modello selezionato.

Come interpretare le dashboard di monitoraggio

Throughput di cui è stato eseguito il provisioning controlla la quota disponibile in tempo reale a livello di millisecondo per le richieste man mano che vengono effettuate, ma confronta questi dati con un periodo di applicazione della quota continuo, in base all'ora dell'orologio interno di Vertex AI. Questo confronto è indipendente dal momento in cui vengono effettuate le richieste. Le dashboard di monitoraggio riportano le metriche di utilizzo dopo la riconciliazione delle quote. Tuttavia, queste metriche vengono aggregate per fornire medie per i periodi di allineamento della dashboard, in base all'intervallo di tempo selezionato. La granularità più bassa possibile supportata dalle dashboard di monitoraggio è a livello di minuti. Inoltre, l'ora dell'orologio per i dashboard di monitoraggio è diversa da quella di Vertex AI.

Queste differenze di tempistica potrebbero occasionalmente comportare discrepanze tra i dati nei dashboard di monitoraggio e il rendimento in tempo reale. Questi possono derivare da uno dei seguenti motivi:

La quota viene applicata in tempo reale, ma i grafici di monitoraggio aggregano i dati in periodi di allineamento della dashboard medi di 1 minuto o superiori, a seconda dell'intervallo di tempo specificato nelle dashboard di monitoraggio.
Vertex AI e i dashboard di monitoraggio vengono eseguiti su orologi di sistema diversi.
Se un picco di traffico in un periodo di 1 secondo supera la quota di throughput di cui è stato eseguito il provisioning, l'intera richiesta viene elaborata come traffico di overflow. Tuttavia, l'utilizzo complessivo del throughput di provisioning potrebbe sembrare basso quando i dati di monitoraggio per quel secondo vengono calcolati in media nel periodo di allineamento di 1 minuto, perché l'utilizzo medio nell'intero periodo di allineamento potrebbe non superare il 100%. Se visualizzi traffico di overflow, significa che la quota di throughput di cui è stato eseguito il provisioning è stata utilizzata completamente durante il periodo di applicazione della quota in cui sono state effettuate le richieste specifiche. Indipendentemente dall'utilizzo medio mostrato nelle dashboard di monitoraggio.

Esempio di potenziale discrepanza nei dati di monitoraggio

Questo esempio illustra alcune delle discrepanze derivanti dal disallineamento della finestra. La Figura 1 mostra l'utilizzo del throughput in un periodo di tempo specifico. In questa figura:

Le barre blu rappresentano il traffico ammesso come throughput di provisioning.
La barra arancione rappresenta il traffico che spinge l'utilizzo oltre il limite di GSU e viene elaborato come spillover.

**Figura 1.** Utilizzo del throughput nei periodi di tempo

In base all'utilizzo del throughput, la figura 2 mostra possibili discrepanze visive dovute al disallineamento delle finestre. In questa figura:

La linea blu rappresenta il traffico di Provisioned Throughput.
La linea arancione rappresenta il traffico di overflow.

Possibili discrepanze nei dati di monitoraggio — **Figura 2.** Possibili discrepanze visive nelle dashboard di monitoraggio

In questo caso, i dati di monitoraggio potrebbero mostrare l'utilizzo del throughput di cui è stato eseguito il provisioning senza spillover per un periodo di aggregazione del monitoraggio, mentre contemporaneamente si osserva l'utilizzo del throughput di cui è stato eseguito il provisioning al di sotto del limite GSU in concomitanza con uno spillover in un altro periodo di aggregazione del monitoraggio.

Risolvere i problemi relativi alle dashboard di monitoraggio

Per risolvere i problemi relativi a overflow imprevisti nei dashboard o agli errori 429, segui questi passaggi:

Aumento dello zoom: imposta l'intervallo di tempo della dashboard su 12 ore o meno per fornire il periodo di allineamento più granulare di 1 minuto. Intervalli di tempo ampi attenuano i picchi che causano la limitazione e aumentano le medie del periodo di allineamento.
Controlla il traffico totale: i dashboard specifici per il modello mostrano il traffico dedicato e quello di overflow come due linee separate, il che potrebbe portare alla conclusione errata che la quota di throughput di cui è stato eseguito il provisioning non viene utilizzata completamente e si verifica un overflow prematuro. Se il tuo traffico supera la quota disponibile, l'intera richiesta viene elaborata come spillover. Per un'altra visualizzazione utile, aggiungi una query alla dashboard utilizzando Metrics Explorer e includi il throughput dei token per il modello e la regione specifici. Non includere ulteriori aggregazioni o filtri per visualizzare il traffico totale in tutti i tipi di traffico (dedicato, spillover e condiviso).

Monitorare i modelli Genmedia

Il monitoraggio del throughput riservato non è disponibile per i modelli Veo 3 e Imagen.

Avvisi

Dopo aver attivato gli avvisi, imposta quelli predefiniti per gestire l'utilizzo del traffico.

Attiva avvisi

Per attivare gli avvisi nella dashboard:

Nella console Google Cloud , vai alla pagina Throughput di cui è stato eseguito il provisioning.
Vai a Throughput riservato
Per visualizzare l'utilizzo del throughput riservato di ciascun modello negli ordini, seleziona la scheda Riepilogo utilizzo.
Seleziona Avvisi consigliati e verranno visualizzati i seguenti avvisi:
- Provisioned Throughput Usage Reached Limit
- Provisioned Throughput Utilization Exceeded 80%
- Provisioned Throughput Utilization Exceeded 90%
Controlla gli avvisi che ti aiutano a gestire il traffico.

Visualizzare ulteriori dettagli dell'avviso

Per visualizzare ulteriori informazioni sugli avvisi:

Vai alla pagina Integrazioni.
Vai a Integrazioni
Inserisci vertex nel campo Filtro e premi Invio. Viene visualizzata la pagina Google Vertex AI.
Per visualizzare ulteriori informazioni, fai clic su Visualizza dettagli. Viene visualizzato il riquadro Google Vertex AI details.
Seleziona la scheda Avvisi e scegli un modello di policy di avviso.

Passaggi successivi

Risolvi i problemi relativi al codice di errore 429.

Utilizzare la velocità effettiva di cui è stato eseguito il provisioning Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Come funziona la velocità effettiva di cui è stato eseguito il provisioning

Controllo della quota di throughput riservato

Finestre di applicazione delle quote di throughput riservato

Come funziona la finestra di applicazione della quota

Controllare gli addebiti per superamento o ignorare il throughput sottoposto a provisioning

Comportamento predefinito

Utilizza solo il throughput riservato

Utilizzare solo il pagamento a consumo

Esempio

Python

Installa

Go

Node.js

Installa

Java

REST

Utilizzare il throughput riservato con una chiave API

REST

Monitorare il throughput riservato

Dimensioni

Prefisso percorso

Metriche

Dashboard

Come interpretare le dashboard di monitoraggio

Esempio di potenziale discrepanza nei dati di monitoraggio

Risolvere i problemi relativi alle dashboard di monitoraggio

Monitorare i modelli Genmedia

Avvisi

Attiva avvisi

Visualizzare ulteriori dettagli dell'avviso

Passaggi successivi

Utilizzare la velocità effettiva di cui è stato eseguito il provisioning