Throughput riservato

Il Throughput riservato (PT) è un abbonamento a costo fisso e durata fissa disponibile in diverse durate che riserva il throughput sulla piattaforma Gemini Enterprise Agent. Per riservare la velocità effettiva, devi specificare il modello e le posizioni disponibili in cui viene eseguito il modello.

Questa pagina spiega come funziona il Throughput riservato, come controllare gli addebiti in eccesso o bypassare il Throughput riservato e come monitorare l'utilizzo.

Quando utilizzare il throughput riservato

Se una delle seguenti considerazioni si applica al tuo caso d'uso, valuta la possibilità di utilizzare il Throughput riservato:

  • I tuoi workload critici richiedono costantemente un throughput elevato. La misurazione del throughput dipende dal modello.
  • Vuoi offrire un'esperienza coerente e prevedibile agli utenti delle tue applicazioni.
  • Vuoi costi dell'AI generativa deterministici pagando un prezzo mensile o settimanale fisso con controllo dei costi aggiuntivi.

Il Throughput riservato è una delle diverse opzioni di consumo per Gemini Enterprise Agent Platform. Per scoprire tutte le opzioni di consumo, consulta Opzioni di consumo.

Come funziona il Throughput riservato

Questa sezione spiega come funziona il Throughput riservato utilizzando il controllo delle quote durante il periodo di applicazione delle quote.

Controllo della quota di throughput riservato

La quota massima di Throughput riservato è un multiplo del numero di unità della scala di AI generativa (GSU) acquistate e del throughput per GSU. Viene controllato ogni volta che fai una richiesta nel periodo di applicazione della quota, ovvero la frequenza con cui viene applicata la quota di Throughput riservato massimo.

Al momento della ricezione di una richiesta, le dimensioni effettive della risposta sono sconosciute. Poiché diamo la priorità alla velocità di risposta per le applicazioni in tempo reale, il Throughput riservato stima le dimensioni dei token di output. Se la stima iniziale supera la quota massima di Throughput riservato disponibile, la richiesta viene elaborata come pagamento a consumo. In caso contrario, viene elaborata come Throughput riservato. A questo scopo, viene confrontata la stima iniziale con la quota massima di Throughput riservato.

Quando viene generata la risposta e si conosce la dimensione effettiva del token di output, l'utilizzo e la quota effettivi vengono riconciliati aggiungendo la differenza tra la stima e l'utilizzo effettivo all'importo della quota di Throughput riservato disponibile.

Finestre di applicazione delle quote di throughput riservato

La piattaforma agentica Gemini Enterprise applica una finestra dinamica e impone la quota di Throughput riservato per i modelli Gemini. Ciò garantisce una stabilità ottimale per il traffico soggetto a picchi. Anziché una finestra fissa, Agent Platform applica la quota su una finestra flessibile che si regola automaticamente, a seconda del tipo di modello e del numero di GSU che hai eseguito il provisioning. Di conseguenza, in alcuni casi potresti riscontrare temporaneamente un traffico prioritario che supera la quota al secondo. Tuttavia, non devi superare la quota durante il periodo di tempo. Questi periodi si basano sull'ora dell'orologio interno di Agent Platform e sono indipendenti dal momento in cui vengono effettuate le richieste.

Come funziona la finestra di applicazione della quota

La finestra di applicazione determina di quanto puoi superare, o "burst", il limite al secondo prima che venga applicata la limitazione. Questa finestra viene applicata automaticamente. Tieni presente che questi periodi sono soggetti a modifiche per ottimizzare le prestazioni e l'affidabilità.

  • Allocazioni ridotte di GSU (3 GSU o meno): la finestra può variare da 40 a 120 secondi per consentire l'elaborazione di richieste individuali più grandi senza interruzioni.

    Ad esempio, se acquisti 1 GSU di gemini-2.5-flash, ottieni una media di 2690 token al secondo di throughput continuo. L'utilizzo totale in un periodo di 120 secondi non può superare i 322.800 token (2690 token al secondo * 120 secondi). Pertanto, se invii una richiesta che utilizza 70.000 token al secondo, ma l'utilizzo totale in 120 secondi rimane inferiore a 322.800 token, il burst di 70.000 token al secondo viene comunque conteggiato come Throughput riservato, poiché l'utilizzo medio non supera i 2690 token al secondo.

  • Allocazioni GSU standard (di medie dimensioni) (più di 3 GSU): per implementazioni GSU di medie dimensioni (ad esempio, meno di 50 GSU), la finestra può variare da 5 a 30 secondi. Le soglie e le finestre contestuali di GSU variano in base al modello.

    Ad esempio, se acquisti 25 GSU di gemini-2.5-flash, ottieni una media di 67.250 token al secondo (2690 token al secondo * 25) di throughput continuo. L'utilizzo totale in un periodo di 30 secondi non può superare 2.017.500 token (67.250 token al secondo * 30 secondi). Pertanto, se invii una richiesta che utilizza 1.000.000 di token al secondo, ma l'utilizzo totale in 30 secondi rimane entro 2.017.500 token, il burst di 1.000.000 di token al secondo viene comunque conteggiato come Throughput riservato, poiché l'utilizzo medio non supera 67.250 token al secondo.

  • Allocazioni di GSU ad alta precisione (su larga scala): per deployment di GSU su larga scala (ad esempio 50 GSU o più), la finestra può variare da 1 a 5 secondi per garantire che le richieste ad alta frequenza vengano elaborate con la massima accuratezza nell'infrastruttura.

    Ad esempio, se acquisti 250 GSU di gemini-2.5-flash, ottieni una media di 672.500 token al secondo (2690 token al secondo * 250) di throughput continuo. L'utilizzo totale in un periodo di 5 secondi non può superare 3.362.500 token (672.500 token al secondo * 5 secondi). Pertanto, se invii una richiesta che utilizza 5.000.000 di token al secondo, non verrà elaborata come Throughput riservato, perché l'utilizzo totale di 5.000.000 di token supera il limite di 3.362.500 token in un intervallo di 5 secondi. D'altra parte, una richiesta che utilizza 1.000.000 di token al secondo può essere elaborata come Throughput riservato se l'utilizzo medio nella finestra di 5 secondi non supera i 672.500 token al secondo.

Controllare gli addebiti per superamento o ignorare il throughput riservato

Utilizza l'API per controllare le eccedenze quando superi la velocità effettiva acquistata o per ignorare il Throughput riservato in base alla richiesta.

Leggi ogni opzione per determinare cosa devi fare per soddisfare il tuo caso d'uso.

Comportamento predefinito

Se una richiesta supera la quota di Throughput riservato rimanente, l'intera richiesta viene elaborata come richiesta on demand per impostazione predefinita e viene addebitata in base alla tariffa pagamento a consumo. Quando ciò si verifica, il traffico viene visualizzato come overflow nelle dashboard di monitoraggio. Per maggiori informazioni sul monitoraggio dell'utilizzo del throughput riservato, consulta Monitorare il throughput riservato.

Una volta attivato l'ordine di Throughput riservato, il comportamento predefinito viene eseguito automaticamente. Non devi modificare il codice per iniziare a utilizzare l'ordine purché lo utilizzi nella regione di provisioning.

Utilizza solo il throughput riservato

Se gestisci i costi evitando gli addebiti on demand, utilizza solo il Throughput riservato. Le richieste che superano l'importo dell'ordine di Throughput riservato restituiscono un errore 429.

Quando invii richieste all'API, imposta l'intestazione HTTP X-Vertex-AI-LLM-Request-Type su dedicated.

Utilizzare solo il pagamento a consumo

Questa operazione è nota anche come utilizzo on demand. Le richieste ignorano l'ordine di Throughput riservato e vengono inviate direttamente al pagamento a consumo. Questo potrebbe essere utile per esperimenti o applicazioni in fase di sviluppo.

Quando invii richieste all'API, imposta l'intestazione HTTP X-Vertex-AI-LLM-Request-Type su shared.

Esempio

Python

Installa

pip install --upgrade google-genai

Per saperne di più, consulta la documentazione di riferimento dell'SDK.

Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(
    http_options=HttpOptions(
        api_version="v1",
        headers={
            # Options:
            # - "dedicated": Use Provisioned Throughput
            # - "shared": Use pay-as-you-go
            # https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
            "X-Vertex-AI-LLM-Request-Type": "shared"
        },
    )
)
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

Go

Scopri come installare o aggiornare Go.

Per saperne di più, consulta la documentazione di riferimento dell'SDK.

Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

import (
	"context"
	"fmt"
	"io"
	"net/http"

	"google.golang.org/genai"
)

// generateText shows how to generate text Provisioned Throughput.
func generateText(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{
			APIVersion: "v1",
			Headers: http.Header{
				// Options:
				// - "dedicated": Use Provisioned Throughput
				// - "shared": Use pay-as-you-go
				// https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
				"X-Vertex-AI-LLM-Request-Type": []string{"shared"},
			},
		},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	modelName := "gemini-2.5-flash"
	contents := genai.Text("How does AI work?")

	resp, err := client.Models.GenerateContent(ctx, modelName, contents, nil)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// Artificial Intelligence (AI) isn't magic, nor is it a single "thing." Instead, it's a broad field of computer science focused on creating machines that can perform tasks that typically require human intelligence.
	// .....
	// In Summary:
	// ...

	return nil
}

Node.js

Installa

npm install @google/genai

Per saperne di più, consulta la documentazione di riferimento dell'SDK.

Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

const {GoogleGenAI} = require('@google/genai');

const GOOGLE_CLOUD_PROJECT = process.env.GOOGLE_CLOUD_PROJECT;
const GOOGLE_CLOUD_LOCATION = process.env.GOOGLE_CLOUD_LOCATION || 'global';

async function generateWithProvisionedThroughput(
  projectId = GOOGLE_CLOUD_PROJECT,
  location = GOOGLE_CLOUD_LOCATION
) {
  const client = new GoogleGenAI({
    vertexai: true,
    project: projectId,
    location: location,
    httpOptions: {
      apiVersion: 'v1',
      headers: {
        // Options:
        // - "dedicated": Use Provisioned Throughput
        // - "shared": Use pay-as-you-go
        // https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
        'X-Vertex-AI-LLM-Request-Type': 'shared',
      },
    },
  });

  const response = await client.models.generateContent({
    model: 'gemini-2.5-flash',
    contents: 'How does AI work?',
  });

  console.log(response.text);

  // Example response:
  //  Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
  //  Here's a simplified overview:
  //  ...

  return response.text;
}

Java

Scopri come installare o aggiornare Java.

Per saperne di più, consulta la documentazione di riferimento dell'SDK.

Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True


import com.google.genai.Client;
import com.google.genai.types.GenerateContentConfig;
import com.google.genai.types.GenerateContentResponse;
import com.google.genai.types.HttpOptions;
import java.util.Map;

public class ProvisionedThroughputWithTxt {

  public static void main(String[] args) {
    // TODO(developer): Replace these variables before running the sample.
    String modelId = "gemini-2.5-flash";
    generateContent(modelId);
  }

  // Generates content with Provisioned Throughput.
  public static String generateContent(String modelId) {
    // Client Initialization. Once created, it can be reused for multiple requests.
    try (Client client =
        Client.builder()
            .location("us-central1")
            .vertexAI(true)
            .httpOptions(
                HttpOptions.builder()
                    .apiVersion("v1")
                    .headers(
                        // Options:
                        // - "dedicated": Use Provisioned Throughput
                        // - "shared": Use pay-as-you-go
                        // https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
                        Map.of("X-Vertex-AI-LLM-Request-Type", "shared"))
                    .build())
            .build()) {

      GenerateContentResponse response =
          client.models.generateContent(
              modelId, "How does AI work?", GenerateContentConfig.builder().build());

      System.out.println(response.text());
      // Example response:
      // At its core, **AI (Artificial Intelligence) works by enabling machines to learn,
      // reason, and make decisions in ways that simulate human intelligence.** Instead of being
      // explicitly programmed for every single task...
      return response.text();
    }
  }
}

REST

Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. L'esempio seguente invia una richiesta all'endpoint del modello del publisher.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Utilizzare il Throughput riservato con una chiave API

Se hai acquistato il Throughput riservato per un progetto, un modello Google e una regione specifici e vuoi utilizzarlo per inviare una richiesta con una chiave API, devi includere l'ID progetto, il modello, la località e la chiave API come parametri nella richiesta.

Per informazioni su come creare una chiave API Google Cloud associata a un service account, consulta Ottieni una chiave API Google Cloud . Per scoprire come inviare richieste all'API Gemini utilizzando una chiave API, consulta la guida rapida all'API Gemini in Gemini Enterprise Agent Platform.

Ad esempio, il seguente campione mostra come inviare una richiesta con una chiave API durante l'utilizzo del Throughput riservato:

REST

Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. L'esempio seguente invia una richiesta all'endpoint del modello del publisher.

curl \
-X POST \
-H "Content-Type: application/json" \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_ID:generateContent?key=YOUR_API_KEY" \
-d $'{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "Explain how AI works in a few words"
        }
      ]
    }
  ]
}'

Monitorare il throughput riservato

Puoi monitorare autonomamente l'utilizzo del Throughput riservato utilizzando un insieme di metriche misurate sul tipo di risorsa aiplatform.googleapis.com/PublisherModel.

Il monitoraggio del traffico di Throughput riservato è una funzionalità in anteprima pubblica.

Dimensioni

Puoi filtrare in base alle metriche utilizzando le seguenti dimensioni:

Dimensione Valori
type input
output
request_type

dedicated: il traffico viene elaborato utilizzando il throughput riservato.

spillover: il traffico viene elaborato come quota pagamento a consumo dopo aver superato la quota di Throughput riservato. Tieni presente che la metrica spillover non è supportata per Throughput riservato per i modelli Gemini 2.0 se la memorizzazione nella cache esplicita è abilitata, perché questi modelli non la supportano. In questo caso, il traffico viene visualizzato come shared.

shared: se il Throughput riservato è attivo, il traffico viene elaborato come quota a pagamento a consumo utilizzando l'intestazione HTTP condivisa. Se il Throughput riservato non è attivo, il traffico viene elaborato come pagamento a consumo per impostazione predefinita.

Prefisso percorso

Il prefisso del percorso per una metrica è aiplatform.googleapis.com/publisher/online_serving.

Ad esempio, il percorso completo della metrica /consumed_throughput è aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Metriche

Le seguenti metriche di Cloud Monitoring sono disponibili per la risorsa aiplatform.googleapis.com/PublisherModel per i modelli Gemini. Utilizza i tipi di richiesta dedicated per filtrare l'utilizzo del throughput riservato.

Metrica Nome visualizzato Descrizione
/dedicated_gsu_limit Limite (GSU) Limite dedicato nelle GSU. Utilizza questa metrica per comprendere la quota massima di Throughput riservato in GSU.
/tokens Token Distribuzione del conteggio dei token di input e output.
/token_count Conteggio token Conteggio dei token di input e output accumulati.
/consumed_token_throughput Throughput dei token Utilizzo della velocità effettiva, che tiene conto del tasso di esaurimento dei token e incorpora la riconciliazione delle quote. Consulta Controllo della quota di Throughput riservato.

Utilizza questa metrica per capire come è stata utilizzata la quota di Throughput riservato.
/dedicated_token_limit Limite (token al secondo) Limite dedicato in token al secondo. Utilizza questa metrica per comprendere la quota massima di Throughput riservato per i modelli basati su token.
/characters Caratteri Distribuzione del conteggio dei caratteri di input e output.
/character_count Conteggio dei caratteri Conteggio dei caratteri di input e output accumulati.
/consumed_throughput Velocità effettiva dei caratteri Utilizzo del throughput, che tiene conto del tasso di esaurimento in caratteri e incorpora la riconciliazione delle quote Controllo della quota di Throughput riservato.

Utilizza questa metrica per capire come è stata utilizzata la quota di Throughput riservato.

Per i modelli basati su token, questa metrica equivale al throughput consumato in token moltiplicato per 4.
/dedicated_character_limit Limite (caratteri al secondo) Limite dedicato in caratteri al secondo. Utilizza questa metrica per comprendere la quota massima di Throughput riservato per i modelli basati su caratteri.
/model_invocation_count Conteggio chiamate del modello Numero di chiamate del modello (richieste di previsione).
/model_invocation_latencies Latenze di chiamata del modello Latenze di chiamata del modello (latenze di previsione).
/first_token_latencies Latenze del primo token Durata dal momento in cui la richiesta viene ricevuta al momento in cui viene restituito il primo token.

I modelli Anthropic hanno anche un filtro per il throughput riservato, ma solo per tokens e token_count.

Dashboard

Le dashboard di monitoraggio predefinite per il Throughput riservato forniscono metriche che ti consentono di comprendere meglio l'utilizzo e l'utilizzo del Throughput riservato. Per accedere alle dashboard:

  1. Nella console Google Cloud , vai alla pagina Throughput riservato.

    Vai a Throughput riservato

  2. Per visualizzare l'utilizzo del throughput riservato di ciascun modello negli ordini, seleziona la scheda Riepilogo utilizzo.

    Nella tabella Utilizzo del throughput riservato per modello, puoi visualizzare quanto segue per l'intervallo di tempo selezionato:

    • Numero totale di GSU che avevi.

    • Utilizzo del throughput di picco in termini di GSU.

    • L'utilizzo medio di GSU.

    • Il numero di volte in cui hai raggiunto il limite di Throughput riservato.

  3. Seleziona un modello dalla tabella Utilizzo del throughput riservato per modello per visualizzare altre metriche specifiche per il modello selezionato.

Come interpretare le dashboard di monitoraggio

Il throughput riservato controlla la quota disponibile in tempo reale a livello di millisecondo per le richieste man mano che vengono effettuate, ma confronta questi dati con un periodo di applicazione della quota mobile, in base all'ora dell'orologio interno della piattaforma dell'agente. Questo confronto è indipendente dal momento in cui vengono effettuate le richieste. Le dashboard di monitoraggio riportano le metriche di utilizzo dopo la riconciliazione della quota. Tuttavia, queste metriche vengono aggregate per fornire le medie per i periodi di allineamento della dashboard, in base all'intervallo di tempo selezionato. La granularità più bassa supportata dalle dashboard di monitoraggio è a livello di minuti. Inoltre, l'ora dell'orologio per le dashboard di monitoraggio è diversa da quella di Agent Platform.

Queste differenze di tempistiche potrebbero occasionalmente comportare discrepanze tra i dati nei dashboard di monitoraggio e il rendimento in tempo reale. Questi possono derivare da uno dei seguenti motivi:

  • La quota viene applicata in tempo reale, ma i grafici di monitoraggio aggregano i dati in periodi di allineamento della dashboard medi di 1 minuto o superiori, a seconda dell'intervallo di tempo specificato nelle dashboard di monitoraggio.

  • Agent Platform e le dashboard di monitoraggio vengono eseguite su orologi di sistema diversi.

  • Nell'arco di un secondo, se un burst di traffico supera la quota di Throughput riservato in base alla finestra di applicazione, l'intera richiesta viene elaborata come traffico di overflow. Tuttavia, l'utilizzo complessivo del Throughput riservato potrebbe sembrare basso quando i dati di monitoraggio per quel secondo vengono calcolati in media nel periodo di allineamento di 1 minuto, perché l'utilizzo medio nell'intero periodo di allineamento potrebbe non superare il 100%. Se visualizzi traffico di overflow, ciò conferma che la quota di Throughput riservato è stata utilizzata completamente durante il periodo di applicazione della quota in cui sono state effettuate queste richieste specifiche. Indipendentemente dall'utilizzo medio mostrato nelle dashboard di monitoraggio.

Esempio di potenziale discrepanza nei dati di monitoraggio

Questo esempio illustra alcune delle discrepanze derivanti dal disallineamento della finestra. La Figura 1 mostra l'utilizzo del throughput in un periodo di tempo specifico. In questa figura:

  • Le barre blu rappresentano il traffico ammesso come Throughput riservato.

  • La barra arancione rappresenta il traffico che spinge l'utilizzo oltre il limite di GSU e viene elaborato come overflow.

Utilizzo del throughput nei periodi di tempo
Figura 1. Utilizzo del throughput in periodi di tempo

In base all'utilizzo del throughput, la figura 2 mostra possibili discrepanze visive dovute al disallineamento delle finestre. In questa figura:

  • La linea blu rappresenta il traffico di throughput riservato.

  • La linea arancione rappresenta il traffico di overflow.

Possibili discrepanze nei dati di monitoraggio
Figura 2. Possibili discrepanze visive nelle dashboard di monitoraggio

In questo caso, i dati di monitoraggio potrebbero mostrare l'utilizzo del Throughput riservato senza overflow per un periodo di aggregazione del monitoraggio, mentre contemporaneamente si osserva l'utilizzo del Throughput riservato al di sotto del limite GSU in concomitanza con un overflow in un altro periodo di aggregazione del monitoraggio.

Risolvere i problemi relativi alle dashboard di monitoraggio

Per risolvere i problemi relativi a overflow imprevisti nei dashboard o agli errori 429, segui questi passaggi:

  1. Aumenta: imposta l'intervallo di tempo del dashboard su 12 ore o meno per fornire il periodo di allineamento più granulare di 1 minuto. Intervalli di tempo ampi attenuano i picchi che causano la limitazione e aumentano le medie del periodo di allineamento.

  2. Controlla il traffico totale: i dashboard specifici del modello mostrano il traffico dedicato e di overflow come due linee separate, il che potrebbe portare alla conclusione errata che la quota di Throughput riservato non viene utilizzata completamente e si verifica un overflow prematuro. Se il tuo traffico supera la quota disponibile, l'intera richiesta viene elaborata come spillover. Per un'altra visualizzazione utile, aggiungi una query alla dashboard utilizzando Metrics Explorer e includi il throughput dei token per il modello e la regione specifici. Non includere aggregazioni o filtri aggiuntivi per visualizzare il traffico totale in tutti i tipi di traffico (dedicato, spillover e condiviso).

Monitorare i modelli Genmedia

Il monitoraggio del throughput riservato non è disponibile sui modelli Veo 3.

Avvisi

Dopo aver attivato gli avvisi, imposta quelli predefiniti per gestire l'utilizzo del traffico.

Attiva avvisi

Per attivare gli avvisi nella dashboard:

  1. Nella console Google Cloud , vai alla pagina Throughput riservato.

    Vai a Throughput riservato

  2. Per visualizzare l'utilizzo del throughput riservato di ciascun modello negli ordini, seleziona la scheda Riepilogo utilizzo.

  3. Seleziona Avvisi consigliati e verranno visualizzati i seguenti avvisi:

    • Provisioned Throughput Usage Reached Limit
    • Provisioned Throughput Utilization Exceeded 80%
    • Provisioned Throughput Utilization Exceeded 90%
  4. Controlla gli avvisi che ti aiutano a gestire il traffico.

Visualizzare ulteriori dettagli dell'avviso

Per visualizzare ulteriori informazioni sugli avvisi:

  1. Vai alla pagina Integrazioni.

    Vai a Integrazioni

  2. Inserisci vertex nel campo Filtro e premi Invio. Viene visualizzata la pagina Google Gemini Enterprise Agent Platform.

  3. Per visualizzare ulteriori informazioni, fai clic su Visualizza dettagli. Viene visualizzato il riquadro Google Gemini Enterprise Agent Platform details.

  4. Seleziona la scheda Avvisi, quindi seleziona un modello di criterio di avviso.