Provisioned Throughput verwenden

Auf dieser Seite wird erläutert, wie Bereitgestellter Durchsatz funktioniert, wie Sie Überschreitungen steuern oder Bereitgestellten Durchsatz umgehen und wie Sie die Nutzung überwachen.

Funktionsweise von Bereitgestelltem Durchsatz

In diesem Abschnitt wird erläutert, wie Bereitgestellter Durchsatz funktioniert, indem das Kontingent während des Kontingentdurchsetzungszeitraums geprüft wird.

Kontingentprüfung für bereitgestellten Durchsatz

Ihr maximales Kontingent für den bereitgestellten Durchsatz ist ein Vielfaches der Anzahl der gekauften Skalierungseinheiten der generativen KI (GSUs) und des Durchsatzes pro GSU. Sie wird jedes Mal geprüft, wenn Sie innerhalb Ihres Zeitraums für die Kontingenterzwingung eine Anfrage stellen. So wird das Kontingent für den maximalen bereitgestellten Durchsatz erzwungen.

Wenn eine Anfrage eingeht, ist die tatsächliche Antwortgröße unbekannt. Da wir die Reaktionsgeschwindigkeit für Echtzeitanwendungen priorisieren, wird die Ausgabetoken-Größe durch den bereitgestellten Durchsatz geschätzt. Wenn die erste Schätzung das verfügbare maximale Kontingent für Bereitgestellten Durchsatz überschreitet, wird die Anfrage als „Pay-as-you-go“ verarbeitet. Andernfalls wird sie als Bereitgestellter Durchsatz verarbeitet. Dazu wird die ursprüngliche Schätzung mit Ihrem maximalen Kontingent für den bereitgestellten Durchsatz verglichen.

Wenn die Antwort generiert wird und die tatsächliche Größe des Ausgabetokens bekannt ist, werden die tatsächliche Nutzung und das Kontingent abgeglichen, indem die Differenz zwischen der Schätzung und der tatsächlichen Nutzung zu Ihrem verfügbaren Kontingent für bereitgestellten Durchsatz hinzugefügt wird.

Zeiträume für die Durchsetzung des Kontingents für bereitgestellten Durchsatz

Bei der Agent Platform wird ein dynamisches Zeitfenster verwendet, wenn das Kontingent für den bereitgestellten Durchsatz für Gemini-Modelle erzwungen wird. So wird eine optimale Stabilität für Traffic mit Spitzen erreicht. Statt eines festen Zeitraums wird das Kontingent auf der Agent Platform über einen flexiblen Zeitraum hinweg durchgesetzt, der sich automatisch an den Modelltyp und die Anzahl der bereitgestellten GSUs anpasst. Infolgedessen kann es vorkommen, dass der priorisierte Traffic vorübergehend Ihr Kontingent pro Sekunde überschreitet. Sie dürfen Ihr Kontingent jedoch während des Zeitraums nicht überschreiten. Diese Zeiträume basieren auf der internen Uhrzeit der Agent Platform und sind unabhängig davon, wann Anfragen gestellt werden.

So funktioniert das Zeitfenster für die Kontingentdurchsetzung

Das Erzwingungsfenster bestimmt, wie stark Sie das Limit pro Sekunde überschreiten dürfen, bevor die Anfragen gedrosselt werden. Dieses Fenster wird automatisch angewendet. Beachten Sie, dass diese Fenster geändert werden können, um die Leistung und Zuverlässigkeit zu optimieren.

  • Kleine GSU-Zuweisungen (3 GSUs oder weniger): Das Zeitfenster kann zwischen 40 und 120 Sekunden liegen, damit größere einzelne Anfragen ohne Unterbrechung verarbeitet werden können.

    Wenn Sie beispielsweise eine GSU von gemini-2.5-flash kaufen, erhalten Sie einen durchschnittlichen kontinuierlichen Durchsatz von 2.690 Tokens pro Sekunde. Ihre Gesamtnutzung darf in einem beliebigen 120‑Sekunden-Zeitfenster 322.800 Tokens (2.690 Tokens pro Sekunde × 120 Sekunden) nicht überschreiten. Wenn Sie also eine Anfrage mit 70.000 Tokens pro Sekunde senden, die Gesamtnutzung über 120 Sekunden jedoch unter 322.800 Tokens bleibt, wird der Burst von 70.000 Tokens pro Sekunde weiterhin als bereitgestellter Durchsatz gezählt, da die durchschnittliche Nutzung 2.690 Tokens pro Sekunde nicht überschreitet.

  • Standardzuweisungen (mittelgroß) von GSU (mehr als 3 GSUs): Bei mittelgroßen GSU-Bereitstellungen (z. B. weniger als 50 GSUs) kann das Zeitfenster zwischen 5 und 30 Sekunden liegen. Die GSU-Grenzwerte und Kontextfenster variieren je nach Modell.

    Wenn Sie beispielsweise 25 GSUs von gemini-2.5-flash kaufen, erhalten Sie einen kontinuierlichen Durchsatz von durchschnittlich 67.250 Tokens pro Sekunde (2.690 Tokens pro Sekunde × 25). Ihre Gesamtnutzung in einem beliebigen 30-Sekunden-Zeitraum darf 2.017.500 Tokens (67.250 Tokens pro Sekunde × 30 Sekunden) nicht überschreiten. Wenn Sie also eine Anfrage senden, die 1.000.000 Tokens pro Sekunde verwendet, die Gesamtnutzung über 30 Sekunden jedoch innerhalb von 2.017.500 Tokens bleibt, wird der Burst von 1.000.000 Tokens pro Sekunde weiterhin als bereitgestellter Durchsatz gezählt, da die durchschnittliche Nutzung 67.250 Tokens pro Sekunde nicht überschreitet.

  • GSU-Zuweisungen mit hoher Präzision (im großen Maßstab): Bei GSU-Bereitstellungen im großen Maßstab (z. B. 50 GSUs oder mehr) kann das Zeitfenster zwischen 1 und 5 Sekunden liegen, damit Anfragen mit hoher Frequenz in der gesamten Infrastruktur mit maximaler Genauigkeit verarbeitet werden.

    Wenn Sie beispielsweise 250 GSUs von gemini-2.5-flash kaufen, erhalten Sie einen durchschnittlichen kontinuierlichen Durchsatz von 672.500 Tokens pro Sekunde (2.690 Tokens pro Sekunde × 250). Ihre Gesamtnutzung darf in einem beliebigen 5‑Sekunden-Zeitfenster 3.362.500 Tokens (672.500 Tokens pro Sekunde × 5 Sekunden) nicht überschreiten. Wenn Sie also eine Anfrage mit 5.000.000 Tokens pro Sekunde senden, wird sie nicht als Bereitgestellter Durchsatz verarbeitet, da die Gesamtnutzung von 5.000.000 Tokens das Limit von 3.362.500 Tokens in einem 5-Sekunden-Zeitraum überschreitet. Eine Anfrage, bei der 1.000.000 Tokens pro Sekunde verwendet werden, kann hingegen als Bereitgestellter Durchsatz verarbeitet werden, wenn die durchschnittliche Nutzung im 5-Sekunden-Zeitraum 672.500 Tokens pro Sekunde nicht überschreitet.

Überschreitungen steuern oder Bereitgestellten Durchsatz umgehen

Mit der API können Sie Überschreitungen steuern, wenn Sie den gekauften Durchsatz überschreiten, oder Bereitgestellten Durchsatz pro Anfrage umgehen.

Lesen Sie sich die einzelnen Optionen durch, um herauszufinden, was Sie tun müssen, um Ihren Anwendungsfall zu erfüllen.

Standardverhalten

Wenn eine Anfrage das verbleibende Kontingent für Bereitgestellten Durchsatz überschreitet, wird die gesamte Anfrage standardmäßig als On-Demand-Anfrage verarbeitet und zum Pay-as-you-go-Tarif abgerechnet. In diesem Fall wird der Traffic in den Monitoring-Dashboards als Spillover angezeigt. Weitere Informationen zum Monitoring der Nutzung von Bereitgestelltem Durchsatz finden Sie unter Bereitgestellten Durchsatz überwachen.

Sobald Ihre Bestellung für Bereitgestellten Durchsatz aktiv ist, wird das Standardverhalten automatisch angewendet. Sie müssen Ihren Code nicht ändern, um Ihre Bestellung zu nutzen, solange Sie sie in der bereitgestellten Region nutzen.

Nur Bereitgestellter Durchsatz verwenden

Wenn Sie Kosten verwalten, indem Sie On-Demand-Gebühren vermeiden, verwenden Sie nur Bereitgestellter Durchsatz. Bei Anfragen, die den Bestellbetrag für Bereitgestellten Durchsatz überschreiten, wird der Fehler 429 zurückgegeben.

Wenn Sie Anfragen an die API senden, legen Sie den HTTP-Header X-Vertex-AI-LLM-Request-Type auf dedicated fest.

Nur „Pay as you go“ verwenden

Dies wird auch als On-Demand-Nutzung bezeichnet. Anfragen umgehen die Bestellung von Bereitgestelltem Durchsatz und werden direkt an Pay-as-you-go gesendet. Das kann für Tests oder Anwendungen in der Entwicklungsphase nützlich sein.

Wenn Sie Anfragen an die API senden, legen Sie den HTTP-Header X-Vertex-AI-LLM-Request-Type auf shared fest.

Beispiel

Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Umgebungsvariablen für die Verwendung des Google Gen AI SDK mit Vertex AI festlegen:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_ENTERPRISE=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(
    http_options=HttpOptions(
        api_version="v1",
        headers={
            # Options:
            # - "dedicated": Use Provisioned Throughput
            # - "shared": Use pay-as-you-go
            # https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
            "X-Vertex-AI-LLM-Request-Type": "shared"
        },
    )
)
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

Go

Informationen zum Installieren oder Aktualisieren von Go

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Umgebungsvariablen für die Verwendung des Google Gen AI SDK mit Vertex AI festlegen:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_ENTERPRISE=True

import (
	"context"
	"fmt"
	"io"
	"net/http"

	"google.golang.org/genai"
)

// generateText shows how to generate text Provisioned Throughput.
func generateText(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{
			APIVersion: "v1",
			Headers: http.Header{
				// Options:
				// - "dedicated": Use Provisioned Throughput
				// - "shared": Use pay-as-you-go
				// https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
				"X-Vertex-AI-LLM-Request-Type": []string{"shared"},
			},
		},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	modelName := "gemini-2.5-flash"
	contents := genai.Text("How does AI work?")

	resp, err := client.Models.GenerateContent(ctx, modelName, contents, nil)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// Artificial Intelligence (AI) isn't magic, nor is it a single "thing." Instead, it's a broad field of computer science focused on creating machines that can perform tasks that typically require human intelligence.
	// .....
	// In Summary:
	// ...

	return nil
}

Node.js

Installieren

npm install @google/genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Umgebungsvariablen für die Verwendung des Google Gen AI SDK mit Vertex AI festlegen:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_ENTERPRISE=True

const {GoogleGenAI} = require('@google/genai');

const GOOGLE_CLOUD_PROJECT = process.env.GOOGLE_CLOUD_PROJECT;
const GOOGLE_CLOUD_LOCATION = process.env.GOOGLE_CLOUD_LOCATION || 'global';

async function generateWithProvisionedThroughput(
  projectId = GOOGLE_CLOUD_PROJECT,
  location = GOOGLE_CLOUD_LOCATION
) {
  const client = new GoogleGenAI({
    vertexai: true,
    project: projectId,
    location: location,
    httpOptions: {
      apiVersion: 'v1',
      headers: {
        // Options:
        // - "dedicated": Use Provisioned Throughput
        // - "shared": Use pay-as-you-go
        // https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
        'X-Vertex-AI-LLM-Request-Type': 'shared',
      },
    },
  });

  const response = await client.models.generateContent({
    model: 'gemini-2.5-flash',
    contents: 'How does AI work?',
  });

  console.log(response.text);

  // Example response:
  //  Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
  //  Here's a simplified overview:
  //  ...

  return response.text;
}

Java

Informationen zum Installieren oder Aktualisieren von Java

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Umgebungsvariablen für die Verwendung des Google Gen AI SDK mit Vertex AI festlegen:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_ENTERPRISE=True


import com.google.genai.Client;
import com.google.genai.types.GenerateContentConfig;
import com.google.genai.types.GenerateContentResponse;
import com.google.genai.types.HttpOptions;
import java.util.Map;

public class ProvisionedThroughputWithTxt {

  public static void main(String[] args) {
    // TODO(developer): Replace these variables before running the sample.
    String modelId = "gemini-2.5-flash";
    generateContent(modelId);
  }

  // Generates content with Provisioned Throughput.
  public static String generateContent(String modelId) {
    // Client Initialization. Once created, it can be reused for multiple requests.
    try (Client client =
        Client.builder()
            .location("us-central1")
            .vertexAI(true)
            .httpOptions(
                HttpOptions.builder()
                    .apiVersion("v1")
                    .headers(
                        // Options:
                        // - "dedicated": Use Provisioned Throughput
                        // - "shared": Use pay-as-you-go
                        // https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
                        Map.of("X-Vertex-AI-LLM-Request-Type", "shared"))
                    .build())
            .build()) {

      GenerateContentResponse response =
          client.models.generateContent(
              modelId, "How does AI work?", GenerateContentConfig.builder().build());

      System.out.println(response.text());
      // Example response:
      // At its core, **AI (Artificial Intelligence) works by enabling machines to learn,
      // reason, and make decisions in ways that simulate human intelligence.** Instead of being
      // explicitly programmed for every single task...
      return response.text();
    }
  }
}

REST

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Bereitgestellter Durchsatz mit einem API-Schlüssel verwenden

Wenn Sie Bereitgestellten Durchsatz für ein bestimmtes Projekt, Google-Modell und eine bestimmte Region erworben haben und es verwenden möchten, um eine Anfrage mit einem API-Schlüssel zu senden, müssen Sie die Projekt-ID, das Modell, den Standort und den API-Schlüssel als Parameter in Ihre Anfrage aufnehmen.

Informationen zum Erstellen eines Google Cloud API-Schlüssels, der an ein Dienstkonto gebunden ist, finden Sie unter Google Cloud API-Schlüssel abrufen. Informationen zum Senden von Anfragen an die Gemini API mit einem API-Schlüssel finden Sie in der Kurzanleitung zur Gemini API für die Agent Platform.

Im folgenden Beispiel wird gezeigt, wie Sie eine Anfrage mit einem API-Schlüssel senden, wenn Sie Bereitgestellten Durchsatz verwenden:

REST

curl \
-X POST \
-H "Content-Type: application/json" \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_ID:generateContent?key=YOUR_API_KEY" \
-d $'{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "Explain how AI works in a few words"
        }
      ]
    }
  ]
}'

Bereitgestellten Durchsatz überwachen

Sie können die Nutzung von Bereitgestellter Durchsatz selbst mithilfe einer Reihe von Messwerten überwachen, die für den Ressourcentyp aiplatform.googleapis.com/PublisherModel erfasst werden.

Die Überwachung des Provisioned Throughput-Traffics ist eine Funktion in der öffentlichen Vorschau.

Dimensionen

Sie können Messwerte mit den folgenden Dimensionen filtern:

Dimension Werte
type input
output
request_type

dedicated: Der Traffic wird mit dem bereitgestellten Durchsatz verarbeitet.

spillover: Der Traffic wird als Pay-as-you-go-Kontingent verarbeitet, nachdem Sie Ihr Kontingent für den bereitgestellten Durchsatz überschritten haben. Der Messwert spillover wird für Gemini 2.0-Modelle mit bereitgestelltem Durchsatz nicht unterstützt, wenn explizites Caching aktiviert ist, da diese Modelle explizites Caching nicht unterstützen. In diesem Fall wird der Traffic als shared angezeigt.

shared: Wenn der bereitgestellte Durchsatz aktiv ist, wird der Traffic als Pay-as-you-go-Kontingent mit dem freigegebenen HTTP-Header verarbeitet. Wenn Bereitgestellter Durchsatz nicht aktiv ist, wird der Traffic standardmäßig nach dem Pay-as-you-go-Modell verarbeitet.

Pfadpräfix

Das Pfadpräfix für einen Messwert ist aiplatform.googleapis.com/publisher/online_serving.

Der vollständige Pfad für den Messwert /consumed_throughput ist beispielsweise aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Messwerte

Die folgenden Cloud Monitoring-Messwerte sind für die aiplatform.googleapis.com/PublisherModel-Ressource für die Gemini-Modelle verfügbar. Verwenden Sie die Anfragetypen dedicated, um die Nutzung von Bereitgestellter Durchsatz zu filtern.

Messwert Anzeigename Beschreibung
/dedicated_gsu_limit Limit (GSU) Dediziertes Limit in GSUs. Mit diesem Messwert können Sie das maximale Kontingent für den bereitgestellten Durchsatz in GSU ermitteln.
/tokens Tokens Verteilung der Anzahl der Eingabe- und Ausgabetokens.
/token_count Tokenanzahl Anzahl der angesammelten Eingabe- und Ausgabetokens.
/consumed_token_throughput Token-Durchsatz Durchsatznutzung, die die Abnahmerate in Tokens berücksichtigt und den Kontingentabgleich einbezieht. Weitere Informationen finden Sie unter Kontingentprüfung für Bereitgestellten Durchsatz.

Mit diesem Messwert können Sie nachvollziehen, wie Ihr Kontingent für Bereitgestellten Durchsatz genutzt wurde.
/dedicated_token_limit Limit (Tokens pro Sekunde) Dediziertes Limit in Tokens pro Sekunde. Mit diesem Messwert können Sie Ihr maximales Kontingent für bereitgestellten Durchsatz für tokenbasierte Modelle nachvollziehen.
/characters Zeichen Verteilung der Anzahl der Eingabe- und Ausgabezeichen.
/character_count Anzahl der Zeichen Anzahl der eingegebenen und ausgegebenen Zeichen insgesamt.
/consumed_throughput Zeichendurchsatz Durchsatznutzung, die die Abnahmerate in Zeichen berücksichtigt und die Kontingentabstimmung Kontingentprüfung für Provisioned Throughput umfasst.

Mit diesem Messwert können Sie nachvollziehen, wie Ihr Provisioned Throughput-Kontingent genutzt wurde.

Bei tokenbasierten Modellen entspricht dieser Messwert dem in Tokens verbrauchten Durchsatz multipliziert mit 4.
/dedicated_character_limit Limit (Zeichen pro Sekunde) Spezielles Limit in Zeichen pro Sekunde. Mit diesem Messwert können Sie Ihr maximales Kontingent für Bereitgestellten Durchsatz für zeichenbasierte Modelle ermitteln.
/model_invocation_count Anzahl der Modellaufrufe Anzahl der Modellaufrufe (Vorhersageanfragen).
/model_invocation_latencies Latenzen beim Modellaufruf Latenz beim Modellaufruf (Vorhersagelatenz).
/first_token_latencies Latenzen für das erste Token Dauer vom Empfang der Anfrage bis zur Rückgabe des ersten Tokens.

Anthropic-Modelle haben auch einen Filter für den bereitgestellten Durchsatz, aber nur für tokens und token_count.

Dashboards

Standard-Monitoring-Dashboards für Bereitgestellten Durchsatz bieten Messwerte, mit denen Sie Ihre Nutzung und die Nutzung von Bereitgestelltem Durchsatz besser nachvollziehen können. So greifen Sie auf die Dashboards zu:

  1. Rufen Sie in der Google Cloud Console die Seite Bereitgestellter Durchsatz auf.

    Zum bereitgestellten Durchsatz

  2. Wenn Sie die Auslastung des bereitgestellten Durchsatzes jedes Modells in Ihren Bestellungen ansehen möchten, wählen Sie den Tab Zusammenfassung der Auslastung aus.

    In der Tabelle Auslastung des bereitgestellten Durchsatzes nach Modell sehen Sie für den ausgewählten Zeitraum Folgendes:

    • Gesamtzahl der GSU-Konten, die Sie hatten.

    • Spitzendurchsatznutzung in GSU.

    • Die durchschnittliche GSU-Nutzung.

    • Die Anzahl der Fälle, in denen Sie das Limit für den bereitgestellten Durchsatz erreicht haben.

  3. Wählen Sie in der Tabelle Provisioned Throughput utilization by model (Auslastung des bereitgestellten Durchsatzes nach Modell) ein Modell aus, um weitere messwertspezifische Informationen zum ausgewählten Modell zu sehen.

Monitoring-Dashboards interpretieren

Der bereitgestellte Durchsatz prüft das verfügbare Kontingent in Echtzeit auf Millisekundenebene für Anfragen, die gestellt werden. Die Daten werden jedoch mit einem gleitenden Zeitraum für die Kontingentdurchsetzung verglichen, der auf der internen Uhrzeit der Agent Platform basiert. Dieser Vergleich ist unabhängig davon, wann die Anfragen gestellt werden. In den Monitoring-Dashboards werden Nutzungsmesswerte nach dem Abgleich des Kontingents angezeigt. Diese Messwerte werden jedoch zusammengefasst, um auf Grundlage des ausgewählten Zeitraums Durchschnittswerte für die Dashboard-Abstimmungszeiträume zu erhalten. Die geringste mögliche Granularität, die von den Monitoring-Dashboards unterstützt wird, ist die Minutenebene. Außerdem unterscheidet sich die Uhrzeit für die Monitoring-Dashboards von der der Agent-Plattform.

Diese Zeitunterschiede können gelegentlich zu Abweichungen zwischen den Daten in den Monitoring-Dashboards und der Echtzeitleistung führen. Das kann folgende Gründe haben:

  • Das Kontingent wird in Echtzeit durchgesetzt, aber in den Monitoring-Diagrammen werden Daten in durchschnittlichen Dashboard-Abstimmungszeiträumen von einer Minute oder mehr zusammengefasst, je nach dem im Monitoring-Dashboard angegebenen Zeitraum.

  • Die Agent Platform und die Monitoring-Dashboards verwenden unterschiedliche Systemuhren.

  • Wenn in einem Zeitraum von einer Sekunde ein Traffic-Burst Ihr Kontingent für den bereitgestellten Durchsatz basierend auf dem Zeitfenster für die Erzwingung überschreitet, wird die gesamte Anfrage als Spillover-Traffic verarbeitet. Die Gesamtauslastung des bereitgestellten Durchsatzes kann jedoch niedrig erscheinen, wenn die Überwachungsdaten für diese Sekunde im 1-Minuten-Abstimmungszeitraum gemittelt werden, da die durchschnittliche Auslastung über den gesamten Abstimmungszeitraum möglicherweise nicht 100 % überschreitet. Wenn Sie Spillover-Traffic sehen, bedeutet das, dass Ihr Kontingent für den bereitgestellten Durchsatz während des Zeitraums für die Erzwingung des Kontingents, in dem diese spezifischen Anfragen gestellt wurden, vollständig genutzt wurde. Dies gilt unabhängig von der durchschnittlichen Auslastung, die in den Überwachungsdashboards angezeigt wird.

Beispiel für eine potenzielle Diskrepanz bei Monitoring-Daten

In diesem Beispiel werden einige der Abweichungen veranschaulicht, die durch eine falsche Ausrichtung des Zeitraums entstehen. Abbildung 1 zeigt die Durchsatznutzung über einen bestimmten Zeitraum. In dieser Abbildung:

  • Die blauen Balken stellen den Traffic dar, der als bereitgestellter Durchsatz zugelassen wurde.

  • Der orangefarbene Balken steht für Traffic, der die Nutzung über das GSU-Limit hinaus treibt und als Spillover verarbeitet wird.

Durchsatznutzung über Zeiträume hinweg
Abbildung 1. Durchsatznutzung über Zeiträume hinweg

Abbildung 2 zeigt mögliche visuelle Abweichungen aufgrund von Fensterungsfehlern, die auf der Durchsatznutzung basieren. In dieser Abbildung gilt Folgendes:

  • Die blaue Linie stellt den Traffic für den bereitgestellten Durchsatz dar.

  • Die orangefarbene Linie steht für Spillover-Traffic.

Mögliche Abweichungen bei Monitoring-Daten
Abbildung 2. Mögliche visuelle Abweichungen in Monitoring-Dashboards

In diesem Fall werden in den Überwachungsdaten möglicherweise die Nutzung von Provisioned Throughput ohne Überschreitung für einen Überwachungsaggregationszeitraum angezeigt, während gleichzeitig die Nutzung von Provisioned Throughput unter dem GSU-Limit mit einer Überschreitung in einem anderen Überwachungsaggregationszeitraum beobachtet wird.

Fehlerbehebung bei Monitoring-Dashboards

Wenn in Ihren Dashboards unerwartete Überschneidungen oder 429-Fehler auftreten, können Sie die folgenden Schritte ausführen, um die Probleme zu beheben:

  1. Heranzoomen: Legen Sie für Ihr Dashboard einen Zeitraum von maximal 12 Stunden fest, um den kleinsten Ausrichtungszeitraum von 1 Minute zu erhalten. Bei großen Zeiträumen werden Spitzen, die zu einer Drosselung führen, ausgeglichen und die Durchschnittswerte für den Abstimmungszeitraum steigen.

  2. Gesamten Traffic prüfen: In den modellspezifischen Dashboards werden dedizierter und Spillover-Traffic als zwei separate Linien dargestellt. Das kann zu dem falschen Schluss führen, dass das Kontingent für den bereitgestellten Durchsatz nicht vollständig genutzt wird und vorzeitig überschwappt. Wenn Ihr Traffic das verfügbare Kontingent überschreitet, wird die gesamte Anfrage als Spillover verarbeitet. Eine weitere hilfreiche Visualisierung erhalten Sie, wenn Sie dem Dashboard mit dem Metrics Explorer eine Abfrage hinzufügen und den Token-Durchsatz für das jeweilige Modell und die jeweilige Region einbeziehen. Fügen Sie keine zusätzlichen Aggregationen oder Filter hinzu, um den gesamten Traffic für alle Traffictypen (dediziert, Spillover und gemeinsam genutzt) zu sehen.

Genmedia-Modelle überwachen

Die Überwachung des bereitgestellten Durchsatzes ist bei Veo 3-Modellen nicht verfügbar.

Benachrichtigungen

Nachdem Sie Benachrichtigungen aktiviert haben, können Sie Standardbenachrichtigungen einrichten, um die Nutzung Ihres Traffics besser zu verwalten.

Benachrichtigungen aktivieren

So aktivieren Sie Benachrichtigungen im Dashboard:

  1. Rufen Sie in der Google Cloud Console die Seite Bereitgestellter Durchsatz auf.

    Zum bereitgestellten Durchsatz

  2. Wenn Sie die Auslastung des bereitgestellten Durchsatzes jedes Modells in Ihren Bestellungen ansehen möchten, wählen Sie den Tab Zusammenfassung der Auslastung aus.

  3. Wählen Sie Empfohlene Benachrichtigungen aus. Die folgenden Benachrichtigungen werden angezeigt:

    • Provisioned Throughput Usage Reached Limit
    • Provisioned Throughput Utilization Exceeded 80%
    • Provisioned Throughput Utilization Exceeded 90%
  4. Sehen Sie sich die Benachrichtigungen an, die Ihnen helfen, Ihren Traffic zu verwalten.

Weitere Details zu Benachrichtigungen ansehen

So rufen Sie weitere Informationen zu Benachrichtigungen auf:

  1. Rufen Sie die Seite Integrationen auf.

    Zu „Integrationen“

  2. Geben Sie Agent Platform in das Feld Filter ein und drücken Sie die Eingabetaste. Die Google Agent Platform wird angezeigt.

  3. Wenn Sie weitere Informationen aufrufen möchten, klicken Sie auf Details ansehen. Der Bereich Details zur Google Agent Platform wird angezeigt.

  4. Wählen Sie den Tab Benachrichtigungen aus. Dort können Sie eine Vorlage für eine Benachrichtigungsrichtlinie auswählen.

Nächste Schritte