xAI Grok-Modelle sind als verwaltete APIs in Vertex AI verfügbar. Sie können Ihre Antworten streamen, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Eine gestreamte Antwort verwendet Server-Sent Events (SSE), um die Antwort schrittweise zu streamen.
Verwaltete xAI-Modelle
Die folgenden Modelle sind von xAI zur Verwendung in Vertex AI verfügbar. Rufen Sie die zugehörige Model Garden-Modellkarte auf, um auf ein xAI-Modell zuzugreifen.
Grok 4.20 (Reasoning)
Grok 4.20 (Reasoning) ist das Flaggschiffmodell von xAI und zeichnet sich durch eine branchenführend niedrige Halluzinationsrate aus. Kann Aufgaben zum Verständnis von Dokumenten und Tool-Aufrufe mit langer Zeitspanne bewältigen.
Zur Modellkarte „Grok 4.20 (Reasoning)“
Grok 4.20 (Non-Reasoning)
Grok 4.20 (Non-Reasoning) ist das Flaggschiffmodell von xAI ohne Denkprozess und zeichnet sich durch eine branchenführend niedrige Halluzinationsrate aus. Hervorragend geeignet für latenzempfindliche Anwendungsfälle wie Kundensupport und Kategorisierung.
Zur Modellkarte „Grok 4.20 (Non-Reasoning)“
Grok 4.1 Fast (Reasoning)
Grok 4.1 Fast (Reasoning) ist das kostengünstigste Modell von xAI. Es bietet leistungsstarke Funktionen für den Tool-Aufruf und eine effiziente Synthese von Wissensdatenbanken. Hervorragend geeignet für Suchaufgaben mit Webdaten und internen Wissensdatenbank-Tools.
Zur Modellkarte „Grok 4.1 Fast (Reasoning)“
Grok 4.1 Fast (Non-Reasoning)
Grok 4.1 Fast (Non-Reasoning) ist das kostengünstigste Modell von xAI, das nicht für das Ziehen von Schlussfolgerungen optimiert ist. Es bietet eine niedrige Latenz. Hervorragend für Aufgaben mit hohem Volumen wie Zusammenfassung und Kategorisierung.
Zur Modellkarte „Grok 4.1 Fast (Non-Reasoning)“
xAI-Modelle verwenden
Für verwaltete Modelle können Sie curl-Befehle verwenden, um Anfragen mit den folgenden Modellnamen an den Vertex AI-Endpunkt zu senden. Informationen zum Ausführen von Streaming- und Nicht-Streaming-Aufrufen für xAI-Modelle finden Sie unter Open-Model-APIs aufrufen.
Für verwaltete Modelle können Sie curl-Befehle verwenden, um Anfragen mit den folgenden Modellnamen an den Vertex AI-Endpunkt zu senden:
- Verwenden Sie für Grok 4.20 (Reasoning)
grok-4.20-reasoning. - Verwenden Sie für Grok 4.20 (Non-Reasoning)
grok-4.20-non-reasoning. - Für Grok 4.1 Fast (Reasoning) verwenden Sie
grok-4.1-fast-reasoning. - Verwenden Sie für Grok 4.1 Fast (Non-Reasoning)
grok-4.1-fast-non-reasoning.
Grok-Kontingente
Für Grok-Modelle gilt ein globales Kontingent. Das Kontingent wird in Abfragen pro Minute (Queries per minute, QPM) und Tokens pro Minute (Tokens per minute, TPM) angegeben. TPM umfasst sowohl Eingabe- als auch Ausgabetokens.
Um die allgemeine Dienstleistung und die zulässige Nutzung aufrechtzuerhalten, können die maximalen Kontingente je nach Konto variieren. In einigen Fällen kann der Zugriff eingeschränkt werden. Die Kontingente Ihres Projekts finden Sie in der Google Cloud Console auf der Seite Kontingente und Systemlimits. Außerdem müssen die folgenden Kontingente verfügbar sein:
global_generate_content_requests_per_minute_per_project_per_base_modeldefiniert Ihr QPM-Kontingent.Für TPM gibt es zwei Kontingentwerte, die für bestimmte Modelle gelten:
global_generate_content_input_tokens_per_minute_per_base_modeldefiniert das TPM-Eingabekontingent undglobal_generate_content_output_tokens_per_minute_per_base_modeldas TPM-Ausgabekontingent.
Auf den jeweiligen Modellseiten finden Sie Informationen dazu, bei welchen Modellen Eingabe- und Ausgabetokens separat gezählt werden.