xAI Grok-Modelle sind als verwaltete APIs auf der Gemini Enterprise Agent Platform verfügbar. Sie können Ihre Antworten streamen, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Eine gestreamte Antwort verwendet Server-Sent Events (SSE), um die Antwort schrittweise zu streamen.
Verwaltete xAI-Modelle
Die folgenden Modelle sind von xAI zur Verwendung in der Gemini Enterprise Agent Platform verfügbar. Rufen Sie die zugehörige Model Garden-Modellkarte auf, um auf ein xAI-Modell zuzugreifen.
Grok 4.20 (Reasoning)
Grok 4.20 (Reasoning) ist das Flaggschiffmodell von xAI und zeichnet sich durch eine branchenführend niedrige Halluzinationsrate aus. Kann Aufgaben zum Verständnis von Dokumenten und zum Aufrufen von Agent-Tools mit langem Horizont bewältigen.
Zur Modellkarte „Grok 4.20 (Reasoning)“
Grok 4.20 (ohne Begründung)
Grok 4.20 (Non-Reasoning) ist das Flaggschiff-Modell von xAI ohne Denkprozess und zeichnet sich durch eine branchenführend niedrige Halluzinationsrate aus. Hervorragend geeignet für latenzempfindliche Anwendungsfälle wie Kundensupport und Kategorisierung.
Zur Modellkarte „Grok 4.20 (Non-Reasoning)“
Grok 4.1 Fast (Reasoning)
Grok 4.1 Fast (Reasoning) ist das kostengünstigste Modell von xAI mit leistungsstarken Funktionen zum Aufrufen von Tools und effizienter Synthese von Wissensdatenbanken. Hervorragend geeignet für Suchaufgaben mit Webdaten und internen Wissensdatenbank-Tools.
Zur Modellkarte „Grok 4.1 Fast (Reasoning)“
Grok 4.1 Fast (Non-Reasoning)
Grok 4.1 Fast (Non-Reasoning) ist das kostengünstigste Modell von xAI, das nicht zum Ziehen von Schlussfolgerungen verwendet wird und für eine niedrige Latenz optimiert ist. Hervorragend für Aufgaben mit hohem Volumen wie Zusammenfassung und Kategorisierung geeignet.
Zur Modellkarte „Grok 4.1 Fast (Non-Reasoning)“
xAI-Modelle verwenden
Für verwaltete Modelle können Sie curl-Befehle verwenden, um Anfragen mit den folgenden Modellnamen an den Gemini Enterprise Agent Platform-Endpunkt zu senden. Informationen zum Ausführen von Streaming- und Nicht-Streaming-Aufrufen für xAI-Modelle finden Sie unter Open-Model-APIs aufrufen.
Bei verwalteten Modellen können Sie curl-Befehle verwenden, um Anfragen mit den folgenden Modellnamen an den Gemini Enterprise Agent Platform-Endpunkt zu senden:
- Verwenden Sie für Grok 4.20 (Reasoning)
grok-4.20-reasoning. - Verwenden Sie für Grok 4.20 (Non-Reasoning)
grok-4.20-non-reasoning. - Für Grok 4.1 Fast (Reasoning) verwenden Sie
grok-4.1-fast-reasoning. - Verwenden Sie für Grok 4.1 Fast (Non-Reasoning)
grok-4.1-fast-non-reasoning.
Grok-Kontingente
Für Grok-Modelle gilt ein globales Kontingent. Das Kontingent wird in Abfragen pro Minute (Queries per minute, QPM) und Tokens pro Minute (Tokens per minute, TPM) angegeben. TPM umfasst sowohl Eingabe- als auch Ausgabetokens.
Um die allgemeine Dienstleistung und die zulässige Nutzung aufrechtzuerhalten, können die maximalen Kontingente je nach Konto variieren. In einigen Fällen kann der Zugriff eingeschränkt werden. Die Kontingente Ihres Projekts finden Sie in der Google Cloud Console auf der Seite Kontingente und Systemlimits. Außerdem müssen die folgenden Kontingente verfügbar sein:
global_generate_content_requests_per_minute_per_project_per_base_modeldefiniert Ihr QPM-Kontingent.Für TPM gibt es zwei Kontingentwerte, die für bestimmte Modelle gelten:
global_generate_content_input_tokens_per_minute_per_base_modeldefiniert das TPM-Eingabekontingent undglobal_generate_content_output_tokens_per_minute_per_base_modeldas TPM-Ausgabekontingent.
Auf den jeweiligen Modellseiten finden Sie Informationen dazu, bei welchen Modellen Eingabe- und Ausgabetokens separat gezählt werden.