xAI Grok-Modelle

xAI Grok-Modelle sind als verwaltete APIs auf der Gemini Enterprise Agent Platform verfügbar. Sie können Ihre Antworten streamen, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Eine gestreamte Antwort verwendet Server-Sent Events (SSE), um die Antwort schrittweise zu streamen.

Verwaltete xAI-Modelle

Die folgenden Modelle sind von xAI zur Verwendung in der Gemini Enterprise Agent Platform verfügbar. Rufen Sie die zugehörige Model Garden-Modellkarte auf, um auf ein xAI-Modell zuzugreifen.

Grok 4.20 (Reasoning)

Grok 4.20 (Reasoning) ist das Flaggschiffmodell von xAI und zeichnet sich durch eine branchenführend niedrige Halluzinationsrate aus. Kann Aufgaben zum Verständnis von Dokumenten und zum Aufrufen von Agent-Tools mit langem Horizont bewältigen.

Zur Modellkarte „Grok 4.20 (Reasoning)“

Grok 4.20 (ohne Begründung)

Grok 4.20 (Non-Reasoning) ist das Flaggschiff-Modell von xAI ohne Denkprozess und zeichnet sich durch eine branchenführend niedrige Halluzinationsrate aus. Hervorragend geeignet für latenzempfindliche Anwendungsfälle wie Kundensupport und Kategorisierung.

Zur Modellkarte „Grok 4.20 (Non-Reasoning)“

Grok 4.1 Fast (Reasoning)

Grok 4.1 Fast (Reasoning) ist das kostengünstigste Modell von xAI mit leistungsstarken Funktionen zum Aufrufen von Tools und effizienter Synthese von Wissensdatenbanken. Hervorragend geeignet für Suchaufgaben mit Webdaten und internen Wissensdatenbank-Tools.

Zur Modellkarte „Grok 4.1 Fast (Reasoning)“

Grok 4.1 Fast (Non-Reasoning)

Grok 4.1 Fast (Non-Reasoning) ist das kostengünstigste Modell von xAI, das nicht zum Ziehen von Schlussfolgerungen verwendet wird und für eine niedrige Latenz optimiert ist. Hervorragend für Aufgaben mit hohem Volumen wie Zusammenfassung und Kategorisierung geeignet.

Zur Modellkarte „Grok 4.1 Fast (Non-Reasoning)“

xAI-Modelle verwenden

Für verwaltete Modelle können Sie curl-Befehle verwenden, um Anfragen mit den folgenden Modellnamen an den Gemini Enterprise Agent Platform-Endpunkt zu senden. Informationen zum Ausführen von Streaming- und Nicht-Streaming-Aufrufen für xAI-Modelle finden Sie unter Open-Model-APIs aufrufen.

Bei verwalteten Modellen können Sie curl-Befehle verwenden, um Anfragen mit den folgenden Modellnamen an den Gemini Enterprise Agent Platform-Endpunkt zu senden:

  • Verwenden Sie für Grok 4.20 (Reasoning) grok-4.20-reasoning.
  • Verwenden Sie für Grok 4.20 (Non-Reasoning) grok-4.20-non-reasoning.
  • Für Grok 4.1 Fast (Reasoning) verwenden Sie grok-4.1-fast-reasoning.
  • Verwenden Sie für Grok 4.1 Fast (Non-Reasoning) grok-4.1-fast-non-reasoning.

Grok-Kontingente

Für Grok-Modelle gilt ein globales Kontingent. Das Kontingent wird in Abfragen pro Minute (Queries per minute, QPM) und Tokens pro Minute (Tokens per minute, TPM) angegeben. TPM umfasst sowohl Eingabe- als auch Ausgabetokens.

Um die allgemeine Dienstleistung und die zulässige Nutzung aufrechtzuerhalten, können die maximalen Kontingente je nach Konto variieren. In einigen Fällen kann der Zugriff eingeschränkt werden. Die Kontingente Ihres Projekts finden Sie in der Google Cloud Console auf der Seite Kontingente und Systemlimits. Außerdem müssen die folgenden Kontingente verfügbar sein:

  • global_generate_content_requests_per_minute_per_project_per_base_model definiert Ihr QPM-Kontingent.

  • Für TPM gibt es zwei Kontingentwerte, die für bestimmte Modelle gelten: global_generate_content_input_tokens_per_minute_per_base_model definiert das TPM-Eingabekontingent und global_generate_content_output_tokens_per_minute_per_base_model das TPM-Ausgabekontingent.

Auf den jeweiligen Modellseiten finden Sie Informationen dazu, bei welchen Modellen Eingabe- und Ausgabetokens separat gezählt werden.

Nächste Schritte