xAI Grok-Modelle

xAI Grok-Modelle sind als verwaltete APIs in Vertex AI verfügbar. Sie können Ihre Antworten streamen, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Eine gestreamte Antwort verwendet Server-Sent Events (SSE), um die Antwort schrittweise zu streamen.

Verwaltete xAI-Modelle

Die folgenden Modelle sind von xAI zur Verwendung in Vertex AI verfügbar. Rufen Sie die zugehörige Model Garden-Modellkarte auf, um auf ein xAI-Modell zuzugreifen.

Grok 4.20 (Reasoning)

Grok 4.20 (Reasoning) ist das Flaggschiffmodell von xAI und zeichnet sich durch eine branchenführend niedrige Halluzinationsrate aus. Kann Aufgaben zum Verständnis von Dokumenten und Tool-Aufrufe mit langer Zeitspanne bewältigen.

Zur Modellkarte „Grok 4.20 (Reasoning)“

Grok 4.20 (Non-Reasoning)

Grok 4.20 (Non-Reasoning) ist das Flaggschiffmodell von xAI ohne Denkprozess und zeichnet sich durch eine branchenführend niedrige Halluzinationsrate aus. Hervorragend geeignet für latenzempfindliche Anwendungsfälle wie Kundensupport und Kategorisierung.

Zur Modellkarte „Grok 4.20 (Non-Reasoning)“

Grok 4.1 Fast (Reasoning)

Grok 4.1 Fast (Reasoning) ist das kostengünstigste Modell von xAI. Es bietet leistungsstarke Funktionen für den Tool-Aufruf und eine effiziente Synthese von Wissensdatenbanken. Hervorragend geeignet für Suchaufgaben mit Webdaten und internen Wissensdatenbank-Tools.

Zur Modellkarte „Grok 4.1 Fast (Reasoning)“

Grok 4.1 Fast (Non-Reasoning)

Grok 4.1 Fast (Non-Reasoning) ist das kostengünstigste Modell von xAI, das nicht für das Ziehen von Schlussfolgerungen optimiert ist. Es bietet eine niedrige Latenz. Hervorragend für Aufgaben mit hohem Volumen wie Zusammenfassung und Kategorisierung.

Zur Modellkarte „Grok 4.1 Fast (Non-Reasoning)“

xAI-Modelle verwenden

Für verwaltete Modelle können Sie curl-Befehle verwenden, um Anfragen mit den folgenden Modellnamen an den Vertex AI-Endpunkt zu senden. Informationen zum Ausführen von Streaming- und Nicht-Streaming-Aufrufen für xAI-Modelle finden Sie unter Open-Model-APIs aufrufen.

Für verwaltete Modelle können Sie curl-Befehle verwenden, um Anfragen mit den folgenden Modellnamen an den Vertex AI-Endpunkt zu senden:

  • Verwenden Sie für Grok 4.20 (Reasoning) grok-4.20-reasoning.
  • Verwenden Sie für Grok 4.20 (Non-Reasoning) grok-4.20-non-reasoning.
  • Für Grok 4.1 Fast (Reasoning) verwenden Sie grok-4.1-fast-reasoning.
  • Verwenden Sie für Grok 4.1 Fast (Non-Reasoning) grok-4.1-fast-non-reasoning.

Grok-Kontingente

Für Grok-Modelle gilt ein globales Kontingent. Das Kontingent wird in Abfragen pro Minute (Queries per minute, QPM) und Tokens pro Minute (Tokens per minute, TPM) angegeben. TPM umfasst sowohl Eingabe- als auch Ausgabetokens.

Um die allgemeine Dienstleistung und die zulässige Nutzung aufrechtzuerhalten, können die maximalen Kontingente je nach Konto variieren. In einigen Fällen kann der Zugriff eingeschränkt werden. Die Kontingente Ihres Projekts finden Sie in der Google Cloud Console auf der Seite Kontingente und Systemlimits. Außerdem müssen die folgenden Kontingente verfügbar sein:

  • global_generate_content_requests_per_minute_per_project_per_base_model definiert Ihr QPM-Kontingent.

  • Für TPM gibt es zwei Kontingentwerte, die für bestimmte Modelle gelten: global_generate_content_input_tokens_per_minute_per_base_model definiert das TPM-Eingabekontingent und global_generate_content_output_tokens_per_minute_per_base_model das TPM-Ausgabekontingent.

Auf den jeweiligen Modellseiten finden Sie Informationen dazu, bei welchen Modellen Eingabe- und Ausgabetokens separat gezählt werden.

Nächste Schritte