Kimi-Modelle in Vertex AI bieten vollständig verwaltete und serverlose Modelle als APIs. Wenn Sie ein Kimi-Modell für Vertex AI verwenden möchten, senden Sie eine Anfrage direkt an den API-Endpunkt von Vertex AI. Da Kimi-Modelle eine verwaltete API verwenden, muss keine Infrastruktur bereitgestellt oder verwaltet werden.
Sie können Ihre Antworten streamen, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Eine gestreamte Antwort verwendet Server-Sent Events (SSE), um die Antwort schrittweise zu streamen.
Verfügbare Kimi-Modelle
Die folgenden Modelle sind von Kimi zur Verwendung in Vertex AI verfügbar. Rufen Sie die zugehörige Model Garden-Modellkarte auf, um auf ein Kimi-Modell zuzugreifen.
Kimi K2 Thinking
Kimi K2 Thinking ist ein Thinking Model von Kimi, das sich durch komplexes Problemlösen und tiefes logisches Denken auszeichnet.
Zur Modellkarte „Kimi K2 Thinking“
Kimi-Modelle verwenden
Sie können curl-Befehle verwenden, um Anfragen mit den folgenden Modellnamen an den Vertex AI-Endpunkt zu senden:
- Verwenden Sie für Kimi K2 Thinking
kimi-k2-thinking-maas.
Informationen zum Senden von Streaming- und Nicht-Streaming-Aufrufen an Kimi-Modelle finden Sie unter Open-Model-APIs aufrufen.
Verfügbarkeit und Kontingente der Kimi-Modellregion
Bei Kimi-Modellen gilt ein Kontingent für jede Region, in der das Modell verfügbar ist. Das Kontingent wird in Abfragen pro Minute (Queries per minute, QPM) angegeben.
| Modell | Region | Kontingente | Kontextlänge |
|---|---|---|---|
| Kimi K2 Thinking | |||
global |
|
262144 |
Wenn Sie eines der Kontingente für generative KI auf Vertex AI erhöhen möchten, können Sie über die Google Cloud Console eine Kontingenterhöhung anfordern. Weitere Informationen zu Kontingenten finden Sie unter Cloud-Kontingente – Übersicht.