DeepSeek-Modelle in Vertex AI bieten vollständig verwaltete und serverlose Modelle als APIs. Wenn Sie ein DeepSeek-Modell für Vertex AI verwenden möchten, senden Sie eine Anfrage direkt an den API-Endpunkt von Vertex AI. Da DeepSeek-Modelle eine verwaltete API verwenden, muss keine Infrastruktur bereitgestellt oder verwaltet werden.
Sie können Ihre Antworten streamen, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Eine gestreamte Antwort verwendet Server-Sent Events (SSE), um die Antwort schrittweise zu streamen.
Verfügbare DeepSeek-Modelle
Die folgenden Modelle sind von DeepSeek zur Verwendung in Vertex AI verfügbar. Rufen Sie die zugehörige Model Garden-Modellkarte auf, um auf ein DeepSeek-Modell zuzugreifen.
DeepSeek-V3.1
DeepSeek-V3.1 ist ein Hybridmodell, das sowohl den Denkmodus als auch den Nicht-Denkmodus unterstützt. Im Vergleich zur vorherigen Version bietet dieses Upgrade Verbesserungen bei hybriden Denkmodi, Tool-Aufrufen und der Effizienz des Denkprozesses.
Zur Modellkarte „DeepSeek-V3.1“
DeepSeek R1 (0528)
DeepSeek R1 (0528) ist die neueste Version des DeepSeek R1-Modells. Im Vergleich zu DeepSeek-R1 hat es eine deutlich verbesserte Tiefe der Argumentation und der Inferenz. DeepSeek R1 (0528) eignet sich für eine Vielzahl von Aufgaben, z. B. kreatives Schreiben, allgemeine Fragen und Antworten, Bearbeiten und Zusammenfassen.
Hinweise
- Für produktionsreife Sicherheit integrieren Sie DeepSeek R1 (0528) mit Model Armor, das LLM-Prompts und ‑Antworten auf verschiedene Sicherheitsrisiken prüft.
Zur Modellkarte „DeepSeek R1 (0528)“
DeepSeek-Modelle verwenden
Sie können curl-Befehle verwenden, um Anfragen mit den folgenden Modellnamen an den Vertex AI-Endpunkt zu senden:
- Verwenden Sie für DeepSeek-V3.1
deepseek-v3.1-maas
. - Verwenden Sie für DeepSeek R1 (0528)
deepseek-r1-0528-maas
.
Informationen dazu, wie Sie Streaming- und Nicht-Streaming-Aufrufe an DeepSeek-Modelle senden, finden Sie unter Open Model APIs aufrufen.
Verfügbarkeit und Kontingente der DeepSeek-Modellregion
Bei DeepSeek-Modellen gilt ein Kontingent für jede Region, in der das Modell verfügbar ist. Das Kontingent wird in Abfragen pro Minute (Queries per minute, QPM) angegeben.
Modell | Region | Kontingente | Kontextlänge |
---|---|---|---|
DeepSeek-V3.1 | |||
us-west2 |
|
163.840 | |
DeepSeek R1 (0528) | |||
us-central1 |
|
163.840 |
Wenn Sie eines der Kontingente für generative KI auf Vertex AI erhöhen möchten, können Sie über die Google Cloud Console eine Kontingenterhöhung anfordern. Weitere Informationen zu Kontingenten finden Sie in der Übersicht über Cloud-Kontingente.