Offene Vertex AI-Modelle für MaaS

Vertex AI unterstützt eine ausgewählte Liste von Open-Source-Modellen als verwaltete Modelle. Diese offenen Modelle können mit Vertex AI als Model as a Service (MaaS) verwendet werden und werden als verwaltete API angeboten. Wenn Sie ein verwaltetes offenes Modell verwenden, senden Sie Ihre Anfragen weiterhin an Vertex AI-Endpunkte. Verwaltete offene Modelle sind serverlos, sodass Sie keine Infrastruktur bereitstellen oder verwalten müssen.

Verwaltete offene Modelle können mithilfe von Model Garden gefunden werden. Sie können Modelle auch mit Model Garden bereitstellen. Weitere Informationen finden Sie unter KI-Modelle in Model Garden entdecken.

Bevor Sie offene Modelle verwenden können, müssen Sie Nutzerzugriff auf offene Modelle gewähren.

Offene Modelle

Die folgenden offenen Modelle werden als verwaltete APIs in Vertex AI Model Garden (MaaS) angeboten:

Modellname	Modalität	Beschreibung	Kurzanleitung
DeepSeek-OCR	Sprache, Vision	Ein umfassendes OCR-Modell (Optical Character Recognition, optische Zeichenerkennung), das komplexe Dokumente analysiert und versteht. Sie eignet sich hervorragend für anspruchsvolle OCR-Aufgaben.	Modellkarte
DeepSeek R1 (0528)	Sprache	Die aktuelle Version des DeepSeek R1-Modells von DeepSeek.	Modellkarte
DeepSeek-V3.1	Sprache	Das Hybridmodell von DeepSeek, das sowohl den Thinking-Modus als auch den Nicht-Thinking-Modus unterstützt.	Modellkarte
DeepSeek-V3.2	Sprache	Das Modell von DeepSeek, das hohe Recheneffizienz mit überlegener Problemlösungs- und Agentenleistung in Einklang bringt.	Modellkarte
GLM 4.7	Sprache, Code	Das Modell von GLM, das für Core und Vibe Coding, die Toolnutzung und komplexe Schlussfolgerungen entwickelt wurde.	Modellkarte
gpt-oss 120B	Sprache	Ein 120B-Modell, das bei Aufgaben zur logischen Ableitung eine hohe Leistung bietet.	Modellkarte
gpt-oss 20B	Sprache	Ein 20B-Modell, das für Effizienz und Bereitstellung auf Consumer- und Edge-Hardware optimiert ist.	Modellkarte
Kimi K2 Thinking	Sprache	Ein Open-Source-Thinking-Agent-Modell, das schrittweise Schlussfolgerungen zieht und Tools verwendet, um komplexe Probleme zu lösen.	Modellkarte
Llama 3.3	Sprache	Llama 3.3 ist ein anweisungsorientiertes Modell mit 70 Milliarden Parametern, das nur Text verarbeitet. Es bietet eine verbesserte Leistung im Vergleich zu Llama 3.1 70B und Llama 3.2 90B, wenn es für reine Textanwendungen verwendet wird. Außerdem erreicht Llama 3.3 70B bei einigen Anwendungen die Leistung von Llama 3.1 405B.	Modellkarte
Llama 4 Maverick 17B-128E	Sprache, Vision	Das größte und leistungsstärkste Llama 4-Modell mit Funktionen für Programmierung, Reasoning und Bilder. Llama 4 Maverick 17B-128E ist ein multimodales Modell, das die MoE-Architektur (Mixture of Experts) und Early Fusion verwendet.	Modellkarte
Llama 4 Scout 17B-16E	Sprache, Vision	Llama 4 Scout 17B-16E liefert für seine Größenklasse erstklassige Ergebnisse und übertrifft frühere Llama-Generationen sowie andere offene und proprietäre Modelle bei mehreren Benchmarks. Llama 4 Scout 17B-16E ist ein multimodales Modell, das die MoE-Architektur (Mixture of Experts) und Early Fusion verwendet.	Modellkarte
MiniMax M2	Sprache, Code	Für Agent- und codebezogene Aufgaben konzipiert, mit starken Fähigkeiten bei der Planung und Ausführung komplexer Tool-Aufrufe.	Modellkarte
Qwen3 235B	Sprache	Ein Modell mit offenem Gewicht und der Fähigkeit zum „hybriden Denken“, um zwischen methodischem Denken und schnellen Gesprächen zu wechseln.	Modellkarte
Qwen3 Coder	Sprache, Code	Ein Modell mit offenem Gewicht, das für anspruchsvolle Softwareentwicklungsaufgaben entwickelt wurde.	Modellkarte
Qwen3-Next-80B Instruct	Sprache, Code	Ein Modell aus der Qwen3-Next-Modellfamilie, das auf die Ausführung bestimmter Befehle spezialisiert ist.	Modellkarte
Qwen3-Next-80B Thinking	Sprache, Code	Ein Modell aus der Modellfamilie Qwen3-Next, das auf komplexe Problemlösung und tiefes logisches Denken spezialisiert ist.	Modellkarte

Die folgenden offenen Embedding-Modelle werden als verwaltete APIs in Vertex AI Model Garden (MaaS) angeboten:

Modellname	Beschreibung	Ausgabeabmessungen	Maximale Sequenzlänge	Unterstützte Textsprachen	Kurzanleitung
multilingual-e5-small	Teil der E5-Modellfamilie zur Texteinbettung. Die kleine Variante enthält 12 Ebenen.	Bis zu 384	512 Tokens	Unterstützte Sprachen	Modellkarte
multilingual-e5-large	Teil der E5-Modellfamilie zur Texteinbettung. Die große Variante enthält 24 Ebenen.	Bis zu 1.024	512 Tokens	Unterstützte Sprachen	Modellkarte

Regulierungs-Compliance für Modelle öffnen

Die Zertifizierungen für Generative AI in Vertex AI gelten weiterhin, wenn offene Modelle als verwaltete API mit Vertex AI verwendet werden. Wenn Sie Details zu den Modellen selbst benötigen, finden Sie weitere Informationen in der jeweiligen Modellkarte oder Sie können sich an den jeweiligen Modellpublisher wenden.

Ihre inaktiven Daten werden in der ausgewählten Region oder in mehreren Regionen für offene Modelle in Vertex AI gespeichert. Die Regionalisierung der Datenverarbeitung kann jedoch variieren. Eine detaillierte Liste der Verpflichtungen zur Datenverarbeitung für offene Modelle finden Sie unter Datenstandort für offene Modelle.

Kunden-Prompts und Modellantworten werden bei der Verwendung der Vertex AI API, einschließlich offener Modelle, nicht an Dritte weitergegeben. Google verarbeitet Kundendaten nur gemäß den Anweisungen des Kunden. Weitere Informationen finden Sie im Zusatz zur Verarbeitung von Cloud-Daten.

Kontext-Caching

Das Kontext-Caching trägt dazu bei, die Kosten und Latenz von Anfragen an offene Modelle zu reduzieren, die wiederholte Inhalte enthalten. Dies ist nur bei der Verwendung von Traffic mit nutzungsabhängiger Bezahlung möglich und wird nicht für andere Traffic-Typen wie Provisioned Throughput und Batch unterstützt.

Die unterstützte Art des Caching ist das implizite Caching. Dabei handelt es sich um automatisches Caching, das standardmäßig in allen Google Cloud -Projekten aktiviert ist und bei Cache-Treffern einen Rabatt von 90 % auf gecachte Tokens im Vergleich zu Standard-Eingabetokens bietet. Bei dieser Art von Caching definieren und rufen Sie die Caches nicht explizit auf. Stattdessen werden die Informationen aus diesen Caches abgerufen, sobald wiederholter Kontext erkannt wird.

Unterstützte Modelle

qwen3-coder-480b-a35b-instruct-maas
kimi-k2-thinking-maas
minimax-m2-maas
gpt-oss-20b-maas
deepseek-v3.1-maas
deepseek-v3.2-maas

Das Feld cachedContentTokenCount in den Metadaten Ihrer Antwort gibt die Anzahl der Tokens im zwischengespeicherten Teil Ihrer Eingabe an. Caching-Anfragen müssen mindestens 4.096 Tokens enthalten. Diese Mindestanzahl kann sich während der Vorabversion ändern.

Wenn diese Option aktiviert ist, werden die Kosteneinsparungen durch implizite Cache-Treffer automatisch an Sie weitergegeben. Cache-Treffer sind nicht garantiert und hängen von gesendeten Anfragen und anderen Faktoren ab. So können Sie die Wahrscheinlichkeit eines impliziten Cache-Treffers erhöhen:

Platzieren Sie große und allgemeine Inhalte am Anfang Ihres Prompts.
Anfragen mit einem ähnlichen Präfix werden innerhalb kurzer Zeit gesendet.

Nächste Schritte

Bevor Sie offene Modelle verwenden, müssen Sie Nutzern Zugriff auf offene Modelle gewähren.
Informationen zum Aufrufen von APIs für offene Modelle