Die Gemini Enterprise Agent Platform unterstützt eine ausgewählte Liste von Modellen, die von Google-Partnern entwickelt wurden. Partnermodelle können mit der Gemini Enterprise Agent Platform als Model as a Service (MaaS) verwendet werden und werden als verwaltete API angeboten. Wenn Sie ein Partnermodell verwenden, senden Sie Ihre Anfragen weiterhin an Endpunkte der Gemini Enterprise Agent Platform. Partnermodelle sind serverlos, sodass Sie keine Infrastruktur bereitstellen oder verwalten müssen.
Partnermodelle können mithilfe von Model Garden gefunden werden. Sie können Modelle auch mit Model Garden bereitstellen. Weitere Informationen finden Sie unter KI-Modelle in Model Garden entdecken. Informationen zu jedem verfügbaren Partnermodell finden Sie auf der Modellkarte in Model Garden. In dieser Anleitung sind nur Drittanbietermodelle, die als MaaS mit der Gemini Enterprise Agent Platform funktionieren, dokumentiert.
Die Claude-Modelle von Anthropic und die Mistral-Modelle sind Beispiele für von Drittanbietern verwaltete Modelle, die mit der Gemini Enterprise Agent Platform verwendet werden können.
Partnermodelle
Die folgenden Partnermodelle werden als verwaltete APIs im Gemini Enterprise Agent Platform Model Garden (MaaS) angeboten:
| Modellname | Modalität | Beschreibung | Kurzanleitung |
|---|---|---|---|
| Grok 4.3 (Vorschau) | Sprache | Das leistungsstarke Modell von xAI. | Modellkarte |
| Grok 4.20 (Reasoning) (Vorschau) | Sprache | Grok 4.20 (Reasoning) ist ein leistungsstarkes Modell von xAI, das sich durch eine branchenweit führende, niedrige Halluzinationsrate auszeichnet. Kann Aufgaben zum Verständnis von Dokumenten und zum Aufrufen von Agent-Tools mit langem Horizont bewältigen. | Modellkarte |
| Grok 4.20 (ohne Schlussfolgerung) (Vorschau) | Sprache | Grok 4.20 (Non-Reasoning) ist ein leistungsstarkes Modell von xAI ohne Reasoning-Funktion, das sich durch eine branchenweit führende, niedrige Halluzinationsrate auszeichnet. Hervorragend geeignet für latenzempfindliche Anwendungsfälle wie Kundensupport und Kategorisierung. | Modellkarte |
| Grok 4.1 Fast (Reasoning) (Vorschau) | Sprache | Grok 4.1 Fast (Reasoning) ist das kostengünstigste Modell von xAI mit leistungsstarken Funktionen zum Aufrufen von Tools und effizienter Synthese von Wissensdatenbanken. Er ist hervorragend für Suchaufgaben geeignet, die Webdaten und interne Wissensdatenbank-Tools umfassen. | Modellkarte |
| Grok 4.1 Fast (ohne Begründung) (Vorabversion) | Sprache | Grok 4.1 Fast (Non-Reasoning) ist das kosteneffizienteste Modell von xAI ohne Thinking-Funktion, optimiert für niedrige Latenz. Hervorragend für Aufgaben mit hohem Datenvolumen wie Zusammenfassung und Kategorisierung geeignet. | Modellkarte |
| Claude Opus 4.8 | Sprache, Vision | Claude Opus 4.8 ist ein hochintelligentes Opus-Modell, das für die Programmierung und Agenten entwickelt wurde und ein besseres Reasoning für Unternehmensworkflows bietet. | Modellkarte |
| Claude Opus 4.7 | Sprache, Vision | Claude Opus 4.7 ist ein Modell mit hoher Intelligenz von Anthropic und branchenführend in den Bereichen Programmierung, Agenten, Computernutzung und Unternehmensworkflows. | Modellkarte |
| Claude 4.6 Sonnet | Sprache, Vision | Claude Sonnet 4.6 bietet erstklassige Intelligenz in großem Umfang – speziell für die Programmierung, Agenten und Unternehmensworkflows. | Modellkarte |
| Claude Opus 4.6 | Sprache, Vision | Claude Opus 4.6 ist ein Modell mit hoher Intelligenz von Anthropic und branchenführend in den Bereichen Programmierung, Agenten, Computernutzung und Unternehmensworkflows. | Modellkarte |
| Claude Opus 4.5 | Sprache, Vision | Claude Opus 4.5 ist ein hochintelligentes Modell von Anthropic und branchenführend in den Bereichen Programmierung, Agenten, Computernutzung und Unternehmensworkflows. | Modellkarte |
| Claude Sonnet 4.5 | Sprache, Vision | Das mittelgroße Modell von Anthropic für die Unterstützung von KI-Agenten in der realen Welt mit Funktionen für die Programmierung, Computernutzung, Cybersicherheit und die Arbeit mit Office-Dateien wie Tabellenkalkulationen. | Modellkarte |
| Claude Opus 4.1 | Sprache, Vision | Ein Branchenführer für Programmierung. Sie bietet eine nachhaltige Leistung bei langwierigen Aufgaben, die konzentrierte Anstrengung und Tausende von Schritten erfordern. Dadurch wird das Spektrum der Aufgaben, die KI-Agenten lösen können, erheblich erweitert. Ideal für die Entwicklung von Agentenprodukten und ‑funktionen der nächsten Generation. | Modellkarte |
| Claude Haiku 4.5 | Sprache, Vision | Claude Haiku 4.5 bietet eine Leistung, die fast an die von Frontier-Modellen heranreicht, und das für eine Vielzahl von Anwendungsfällen. Es ist eines der besten Modelle für die Programmierung weltweit – mit der richtigen Geschwindigkeit und den richtigen Kosten für kostenlose Produkte und Nutzererfahrungen mit hohem Volumen. | Modellkarte |
| Claude Opus 4 | Sprache, Vision | Claude Opus 4 bietet eine nachhaltige Leistung bei langwierigen Aufgaben, die konzentrierten Aufwand und Tausende von Schritten erfordern. Dadurch wird das Spektrum der Aufgaben, die KI-Agents lösen können, erheblich erweitert. | Modellkarte |
| Claude Sonnet 4 | Sprache, Vision | Das mittelgroße Modell von Anthropic mit überlegener Intelligenz für den umfangreichen Einsatz, z. B. in den Bereichen Programmierung, eingehende Recherche und KI-Agenten. | Modellkarte |
| Claude 3.5 Sonnet v2 von Anthropic | Sprache, Vision | Claude 3.5 Sonnet ist ein leistungsstarkes Modell für reale Softwareentwicklungsaufgaben und agentische Funktionen. Claude 3.5 Sonnet bietet diese Verbesserungen zum gleichen Preis und mit der gleichen Geschwindigkeit wie sein Vorgänger. | Modellkarte |
| Anthropic Claude 3.5 Sonnet | Sprache | Claude 3.5 Sonnet übertrifft Claude 3 Opus von Anthropic in einer Vielzahl von Bewertungen von Anthropic mit der Geschwindigkeit und den Kosten des Mid-Tier-Modells von Anthropic, Claude 3 Sonnet. | Modellkarte |
| Jamba 1.5 Large (Vorschau) | Sprache | Jamba 1.5 Large von AI21 Labs wurde für Antworten von höchster Qualität, hohen Durchsatz und wettbewerbsfähige Preise im Vergleich zu anderen Modellen seiner Größenklasse entwickelt. | Modellkarte |
| Jamba 1.5 Mini (Vorschau) | Sprache | Jamba 1.5 Mini von AI21 Labs bietet ein gutes Gleichgewicht zwischen Qualität, Durchsatz und niedrigen Kosten. | Modellkarte |
| Mistral Medium 3 | Sprache | Mistral Medium 3 ist ein vielseitiges Modell, das für eine Vielzahl von Aufgaben entwickelt wurde, darunter Programmierung, mathematisches Denken, das Verstehen langer Dokumente, Zusammenfassung und Dialog. | Modellkarte |
| Mistral OCR (25.05) | Sprache, Vision | Mistral OCR (25.05) ist eine API zur optischen Zeichenerkennung (Optical Character Recognition, OCR) für das Dokumentverständnis. Das Modell erfasst jedes Element von Dokumenten, z. B. Medien, Text, Tabellen und Gleichungen. | Modellkarte |
| Mistral Small 3.1 (25.03) | Sprache | Mistral Small 3.1 (25.03) ist eine Version des Small-Modells von Mistral mit multimodalen Funktionen und einer erweiterten Kontextlänge. | Modellkarte |
| Codestral 2 | Sprache, Code | Codestral 2 ist das auf Codegenerierung spezialisierte Modell von Mistral, das speziell für die hochpräzise FIM-Vervollständigung (Fill-in-the-Middle) entwickelt wurde. Es unterstützt Entwickler beim Schreiben von Code und bei der Interaktion mit Code über einen gemeinsamen API-Endpunkt für Anweisungen und Vervollständigungen. | Modellkarte |
Partnermodelle mit dem Gen AI Evaluation Service bewerten
Der Gen AI Evaluation Service unterstützt die Bewertung von Partnermodellen wie Anthropic- und Llama-Modellen. Die Bewertung von Partnermodellen wird über Model Garden unterstützt. Sie müssen das Modell also aktivieren, bevor Sie Bewertungen für ein Partnermodell ausführen.
Weitere Informationen finden Sie unter Bewertung über die Console durchführen.
Partnermodellpreise für die Gemini Enterprise Agent Platform mit Kapazitätsgarantie
Google bietet einen bereitgestellten Durchsatz für Partnermodelle, der den Durchsatz für Ihre Modelle zu einer festen Gebühr reserviert. Sie entscheiden über die Durchsatzkapazität und in welchen Regionen diese Kapazität reserviert werden soll. Weil Anfragen zum bereitgestellten Durchsatz Vorrang vor den standardmäßigen "Pay as you go"-Anfragen haben, bietet bereitgestellter Durchsatz eine höhere Verfügbarkeit. Wenn das System überlastet ist, können Anfragen weiterhin abgeschlossen werden, solange der Durchsatz unter der der reservierten Durchsatzkapazität bleibt. Wenn Sie weitere Informationen wünschen oder den Dienst abonnieren möchten, wenden Sie sich an den Vertrieb.
Regionale, globale und multiregionale Endpunkte
Bei regionalen Endpunkten werden Anfragen aus der von Ihnen angegebenen Region bearbeitet. Wenn Sie Anforderungen an den Datenstandort haben oder ein Modell den globalen Endpunkt nicht unterstützt, verwenden Sie die regionalen Endpunkte.
Wenn Sie den globalen Endpunkt verwenden, kann Google Ihre Anfragen in jeder Region verarbeiten und bereitstellen, die vom verwendeten Modell unterstützt wird. Dies kann in einigen Fällen zu einer höheren Latenz führen. Der globale Endpunkt trägt dazu bei, die allgemeine Verfügbarkeit zu verbessern und Fehler zu reduzieren.
Multiregionale Endpunkte ermöglichen den hochverfügbaren Zugriff auf Partnermodelle und sorgen gleichzeitig dafür, dass die Daten in einer größeren geografischen Einheit wie den USA verbleiben.
Je nach ausgewähltem Endpunkttyp gibt es einen Preisunterschied. Weitere Informationen zu Kontingenten und Funktionen finden Sie auf der entsprechenden Seite des Drittanbietermodells.
Globaler Endpunkt
Wenn Sie den globalen Endpunkt verwenden möchten, legen Sie die Region auf global fest.
Die Anfrage-URL für einen curl-Befehl hat beispielsweise das folgende Format:
https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/PUBLISHER_NAME/models/MODEL_NAME
Für das Agent Platform SDK ist ein regionaler Endpunkt die Standardeinstellung. Legen Sie die Region auf GLOBAL fest, um den globalen Endpunkt zu verwenden.
Unterstützte Modelle für den globalen Endpunkt
Der globale Endpunkt ist für die folgenden Modelle verfügbar:
- Claude Opus 4.8
- Claude Opus 4.7
- Claude Opus 4.6
- Claude Sonnet 4.6
- Claude Opus 4.5
- Claude Opus 4.1
- Claude Opus 4
- Claude Sonnet 4.5
- Claude Sonnet 4
- Claude 3.7 Sonnet
- Claude 3.5 Sonnet v2
- Claude Haiku 4.5
- Grok 4.1 Fast
- Grok 4.20
- Grok 4.3
Nutzung globaler API-Endpunkt einschränken
Um die Verwendung regionaler Endpunkte zu erzwingen, können Sie die Einschränkung der Organisationsrichtlinie constraints/gcp.restrictEndpointUsage verwenden, um Anfragen an den globalen API-Endpunkt zu blockieren. Weitere Informationen finden Sie unter Endpunktnutzung einschränken.
Multiregionaler Endpunkt
Multiregionale Endpunkte ermöglichen den Zugriff auf Partnermodelle mit hoher Verfügbarkeit und sorgen gleichzeitig dafür, dass die Daten in einem größeren geografischen Gebiet wie den USA oder der Europäischen Union verbleiben.
Wählen Sie den entsprechenden Tab für die Multiregion aus, die Sie verwenden möchten:
USA
Wenn Sie den multiregionalen Endpunkt für die USA verwenden möchten, legen Sie die Endpunkt-URL auf aiplatform.us.rep.googleapis.com fest.
Die Anfrage-URL für einen curl-Befehl hat das folgende Format:
https://aiplatform.us.rep.googleapis.com/v1/projects/PROJECT_ID/locations/us/publishers/anthropic/models/MODEL_NAME
EU
Wenn Sie den multiregionalen Endpunkt für die EU verwenden möchten, legen Sie die Endpunkt-URL auf aiplatform.eu.rep.googleapis.com fest.
Die Anfrage-URL für einen curl-Befehl hat das folgende Format:
https://aiplatform.eu.rep.googleapis.com/v1/projects/PROJECT_ID/locations/eu/publishers/anthropic/models/MODEL_NAME
Weitere Informationen zum MODEL_NAME-Format finden Sie in der Anthropic-Dokumentation.
Unterstützte Modelle für den multiregionalen Endpunkt:
Die folgenden Modelle werden unterstützt. Verwenden Sie die vollständige Modell-ID, einschließlich des Versionsdatums, sofern zutreffend.
| Modell | API-Modell-ID |
|---|---|
claude-opus-4-8 |
claude-opus-4-8 |
claude-opus-4-7 |
claude-opus-4-7 |
Beispielanfrage:
So rufen Sie den multiregionalen Endpunkt mit curl auf:
export PROJECT_ID="YOUR_PROJECT_ID"
# Example using claude-opus-4-7
# Option 1: US Region
export LOCATION="us"
export ENDPOINT="aiplatform.us.rep.googleapis.com"
# Option 2: EU Region
# export LOCATION="eu"
# export ENDPOINT="aiplatform.eu.rep.googleapis.com"
export MODEL_ID="claude-opus-4-7"
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "Content-Type: application/json" \
"https://${ENDPOINT}/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:rawPredict" \
-d '{
"max_tokens": 300,
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "Why is the sky blue?"
}
]
}
],
"anthropic_version": "vertex-2023-10-16"
}'
Multiregionale Kontingente:
Es gelten dedizierte multiregionale Kontingente. Sie können diese Standardkontingentwerte in der Google Cloud Console ansehen und Erhöhungen anfordern.
Beispiele für US-Kontingente:
UsOnlinePredictionInputTokensPerMinutePerBaseModelUsOnlinePredictionOutputTokensPerMinutePerBaseModelUsOnlinePredictionRequestsPerMinPerProjectPerBaseModelUsOnlinePredictionWebSearchRequestsPerProjectPerPublisher
Beispiele für EU-Kontingente:
EuOnlinePredictionInputTokensPerMinutePerBaseModelEuOnlinePredictionOutputTokensPerMinutePerBaseModelEuOnlinePredictionRequestsPerMinPerProjectPerBaseModelEuOnlinePredictionWebSearchRequestsPerProjectPerPublisher
Nutzern Zugriff auf Partnermodelle gewähren
Damit Sie Partnermodelle aktivieren und eine Prompts-Anfrage stellen können, muss ein Google CloudAdministrator die erforderlichen Berechtigungen festlegen und bestätigen, dass die Organisationsrichtlinie die Verwendung der erforderlichen APIs zulässt.
Erforderliche Berechtigungen zum Verwenden von Partnermodellen festlegen
Die folgenden Rollen und Berechtigungen sind für die Verwendung von Partnermodellen erforderlich:
Sie benötigen die IAM-Rolle „Manager von Nutzer-Beschaffungsberechtigungen“ (Identity and Access Management). Nutzer, denen diese Rolle zugewiesen wurde, können Partnermodelle in Model Garden aktivieren.
Sie benötigen die Berechtigung
aiplatform.endpoints.predict. Diese Berechtigung ist in der IAM-Rolle „Agent Platform User“ enthalten. Weitere Informationen finden Sie unter Gemini Enterprise Agent Platform-Nutzer und Zugriffssteuerung.
Console
Um einem Nutzer die IAM-Rollen für Manager von Nutzer-Beschaffungsberechtigungen zuzuweisen, rufen Sie die Seite IAM auf.
Suchen Sie in der Spalte Hauptkonto das Nutzer-Hauptkonto, für das Sie den Zugriff auf Partner-Modelle aktivieren möchten, und klicken Sie dann in dieser Zeile auf Hauptkonto bearbeiten.
Klicken Sie im Bereich Berechtigungen bearbeiten auf Weitere Rolle hinzufügen.
Wählen Sie unter Rolle auswählen die Option Consumer Procurement Entitlement Manager aus.
Klicken Sie im Bereich Zugang bearbeiten auf Weitere Rolle hinzufügen.
Wählen Sie unter Rolle auswählen die Option Agent Platform User (Nutzer der Agent-Plattform) aus.
Klicken Sie auf Speichern.
gcloud
-
Aktivieren Sie Cloud Shell in der Google Cloud Console.
Rolle „Manager von Nutzer-Beschaffungsberechtigungen“ zuweisen, die zum Aktivieren von Partnermodellen in Model Garden erforderlich ist
gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/consumerprocurement.entitlementManagerErteilen Sie die Rolle „Agent Platform-Nutzer“, die die
aiplatform.endpoints.predict-Berechtigung enthält, die zum Senden von Prompts erforderlich ist:gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/aiplatform.userErsetzen Sie
PRINCIPALdurch die Kennung des Hauptkontos. Die Kennung hat das Formatuser|group|serviceAccount:emailoderdomain:domain, z. B.user:cloudysanfrancisco@gmail.com,group:admins@example.com,serviceAccount:test123@example.domain.comoderdomain:example.domain.com.Es wird eine Liste von Richtlinienbindungen ausgegeben, die Folgendes enthält:
- members: - user:PRINCIPAL role: roles/roles/consumerprocurement.entitlementManagerWeitere Informationen finden Sie unter Einzelne Rolle zuweisen und
gcloud projects add-iam-policy-binding.
Organisationsrichtlinie für den Zugriff auf Partnermodelle festlegen
Damit Partnermodelle aktiviert werden können, muss in Ihrer Organisationsrichtlinie die folgende API zugelassen sein: Cloud Commerce Consumer Procurement API – cloudcommerceconsumerprocurement.googleapis.com
Wenn Ihre Organisation eine Organisationsrichtlinie zum Einschränken der Dienstnutzung festlegt, muss ein Organisationsadministrator bestätigen, dass cloudcommerceconsumerprocurement.googleapis.com durch Festlegen der Organisationsrichtlinie zulässig ist.
Wenn Sie eine Organisationsrichtlinie haben, die die Modellnutzung in Model Garden einschränkt, muss die Richtlinie den Zugriff auf Partnermodelle zulassen. Weitere Informationen finden Sie unter Zugriff auf Kontrollmodell steuern.
Einhaltung regulatorischer Anforderungen für Partnermodelle
Die Zertifizierungen für generative KI auf der Gemini Enterprise Agent Platform gelten weiterhin, wenn Partnermodelle als verwaltete API über die Gemini Enterprise Agent Platform verwendet werden. Wenn Sie Details zu den Modellen selbst benötigen, finden Sie weitere Informationen in der jeweiligen Modellkarte. Sie können sich auch an den jeweiligen Modellpublisher wenden.
Ihre Daten werden im Ruhezustand in der ausgewählten Region oder Multiregion für Partnermodelle auf der Gemini Enterprise Agent Platform gespeichert. Die Regionalisierung der Datenverarbeitung kann jedoch variieren. Eine detaillierte Liste der Verpflichtungen zur Datenverarbeitung von Partnermodellen finden Sie unter Datenstandort für Partnermodelle.
Kunden-Prompts und Modellantworten werden bei Verwendung der Gemini Enterprise API nicht an Dritte weitergegeben, auch nicht an Partnermodelle. Google verarbeitet Kundendaten nur gemäß den Anweisungen des Kunden. Weitere Informationen finden Sie im Zusatz zur Verarbeitung von Cloud-Daten.