Gemini Enterprise Agent Platform supporta un elenco selezionato di modelli sviluppati dai partner di Google. I modelli partner possono essere utilizzati con Gemini Enterprise Agent Platform come modello as a service (MaaS) e sono offerti come API gestita. Quando utilizzi un modello partner, continui a inviare le richieste agli endpoint di Gemini Enterprise Agent Platform. I modelli partner sono serverless, quindi non è necessario eseguire il provisioning o gestire l'infrastruttura.
I modelli partner possono essere scoperti utilizzando Model Garden. Puoi anche eseguire il deployment dei modelli utilizzando Model Garden. Per ulteriori informazioni, consulta Esplora i modelli di AI in Model Garden. Sebbene le informazioni su ogni modello partner disponibile siano reperibili nella relativa scheda del modello in Model Garden, in questa guida sono documentati solo i modelli di terze parti che funzionano come MaaS con Gemini Enterprise Agent Platform.
I modelli Claude e Mistral di Anthropic sono esempi di modelli gestiti di terze parti che sono disponibili per l'uso su Gemini Enterprise Agent Platform.
Modelli di partner
I seguenti modelli partner sono offerti come API gestite su Gemini Enterprise Agent Platform Model Garden (MaaS):
| Nome modello | Modalità | Descrizione | Guida rapida |
|---|---|---|---|
| Grok 4.3 (anteprima) | Lingua | Modello ad alte prestazioni di xAI. | Scheda del modello |
| Grok 4.20 (Reasoning) (anteprima) | Lingua | Grok 4.20 (Reasoning) è un modello ad alte prestazioni di xAI, che vanta il tasso di allucinazione più basso del settore. Eccelle nelle attività di comprensione dei documenti e nelle chiamate di strumenti agentici a lungo termine. | Scheda del modello |
| Grok 4.20 (senza ragionamento) (anteprima) | Lingua | Grok 4.20 (Non-Reasoning) è un modello non pensante ad alte prestazioni di xAI, caratterizzato da un tasso di allucinazione basso leader del settore. Eccelle in casi d'uso sensibili alla latenza come l'assistenza clienti e la categorizzazione. | Scheda del modello |
| Grok 4.1 Fast (Reasoning) (anteprima) | Lingua | Grok 4.1 Fast (Reasoning) è il modello più conveniente di xAI, con solide funzionalità di chiamata degli strumenti e sintesi efficiente della knowledge base. Eccelle nelle attività di ricerca che coinvolgono dati web e strumenti della knowledge base interna. | Scheda del modello |
| Grok 4.1 Fast (senza ragionamento) (anteprima) | Lingua | Grok 4.1 Fast (Non-Reasoning) è il modello non basato sul ragionamento più conveniente di xAI, ottimizzato per prestazioni a bassa latenza. Eccelle in attività ad alto volume come il riassunto e la categorizzazione. | Scheda del modello |
| Claude Opus 4.8 | Lingua, vista | Claude Opus 4.8 è un modello Opus ad alta intelligenza creato per la programmazione e gli agenti, con un ragionamento più approfondito per i workflow aziendali. | Scheda del modello |
| Claude Opus 4.7 | Lingua, vista | Claude Opus 4.7 è un modello di intelligenza elevata di Anthropic e leader del settore per programmazione, agenti, utilizzo di computer e workflow aziendali. | Scheda del modello |
| Claude Sonnet 4.6 | Lingua, vista | Claude Sonnet 4.6 offre un'intelligenza all'avanguardia su larga scala, pensata per programmazione, agenti e workflow aziendali. | Scheda del modello |
| Claude Opus 4.6 | Lingua, vista | Claude Opus 4.6 è un modello di intelligenza elevata di Anthropic e un leader del settore per programmazione, agenti, utilizzo di computer e workflow aziendali. | Scheda del modello |
| Claude Opus 4.5 | Lingua, vista | Claude Opus 4.5 è un modello di intelligenza elevata di Anthropic e un leader del settore per programmazione, agenti, utilizzo del computer e workflow aziendali. | Scheda del modello |
| Claude Sonnet 4.5 | Lingua, vista | Il modello di medie dimensioni di Anthropic per alimentare agenti reali, con funzionalità di programmazione, utilizzo del computer, sicurezza informatica e gestione di file di Office come fogli di lavoro. | Scheda del modello |
| Claude Opus 4.1 | Lingua, vista | Un leader del settore per la programmazione. Offre prestazioni costanti per attività di lunga durata che richiedono impegno e migliaia di passaggi, ampliando notevolmente ciò che gli agenti AI possono risolvere. Ideale per alimentare prodotti e funzionalità di agenti di frontiera. | Scheda del modello |
| Claude Haiku 4.5 | Lingua, vista | Claude Haiku 4.5 offre prestazioni quasi di frontiera per un'ampia gamma di casi d'uso e si distingue come uno dei migliori modelli di codifica al mondo, con la giusta velocità e il giusto costo per alimentare prodotti senza costi ed esperienze utente ad alto volume. | Scheda del modello |
| Claude Opus 4 | Lingua, vista | Claude Opus 4 offre prestazioni costanti per attività di lunga durata che richiedono uno sforzo mirato e migliaia di passaggi, ampliando notevolmente ciò che gli agenti AI possono risolvere. | Scheda del modello |
| Claude Sonnet 4 | Lingua, vista | Il modello di medie dimensioni di Anthropic con un'intelligenza superiore per utilizzi ad alto volume, come programmazione, ricerca approfondita e agenti. | Scheda del modello |
| Claude 3.5 Sonnet v2 di Anthropic | Lingua, vista | Claude 3.5 Sonnet è un modello ad alte prestazioni per attività di ingegneria del software nel mondo reale e capacità agentiche. Claude 3.5 Sonnet offre questi miglioramenti allo stesso prezzo e alla stessa velocità del suo predecessore. | Scheda del modello |
| Claude 3.5 Sonnet di Anthropic | Lingua | Claude 3.5 Sonnet offre prestazioni migliori rispetto a Claude 3 Opus di Anthropic su un'ampia gamma di valutazioni di Anthropic con la velocità e il costo del modello di livello intermedio di Anthropic, Claude 3 Sonnet. | Scheda del modello |
| Jamba 1.5 Large (anteprima) | Lingua | Jamba 1.5 Large di AI21 Labs è progettato per risposte di qualità superiore, throughput elevato e prezzi competitivi rispetto ad altri modelli della stessa classe di dimensioni. | Scheda del modello |
| Jamba 1.5 Mini (anteprima) | Lingua | Jamba 1.5 Mini di AI21 Labs offre un buon equilibrio tra qualità, velocità effettiva e costi ridotti. | Scheda del modello |
| Mistral Medium 3 | Lingua | Mistral Medium 3 è un modello versatile progettato per un'ampia gamma di attività, tra cui programmazione, ragionamento matematico, comprensione di documenti lunghi, riepilogo e dialogo. | Scheda del modello |
| OCR Mistral (25/05) | Lingua, vista | Mistral OCR (25.05) è un'API di riconoscimento ottico dei caratteri per la comprensione dei documenti. Il modello comprende ogni elemento dei documenti, come contenuti multimediali, testo, tabelle ed equazioni. | Scheda del modello |
| Mistral Small 3.1 (25.03) | Lingua | Mistral Small 3.1 (25/03) è una versione del modello Small di Mistral, con funzionalità multimodali e finestra contestuale estesa. | Scheda del modello |
| Codestral 2 | Lingua, codice | Codestral 2 è il modello specializzato di generazione di codice di Mistral creato appositamente per il completamento di tipo fill-in-the-middle (FIM) di alta precisione che aiuta gli sviluppatori a scrivere e interagire con il codice tramite un endpoint API di istruzioni e completamento condiviso. | Scheda del modello |
Valutare i modelli partner utilizzando Gen AI evaluation service
Il servizio di valutazione dell'AI generativa supporta la valutazione dei modelli partner, come i modelli Anthropic e Llama. La valutazione dei modelli partner è supportata tramite Model Garden, quindi devi attivare il modello prima di eseguire le valutazioni su un modello partner.
Per saperne di più, consulta Eseguire la valutazione utilizzando la console.
Prezzi del modello partner di Gemini Enterprise Agent Platform con garanzia di capacità
Google offre il throughput sottoposto a provisioning per alcuni modelli partner che riserva la capacità di throughput per i tuoi modelli a una tariffa fissa. Decidi la capacità di throughput e in quali regioni riservarla. Poiché le richieste di throughput di cui è stato eseguito il provisioning hanno la priorità rispetto alle richieste standard con pagamento a consumo, il throughput di cui è stato eseguito il provisioning offre una maggiore disponibilità. Quando il sistema è sovraccarico, le tue richieste possono comunque essere completate purché il throughput rimanga al di sotto della capacità di throughput riservata. Per ulteriori informazioni o per abbonarti al servizio, contatta il team di vendita.
Endpoint regionali, globali e multiregionali
Per gli endpoint regionali, le richieste vengono gestite dalla regione specificata. Nei casi in cui hai requisiti di residenza dei dati o se un modello non supporta l'endpoint globale, utilizza gli endpoint regionali.
Quando utilizzi l'endpoint globale, Google può elaborare e gestire le tue richieste da qualsiasi regione supportata dal modello che stai utilizzando, il che potrebbe comportare una latenza maggiore in alcuni casi. L'endpoint globale contribuisce a migliorare la disponibilità complessiva e a ridurre gli errori.
Gli endpoint multiregionali consentono l'accesso ad alta disponibilità ai modelli partner, mantenendo al contempo la residenza dei dati all'interno di un'area geografica più ampia, come gli Stati Uniti.
Esiste una differenza di prezzo a seconda del tipo di endpoint selezionato. Per ulteriori informazioni su quote e funzionalità, consulta la pagina del modello di terze parti correlato.
Endpoint globale
Per utilizzare l'endpoint globale, imposta la regione su global.
Ad esempio, l'URL della richiesta per un comando curl utilizza il seguente formato:
https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/PUBLISHER_NAME/models/MODEL_NAME
Per l'SDK Agent Platform, un endpoint regionale è l'impostazione predefinita. Imposta la regione su GLOBAL per utilizzare l'endpoint globale.
Modelli supportati per l'endpoint globale
L'endpoint globale è disponibile per i seguenti modelli:
- Claude Opus 4.8
- Claude Opus 4.7
- Claude Opus 4.6
- Claude Sonnet 4.6
- Claude Opus 4.5
- Claude Opus 4.1
- Claude Opus 4
- Claude Sonnet 4.5
- Claude Sonnet 4
- Claude 3.7 Sonnet
- Claude 3.5 Sonnet v2
- Claude Haiku 4.5
- Grok 4.1 Fast
- Grok 4.20
- Grok 4.3
Limitare l'utilizzo degli endpoint API globali
Per contribuire a imporre l'utilizzo di endpoint regionali, utilizza il vincolo delle policy dell'organizzazione constraints/gcp.restrictEndpointUsage per bloccare le richieste all'endpoint API globale. Per saperne di più, consulta Limitare l'utilizzo degli endpoint.
Endpoint multiregionale
Gli endpoint multiregionali consentono l'accesso ad alta disponibilità ai modelli partner, mantenendo al contempo la residenza dei dati all'interno di un'area geografica più ampia, come gli Stati Uniti o l'Unione Europea.
Seleziona la scheda appropriata per la multi-regione che vuoi utilizzare:
US
Per utilizzare l'endpoint multiregionale degli Stati Uniti, imposta l'URL dell'endpoint su aiplatform.us.rep.googleapis.com.
L'URL della richiesta per un comando curl utilizza il seguente formato:
https://aiplatform.us.rep.googleapis.com/v1/projects/PROJECT_ID/locations/us/publishers/anthropic/models/MODEL_NAME
UE
Per utilizzare l'endpoint multiregionale UE, imposta l'URL dell'endpoint su aiplatform.eu.rep.googleapis.com.
L'URL della richiesta per un comando curl utilizza il seguente formato:
https://aiplatform.eu.rep.googleapis.com/v1/projects/PROJECT_ID/locations/eu/publishers/anthropic/models/MODEL_NAME
Per saperne di più sul formato MODEL_NAME, consulta la documentazione di Anthropic.
Modelli supportati per l'endpoint multiregionale:
Sono supportati i seguenti modelli. Utilizza l'ID modello completo, inclusa la data della versione, se applicabile.
| Modello | ID modello API |
|---|---|
claude-opus-4-8 |
claude-opus-4-8 |
claude-opus-4-7 |
claude-opus-4-7 |
Richiesta di esempio:
Ecco come puoi chiamare l'endpoint multiregionale utilizzando curl:
export PROJECT_ID="YOUR_PROJECT_ID"
# Example using claude-opus-4-7
# Option 1: US Region
export LOCATION="us"
export ENDPOINT="aiplatform.us.rep.googleapis.com"
# Option 2: EU Region
# export LOCATION="eu"
# export ENDPOINT="aiplatform.eu.rep.googleapis.com"
export MODEL_ID="claude-opus-4-7"
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "Content-Type: application/json" \
"https://${ENDPOINT}/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:rawPredict" \
-d '{
"max_tokens": 300,
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "Why is the sky blue?"
}
]
}
],
"anthropic_version": "vertex-2023-10-16"
}'
Quote multiregionali:
Vengono applicate quote multiregionali dedicate. Puoi visualizzare e richiedere aumenti per questi valori di quota predefiniti nella console Google Cloud .
Esempi di quote per gli Stati Uniti:
UsOnlinePredictionInputTokensPerMinutePerBaseModelUsOnlinePredictionOutputTokensPerMinutePerBaseModelUsOnlinePredictionRequestsPerMinPerProjectPerBaseModelUsOnlinePredictionWebSearchRequestsPerProjectPerPublisher
Esempi di quote UE:
EuOnlinePredictionInputTokensPerMinutePerBaseModelEuOnlinePredictionOutputTokensPerMinutePerBaseModelEuOnlinePredictionRequestsPerMinPerProjectPerBaseModelEuOnlinePredictionWebSearchRequestsPerProjectPerPublisher
Concedere l'accesso degli utenti ai modelli partner
Per abilitare i modelli partner ed effettuare una richiesta di prompt, un Google Cloud amministratore deve impostare le autorizzazioni richieste e verificare che la policy dell'organizzazione consenta l'utilizzo delle API richieste.
Impostare le autorizzazioni richieste per utilizzare i modelli partner
Per utilizzare i modelli partner sono necessari i seguenti ruoli e autorizzazioni:
Devi disporre del ruolo IAM (Identity and Access Management) Gestore entitlement approvvigionamento consumer. Chiunque abbia ricevuto questo ruolo può attivare i modelli partner in Model Garden.
Devi disporre dell'autorizzazione
aiplatform.endpoints.predict. Questa autorizzazione è inclusa nel ruolo IAM Utente Agent Platform. Per saperne di più, consulta Utente Agent Platform Gemini Enterprise e Controllo dell'accesso.
Console
Per concedere i ruoli IAM di Gestore entitlement approvvigionamento consumer a un utente, vai alla pagina IAM.
Nella colonna Entità, individua l'entità utente per cui vuoi attivare l'accesso ai modelli partner, quindi fai clic su Modifica entità in quella riga.
Nel riquadro Modifica accesso, fai clic su Aggiungi un altro ruolo.
In Seleziona un ruolo, seleziona Consumer Procurement Entitlement Manager.
Nel riquadro Accesso in modifica, fai clic su Aggiungi un altro ruolo.
In Seleziona un ruolo, seleziona Agent Platform User.
Fai clic su Salva.
gcloud
-
Nella console Google Cloud , attiva Cloud Shell.
Concedi il ruolo Gestore entitlement approvvigionamento consumer necessario per attivare i modelli partner in Model Garden
gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/consumerprocurement.entitlementManagerConcedi il ruolo Utente della piattaforma dell'agente che include l'autorizzazione
aiplatform.endpoints.predictnecessaria per effettuare richieste di prompt:gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/aiplatform.userSostituisci
PRINCIPALcon l'identificatore del principal. L'identificatore assume la formauser|group|serviceAccount:emailodomain:domain, ad esempiouser:cloudysanfrancisco@gmail.com,group:admins@example.com,serviceAccount:test123@example.domain.comodomain:example.domain.com.L'output è un elenco di associazioni di policy che include quanto segue:
- members: - user:PRINCIPAL role: roles/roles/consumerprocurement.entitlementManagerPer saperne di più, consulta Concedi un singolo ruolo e
gcloud projects add-iam-policy-binding.
Imposta il criterio dell'organizzazione per l'accesso al modello partner
Per abilitare i modelli partner, la policy dell'organizzazione deve consentire la seguente API: Cloud Commerce Consumer Procurement API - cloudcommerceconsumerprocurement.googleapis.com
Se la tua organizzazione imposta un criterio dell'organizzazione per limitare l'utilizzo del servizio, un amministratore dell'organizzazione deve verificare che cloudcommerceconsumerprocurement.googleapis.com sia consentito impostando il criterio dell'organizzazione.
Inoltre, se hai una policy dell'organizzazione che limita l'utilizzo dei modelli in Model Garden, la policy deve consentire l'accesso ai modelli partner. Per ulteriori informazioni, vedi Controllare l'accesso ai modelli.
Conformità legale del modello di partner
Le certificazioni per l'AI generativa su Gemini Enterprise Agent Platform continuano a essere applicate quando i modelli partner vengono utilizzati come API gestita utilizzando Gemini Enterprise Agent Platform. Se hai bisogno di dettagli sui modelli stessi, puoi trovare ulteriori informazioni nella rispettiva scheda del modello oppure puoi contattare il relativo publisher.
I tuoi dati vengono archiviati at-rest all'interno della regione o della multi-regione selezionata per i modelli partner sulla piattaforma di agenti Gemini Enterprise, ma la regionalizzazione del trattamento dei dati può variare. Per un elenco dettagliato degli impegni di trattamento dei dati dei modelli partner, consulta Residenza dei dati per i modelli partner.
I prompt dei clienti e le risposte del modello non vengono condivisi con terze parti quando si utilizza l'API Gemini Enterprise, inclusi i modelli partner. Google tratta i dati dei clienti solo in base alle istruzioni del cliente, come descritto in dettaglio nell'Addendum per il trattamento dei dati Cloud.