Modelli di partner Vertex AI per MaaS

Vertex AI supporta un elenco curato di modelli sviluppati dai partner di Google. I modelli partner possono essere utilizzati con Vertex AI come model as a service (MaaS) e vengono offerti come API gestite. Quando utilizzi un modello partner, continui a inviare le richieste agli endpoint Vertex AI. I modelli partner sono serverless, quindi non è necessario eseguire il provisioning o gestire l'infrastruttura.

I modelli partner possono essere scoperti utilizzando Model Garden. Puoi anche eseguire il deployment dei modelli utilizzando Model Garden. Per saperne di più, consulta Esplora i modelli di AI in Model Garden. Sebbene le informazioni su ogni modello partner disponibile siano reperibili nella relativa scheda del modello in Model Garden, in questa guida sono documentati solo i modelli di terze parti che funzionano come MaaS con Vertex AI.

I modelli Claude di Anthropic e Mistral sono esempi di modelli gestiti di terze parti che possono essere utilizzati su Vertex AI.

Modelli di partner

I seguenti modelli partner vengono offerti come API gestite su Vertex AI Model Garden (MaaS):

Nome modello Modalità Descrizione Guida rapida
Grok 4.20 (Reasoning) (anteprima) Lingua Grok 4.20 (Reasoning) è il modello di punta di xAI, caratterizzato da un tasso di allucinazione basso leader del settore. Eccelle nelle attività di comprensione dei documenti e nelle chiamate di strumenti agentici a lungo termine. Scheda del modello
Grok 4.20 (Non-Reasoning) (anteprima) Lingua Grok 4.20 (Non-Reasoning) è il modello di punta non di pensiero di xAI, caratterizzato da un tasso di allucinazione basso leader del settore. Eccelle nei casi d'uso sensibili alla latenza, come l'assistenza clienti e la categorizzazione. Scheda del modello
Grok 4.1 Fast (Reasoning) (anteprima) Lingua Grok 4.1 Fast (Reasoning) è il modello più conveniente di xAI, caratterizzato da solide funzionalità di chiamata degli strumenti e da una sintesi efficiente della knowledge base. Eccelle nelle attività di ricerca che coinvolgono dati web e strumenti di knowledge base interni. Scheda del modello
Grok 4.1 Fast (Non-Reasoning) (anteprima) Lingua Grok 4.1 Fast (Non-Reasoning) è il modello non di pensiero più conveniente di xAI, ottimizzato per prestazioni a bassa latenza. Eccelle nelle attività ad alto volume, come il riassunto e la categorizzazione. Scheda del modello
Claude Opus 4.7 Lingua, Vision Claude Opus 4.7, il modello più intelligente di Anthropic di nuova generazione, è leader del settore per programmazione, agenti, utilizzo di computer e workflow aziendali. Scheda del modello
Claude Sonnet 4.6 Lingua, Vision Claude Sonnet 4.6 offre un'intelligenza all'avanguardia su larga scala, pensata per programmazione, agenti e workflow aziendali. Scheda del modello
Claude Opus 4.6 Lingua, Vision Claude Opus 4.6, il modello più intelligente di Anthropic di nuova generazione, è leader del settore per programmazione, agenti, utilizzo di computer e workflow aziendali. Scheda del modello
Claude Opus 4.5 Lingua, Vision Claude Opus 4.5, il modello più intelligente di Anthropic di nuova generazione, è leader del settore per programmazione, agenti, utilizzo di computer e workflow aziendali. Scheda del modello
Claude Sonnet 4.5 Lingua, Vision Il modello di medie dimensioni di Anthropic per potenziare gli agenti del mondo reale, con funzionalità di programmazione, utilizzo del computer, sicurezza informatica e lavoro con file di Office come i fogli di lavoro. Scheda del modello
Claude Opus 4.1 Lingua, Vision Un leader del settore per la programmazione. Offre prestazioni costanti per le attività a lunga esecuzione che richiedono impegno mirato e migliaia di passaggi, espandendo notevolmente ciò che gli agenti AI possono risolvere. Ideale per potenziare i prodotti e le funzionalità degli agenti di frontiera Scheda del modello
Claude Haiku 4.5 Lingua, Vision Claude Haiku 4.5 offre prestazioni quasi di frontiera per un'ampia gamma di casi d'uso e si distingue come uno dei migliori modelli di programmazione al mondo, con la velocità e il costo giusti per potenziare i prodotti senza costi e le esperienze utente ad alto volume. Scheda del modello
Claude Opus 4 Lingua, Vision Claude Opus 4 delivers sustained performance on long-running tasks that require focused effort and thousands of steps, significantly expanding what AI agents can solve. Scheda del modello
Claude Sonnet 4 Lingua, Vision Il modello di medie dimensioni di Anthropic con un'intelligenza superiore per utilizzi ad alto volume, come programmazione, ricerca approfondita, e agenti. Scheda del modello
Claude 3.5 Sonnet v2 di Anthropic Lingua, Vision Claude 3.5 Sonnet aggiornato è un modello all'avanguardia per attività di ingegneria del software nel mondo reale e capacità agentiche. Claude 3.5 Sonnet offre questi miglioramenti allo stesso prezzo e alla stessa velocità del suo predecessore. Scheda del modello
Claude 3.5 Sonnet di Anthropic Lingua Claude 3.5 Sonnet offre prestazioni migliori rispetto a Claude 3 Opus di Anthropic su un'ampia gamma di valutazioni di Anthropic con la velocità e il costo del modello di livello intermedio di Anthropic, Claude 3 Sonnet. Scheda del modello
Jamba 1.5 Large (anteprima) Lingua Jamba 1.5 Large di AI21 Labs è progettato per risposte di qualità superiore, throughput elevato e prezzi competitivi rispetto ad altri modelli della sua classe di dimensioni. Scheda del modello
Jamba 1.5 Mini (anteprima) Lingua Jamba 1.5 Mini di AI21 Labs è ben bilanciato in termini di qualità, velocità effettiva e costi ridotti. Scheda del modello
Mistral Medium 3 Lingua Mistral Medium 3 è un modello versatile progettato per un'ampia gamma di attività, tra cui programmazione, ragionamento matematico, comprensione di documenti lunghi documenti, riassunto e dialogo. Scheda del modello
Mistral OCR (25.05) Lingua, Vision Mistral OCR (25.05) è un'API di riconoscimento ottico dei caratteri per la comprensione dei documenti. Il modello comprende ogni elemento dei documenti, come contenuti multimediali, testo, tabelle ed equazioni. Scheda del modello
Mistral Small 3.1 (25.03) Lingua Mistral Small 3.1 (25.03) è l'ultima versione del modello Small di Mistral, caratterizzata da funzionalità multimodali e finestra contestuale estesa. Scheda del modello
Codestral 2 Lingua, Codice Codestral 2 è il modello specializzato per la generazione di codice di Mistral, creato appositamente per il completamento FIM (fill-in-the-middle) ad alta precisione che aiuta gli sviluppatori a scrivere e interagire con il codice tramite un endpoint API di istruzioni e completamento condiviso. Scheda del modello

Valutare i modelli partner utilizzando il Gen AI evaluation service

Il Gen AI evaluation service supporta la valutazione dei modelli partner, come i modelli Anthropic e Llama. La valutazione dei modelli partner è supportata tramite Model Garden, quindi devi attivare il modello prima di eseguire le valutazioni su un modello partner.

Per saperne di più, consulta Eseguire la valutazione utilizzando la console.

Prezzi dei modelli partner di Vertex AI con garanzia di capacità

Google offre Throughput riservato per alcuni modelli partner che riserva la capacità di throughput per i tuoi modelli a un costo fisso. Decidi la capacità di velocità effettiva e in quali regioni riservare questa capacità. Poiché le richieste di velocità effettiva di cui è stato eseguito il provisioning hanno la priorità rispetto alle richieste standard con pagamento a consumo, la velocità effettiva di cui è stato eseguito il provisioning offre una maggiore disponibilità. Quando il sistema è sovraccarico, le richieste possono comunque essere completate purché la velocità effettiva rimanga al di sotto della capacità di velocità effettiva riservata. Per saperne di più o per abbonarti al servizio, contatta il team di vendita.

Endpoint regionali, globali e multiregionali

Per gli endpoint regionali, le richieste vengono gestite dalla regione specificata. Nei casi in cui hai requisiti di residenza dei dati o se un modello non supporta l'endpoint globale, utilizza gli endpoint regionali.

Quando utilizzi l'endpoint globale, Google può elaborare e gestire le richieste da qualsiasi regione supportata dal modello che stai utilizzando, il che potrebbe comportare una latenza maggiore in alcuni casi. L'endpoint globale contribuisce a migliorare la disponibilità complessiva e a ridurre gli errori.

Gli endpoint multiregionali consentono l'accesso ad alta disponibilità ai modelli partner mantenendo la residenza dei dati in un'area geografica più ampia, come gli Stati Uniti.

Esiste una differenza di prezzo a seconda del tipo di endpoint selezionato. Per saperne di più su quote e funzionalità, consulta la pagina del modello di terze parti correlata.

Endpoint globale

Per utilizzare l'endpoint globale, imposta la regione su global.

Ad esempio, l'URL della richiesta per un comando curl utilizza il seguente formato: https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/PUBLISHER_NAME/models/MODEL_NAME

Per l'SDK Vertex AI, l'endpoint regionale è quello predefinito. Imposta la regione su GLOBAL per utilizzare l'endpoint globale.

Modelli supportati per l'endpoint globale

L'endpoint globale è disponibile per i seguenti modelli:

Limitare l'utilizzo degli endpoint API globali

Per contribuire a imporre l'utilizzo di endpoint regionali, utilizza il vincolo delle policy dell'organizzazione constraints/gcp.restrictEndpointUsage per bloccare le richieste all'endpoint API globale. Per saperne di più, consulta Limitare l'utilizzo degli endpoint.

Endpoint multiregionale (anteprima)

Nota: l'endpoint multiregionale è attualmente in anteprima ed è coperto dai Termini delle offerte pre-GA dei Termini di servizio di Google Cloud Platform. Non è destinato all'uso in produzione né è coperto da SLA (accordo sul livello del servizio), obblighi di assistenza o norme sul ritiro e potrebbe essere soggetto a modifiche non retrocompatibili.

Gli endpoint multiregionali consentono l'accesso ad alta disponibilità ai modelli partner mantenendo la residenza dei dati in un'area geografica più ampia, come gli Stati Uniti o l'Unione Europea.

Seleziona la scheda appropriata per la multi-regione che vuoi utilizzare:

US

Per utilizzare l'endpoint multiregionale statunitense, imposta l'URL dell'endpoint su aiplatform.us.rep.googleapis.com.

L'URL della richiesta per un comando curl utilizza il seguente formato: https://aiplatform.us.rep.googleapis.com/v1/projects/PROJECT_ID/locations/us/publishers/anthropic/models/MODEL_NAME

UE

Per utilizzare l'endpoint multiregionale UE, imposta l'URL dell'endpoint su aiplatform.eu.rep.googleapis.com.

L'URL della richiesta per un comando curl utilizza il seguente formato: https://aiplatform.eu.rep.googleapis.com/v1/projects/PROJECT_ID/locations/eu/publishers/anthropic/models/MODEL_NAME

Per saperne di più sul formato MODEL_NAME, consulta la documentazione di Anthropic.

Modelli supportati per l'endpoint multiregionale:

Sono supportati i seguenti modelli. Utilizza l'ID modello completo, inclusa la data della versione, ove applicabile.

Modello ID modello API Vertex AI
claude-opus-4-7 claude-opus-4-7

Presto disponibile

In futuro saranno supportati i seguenti modelli:

Modello ID modello API Vertex AI
claude-haiku-4-5 claude-haiku-4-5@20251001
claude-sonnet-4 claude-sonnet-4@20250514
claude-sonnet-4-5 claude-sonnet-4-5@20250929
claude-sonnet-4-6 claude-sonnet-4-6
claude-opus-4-5 claude-opus-4-5@20251101
claude-opus-4-6 claude-opus-4-6

Richiesta di esempio:

Ecco come puoi chiamare l'endpoint multiregionale utilizzando curl:

export PROJECT_ID="YOUR_PROJECT_ID"
# Example using claude-opus-4-7

# Option 1: US Region
export LOCATION="us"
export ENDPOINT="aiplatform.us.rep.googleapis.com"

# Option 2: EU Region
# export LOCATION="eu"
# export ENDPOINT="aiplatform.eu.rep.googleapis.com"

export MODEL_ID="claude-opus-4-7"

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "Content-Type: application/json" \
  "https://${ENDPOINT}/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:rawPredict" \
  -d '{
    "max_tokens": 300,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "Why is the sky blue?"
          }
        ]
      }
    ],
    "anthropic_version": "vertex-2023-10-16"
  }'

Quote multiregionali:

Vengono applicate quote multiregionali dedicate. Puoi visualizzare e richiedere aumenti per questi valori di quota predefiniti nella Google Cloud consolle.

  • Esempi di quote statunitensi:

    • UsOnlinePredictionInputTokensPerMinutePerBaseModel
    • UsOnlinePredictionOutputTokensPerMinutePerBaseModel
    • UsOnlinePredictionRequestsPerMinPerProjectPerBaseModel
    • UsOnlinePredictionWebSearchRequestsPerProjectPerPublisher
  • Esempi di quote UE:

    • EuOnlinePredictionInputTokensPerMinutePerBaseModel
    • EuOnlinePredictionOutputTokensPerMinutePerBaseModel
    • EuOnlinePredictionRequestsPerMinPerProjectPerBaseModel
    • EuOnlinePredictionWebSearchRequestsPerProjectPerPublisher

Concedere l'accesso degli utenti ai modelli partner

Per poter attivare i modelli partner ed effettuare una richiesta di prompt, un Google Cloud amministratore deve impostare le autorizzazioni richieste e verificare che la policy dell'organizzazione consenta l'utilizzo delle API richieste.

Impostare le autorizzazioni richieste per utilizzare i modelli partner

Per utilizzare i modelli partner sono necessari i seguenti ruoli e autorizzazioni:

  • Devi disporre del ruolo IAM (Identity and Access Management) Consumer Procurement Entitlement Manager. Chiunque abbia questo ruolo può attivare i modelli partner in Model Garden.

  • Devi disporre dell'autorizzazione aiplatform.endpoints.predict. Questa autorizzazione è inclusa nel ruolo IAM Vertex AI User. Per saperne di più, consulta Utente Vertex AI e Controllo dell'accesso.

Console

  1. Per concedere i ruoli IAM Consumer Procurement Entitlement Manager a un utente, vai alla pagina IAM.

    Vai a IAM

  2. Nella colonna Entità, individua l'entità utente per la quale vuoi attivare l'accesso ai modelli partner, quindi fai clic su Modifica entità in quella riga.

  3. Nel riquadro Accesso in modifica, fai clic Aggiungi un altro ruolo.

  4. In Seleziona un ruolo, seleziona Consumer Procurement Entitlement Manager.

  5. Nel riquadro Accesso in modifica, fai clic Aggiungi un altro ruolo.

  6. In Seleziona un ruolo, seleziona Utente Vertex AI.

  7. Fai clic su Salva.

gcloud

  1. Nella Google Cloud console, attiva Cloud Shell.

    Attiva Cloud Shell

  2. Concedi il ruolo Consumer Procurement Entitlement Manager necessario per attivare i modelli partner in Model Garden

    gcloud projects add-iam-policy-binding  PROJECT_ID \
    --member=PRINCIPAL --role=roles/consumerprocurement.entitlementManager
    
  3. Concedi il ruolo Utente Vertex AI che include l'autorizzazione aiplatform.endpoints.predict necessaria per effettuare richieste di prompt:

    gcloud projects add-iam-policy-binding  PROJECT_ID \
    --member=PRINCIPAL --role=roles/aiplatform.user
    

    Sostituisci PRINCIPAL con l'identificatore dell'entità. L'identificatore assume il formato user|group|serviceAccount:email o domain:domain, ad esempio user:cloudysanfrancisco@gmail.com, group:admins@example.com, serviceAccount:test123@example.domain.com o domain:example.domain.com.

    L'output è un elenco di associazioni di policy che include quanto segue:

    -   members:
      -   user:PRINCIPAL
      role: roles/roles/consumerprocurement.entitlementManager
    

    Per saperne di più, consulta Concedere un singolo ruolo e gcloud projects add-iam-policy-binding.

Impostare la policy dell'organizzazione per l'accesso ai modelli partner

Per attivare i modelli partner, la policy dell'organizzazione deve consentire la seguente API: Cloud Commerce Consumer Procurement API - cloudcommerceconsumerprocurement.googleapis.com

Se la tua organizzazione imposta una policy dell'organizzazione per limitare l'utilizzo del servizio, un amministratore dell'organizzazione deve verificare che cloudcommerceconsumerprocurement.googleapis.com sia consentito impostando la policy dell'organizzazione.

Inoltre, se hai una policy dell'organizzazione che limita l'utilizzo dei modelli in Model Garden, la policy deve consentire l'accesso ai modelli partner. Per saperne di più, consulta Controllare l'accesso ai modelli.

Conformità legale dei modelli partner

Le certificazioni per l'AI generativa su Vertex AI continuano a essere applicate quando i modelli partner vengono utilizzati come API gestite utilizzando Vertex AI. Se hai bisogno di dettagli sui modelli stessi, puoi trovare ulteriori informazioni nella rispettiva scheda del modello oppure puoi contattare il rispettivo publisher del modello.

I tuoi dati vengono archiviati inattivi nella regione o nella multi-regione selezionata per i modelli partner su Vertex AI, ma la regionalizzazione del trattamento dei dati può variare. Per un elenco dettagliato degli impegni di trattamento dei dati dei modelli partner, consulta Residenza dei dati per i modelli partner.

I prompt dei clienti e le risposte dei modelli non vengono condivisi con terze parti quando utilizzi l'API Vertex AI, inclusi i modelli partner. Google tratta i dati dei clienti solo secondo le istruzioni del cliente, come descritto in dettaglio nel nostro Addendum per il trattamento dei dati Cloud.