Vertex AI supporta un elenco curato di modelli aperti come modelli gestiti. Questi modelli aperti possono essere utilizzati con Vertex AI come modello come servizio (MaaS) e vengono offerti come API gestite. Quando utilizzi un modello aperto gestito, continui a inviare le richieste agli endpoint Vertex AI. I modelli aperti gestiti sono serverless, quindi non è necessario eseguire il provisioning o gestire l'infrastruttura.
I modelli aperti gestiti possono essere scoperti utilizzando Model Garden. Puoi anche eseguire il deployment dei modelli utilizzando Model Garden. Per ulteriori informazioni, consulta Esplora i modelli di AI in Model Garden.
Prima di poter utilizzare i modelli aperti, devi concedere agli utenti l'accesso ai modelli aperti.
Modelli aperti
I seguenti modelli aperti sono offerti come API gestite su Vertex AI Model Garden (MaaS):
| Nome modello | Modalità | Descrizione | Guida rapida |
|---|---|---|---|
| DeepSeek-OCR | Lingua, Visione | Un modello completo di riconoscimento ottico dei caratteri (OCR) che analizza e comprende documenti complessi. Eccelle nelle attività OCR impegnative. | Scheda del modello |
| DeepSeek R1 (0528) | Lingua | L'ultima versione del modello DeepSeek R1 di DeepSeek. | Scheda del modello |
| DeepSeek-V3.1 | Lingua | Il modello ibrido di DeepSeek che supporta sia la modalità di pensiero che quella non di pensiero. | Scheda del modello |
| DeepSeek-V3.2 | Lingua | Il modello di DeepSeek che armonizza l'elevata efficienza computazionale con prestazioni di ragionamento e agenti superiori. | Scheda del modello |
| Gemma 4 26B A4B IT | Lingua | La famiglia di modelli aperti di Google creata da Google DeepMind. | Scheda del modello |
| GLM 4.7 | Lingua, Codice | Il modello di GLM progettato per la programmazione di base o il vibe coding, l'utilizzo di strumenti e il ragionamento complesso. | Scheda del modello |
| GLM 5 | Lingua, Codice | Il modello di GLM specifico per attività complesse agentiche a lungo termine e di system engineering. | Scheda del modello |
| gpt-oss 120B | Lingua | Un modello 120B che offre prestazioni elevate nelle attività di ragionamento. | Scheda del modello |
| gpt-oss 20B | Lingua | Un modello 20B ottimizzato per l'efficienza e il deployment su hardware consumer ed edge. | Scheda del modello |
| Kimi K2 Thinking | Lingua | Un modello di agente di ragionamento open source che pensa passo dopo passo e utilizza gli strumenti per risolvere problemi complessi. | Scheda del modello |
| Llama 3.3 | Lingua | Llama 3.3 è un modello 70B ottimizzato per le istruzioni solo testuali che offre prestazioni migliorate rispetto a Llama 3.1 70B e Llama 3.2 90B quando viene utilizzato per applicazioni solo testuali. Inoltre, per alcune applicazioni, Llama 3.3 70B si avvicina alle prestazioni di Llama 3.1 405B. | Scheda del modello |
| Llama 4 Maverick 17B-128E | Lingua, Visione | Il modello Llama 4 più grande e potente che dispone di funzionalità di programmazione, ragionamento e immagini. Llama 4 Maverick 17B-128E è un modello multimodale che utilizza l'architettura Mixture-of-Experts (MoE) e la fusione anticipata. | Scheda del modello |
| Llama 4 Scout 17B-16E | Lingua, Visione | Llama 4 Scout 17B-16E offre risultati all'avanguardia per la sua classe di dimensioni, superando le generazioni precedenti di Llama e altri modelli open e proprietari in diversi benchmark. Llama 4 Scout 17B-16E è un modello multimodale che utilizza l'architettura Mixture-of-Experts (MoE) e la fusione anticipata. | Scheda del modello |
| MiniMax M2 | Lingua, Codice | Progettato per attività agentiche e correlate al codice con solide funzionalità di pianificazione ed esecuzione di attività complesse di chiamata di strumenti. | Scheda del modello |
| Qwen3 235B | Lingua | Un modello open-weight con una funzionalità di "pensiero ibrido" per passare dal ragionamento metodico alla conversazione rapida. | Scheda del modello |
| Qwen3 Coder | Lingua, Codice | Un modello open-weight sviluppato per attività di sviluppo software avanzate. | Scheda del modello |
| Qwen3-Next-80B Instruct | Lingua, Codice | Un modello della famiglia di modelli Qwen3-Next, specializzato per seguire comandi specifici. | Scheda del modello |
| Qwen3-Next-80B Thinking | Lingua, Codice | Un modello della famiglia di modelli Qwen3-Next, specializzato per la risoluzione di problemi complessi e il ragionamento approfondito. | Scheda del modello |
I seguenti modelli di incorporamento aperti sono offerti come API gestite su Vertex AI Model Garden (MaaS):
| Nome modello | Descrizione | Dimensioni di output | Lunghezza massima della sequenza | Lingue di testo supportate | Guida rapida |
|---|---|---|---|---|---|
| multilingual-e5-small | Parte della famiglia di modelli di text embedding E5. La variante piccola contiene 12 livelli. | Fino a 384 | 512 token | Lingue supportate | Scheda del modello |
| multilingual-e5-large | Parte della famiglia di modelli di text embedding E5. La variante grande contiene 24 livelli. | Fino a 1024 | 512 token | Lingue supportate | Scheda del modello |
Conformità legale dei modelli aperti
Le certificazioni per l'AI generativa su Vertex AI continuano a essere applicate quando i modelli aperti vengono utilizzati come API gestite utilizzando Vertex AI. Se hai bisogno di dettagli sui modelli stessi, puoi trovare ulteriori informazioni nella rispettiva scheda del modello oppure puoi contattare il rispettivo publisher del modello.
I tuoi dati vengono archiviati at-rest all'interno della regione o della multi-regione selezionata per i modelli aperti su Vertex AI, ma la regionalizzazione del trattamento dei dati può variare. Per un elenco dettagliato degli impegni di trattamento dei dati dei modelli aperti, consulta Residenza dei dati per i modelli aperti.
I prompt dei clienti e le risposte dei modelli non vengono condivisi con terze parti quando si utilizza l'API Vertex AI, inclusi i modelli aperti. Google tratta i dati dei clienti solo in base alle istruzioni del cliente, come descritto ulteriormente nel nostro Addendum per il trattamento dei dati Cloud.
Memorizzazione nella cache del contesto
La memorizzazione nella cache del contesto contribuisce a ridurre il costo e la latenza delle richieste ai modelli aperti che contengono contenuti ripetuti. Questa funzionalità è abilitata solo durante l'utilizzo del traffico con pagamento a consumo e non supporta altri tipi di traffico, come Throughput riservato e Batch.Il tipo di memorizzazione nella cache supportato è la memorizzazione nella cache implicita, ovvero la memorizzazione nella cache automatica abilitata per impostazione predefinita in tutti i Google Cloud progetti e che offre uno sconto del 90% sui token memorizzati nella cache rispetto ai token di input standard quando si verificano hit della cache. Con questo tipo di memorizzazione nella cache, non definisci e chiami esplicitamente le cache. Il nostro backend estrae da queste cache una volta rilevato un contesto ripetuto.
Modelli supportati
- qwen3-coder-480b-a35b-instruct-maas
- kimi-k2-thinking-maas
- minimax-m2-maas
- gpt-oss-20b-maas
- deepseek-v3.1-maas
- deepseek-v3.2-maas
Il cachedContentTokenCount
campo nei metadati della risposta indica il numero di token nella parte memorizzata nella cache
dell'input. Le richieste di memorizzazione nella cache devono contenere un minimo di 4096 token (questo minimo è soggetto a modifiche durante l'anteprima).
Quando è abilitata, i risparmi sui costi successo della cache implicita vengono trasferiti automaticamente. Gli hit della cache non sono garantiti e dipendono dalle richieste inviate e da altri fattori. Per aumentare le probabilità di un successo della cache implicita, prova a:
- Inserisci i contenuti di grandi dimensioni e comuni all'inizio del prompt.
- Invia richieste con un prefisso simile in un breve periodo di tempo.
Passaggi successivi
- Prima di utilizzare i modelli aperti, concedi agli utenti l'accesso ai modelli aperti.
- Scopri come chiamare le API dei modelli aperti.