I modelli Llama su Vertex AI offrono modelli serverless e completamente gestiti come API. Per utilizzare un modello Llama su Vertex AI, invia una richiesta direttamente all'endpoint API Vertex AI. Poiché i modelli Llama utilizzano un'API gestita, non è necessario eseguire il provisioning o gestire l'infrastruttura.
Puoi trasmettere in streaming le risposte per ridurre la percezione della latenza da parte dell'utente finale. Una risposta in streaming utilizza gli eventi inviati dal server (SSE) per trasmettere in streaming in modo incrementale la risposta.
Modelli Llama disponibili
I seguenti modelli Llama sono disponibili da Meta per l'utilizzo in Vertex AI. Per accedere a un modello Llama, vai alla relativa scheda del modello Model Garden.
I modelli in anteprima hanno anche l'opzione di autodeploy. Se hai bisogno di un servizio pronto per la produzione, utilizza i modelli Llama con deployment autonomo.
Llama 4 Maverick 17B-128E
Llama 4 Maverick 17B-128E è il modello Llama 4 più grande e potente che offre funzionalità di programmazione, ragionamento e immagini. È caratterizzato da un'architettura Mixture-of-Experts (MoE) con 17 miliardi di parametri attivi su 400 miliardi di parametri totali e 128 esperti. Llama 4 Maverick 17B-128E utilizza livelli densi e MoE alternati, in cui ogni token attiva un esperto condiviso più uno dei 128 esperti instradati. Il modello è preaddestrato su 200 lingue e ottimizzato per interazioni di chat di alta qualità tramite una pipeline di post-addestramento ottimizzata.
Llama 4 Maverick 17B-128E è multimodale ed è adatto per la didascalia, l'analisi e la comprensione precisa delle immagini, domande e risposte visive, la generazione di testi creativi, gli assistenti AI generici e i chatbot sofisticati che richiedono intelligenza e comprensione delle immagini di primo livello.
Considerazioni
- Puoi includere un massimo di tre immagini per richiesta.
- L'endpoint MaaS non utilizza Llama Guard, a differenza delle versioni precedenti. Per utilizzare Llama Guard, esegui il deployment di Llama Guard da Model Garden e poi invia i prompt e le risposte a questo endpoint. Tuttavia, rispetto a Llama 4, Llama Guard ha un contesto più limitato (128.000) e può elaborare solo richieste con una singola immagine all'inizio del prompt.
- Le previsioni batch non sono supportate.
Vai alla scheda del modello Llama 4
Llama 4 Scout 17B-16E
Llama 4 Scout 17B-16E offre risultati all'avanguardia per la sua classe di dimensioni che superano le generazioni precedenti di Llama e altri modelli aperti e proprietari in diversi benchmark. È caratterizzato da un'architettura MoE con 17 miliardi di parametri attivi su un totale di 109 miliardi di parametri e 16 esperti.
Llama 4 Scout 17B-16E è adatto per attività di recupero all'interno di contesti lunghi e per attività che richiedono un ragionamento su grandi quantità di informazioni, come riassumere più documenti di grandi dimensioni, analizzare log di interazione degli utenti estesi per la personalizzazione e ragionare su codebase di grandi dimensioni.
Vai alla scheda del modello Llama 4
Considerazioni
- Puoi includere un massimo di tre immagini per richiesta.
- L'endpoint MaaS non utilizza Llama Guard, a differenza delle versioni precedenti. Per utilizzare Llama Guard, esegui il deployment di Llama Guard da Model Garden e poi invia i prompt e le risposte a questo endpoint. Tuttavia, rispetto a Llama 4, Llama Guard ha un contesto più limitato (128.000) e può elaborare solo richieste con una singola immagine all'inizio del prompt.
- Le previsioni batch non sono supportate.
Vai alla scheda del modello Llama 4
Llama 3.3
Llama 3.3 è un modello di 70 miliardi di parametri ottimizzato per le istruzioni solo testuali che offre prestazioni migliorate rispetto a Llama 3.1 70B e Llama 3.2 90B se utilizzato per applicazioni solo testuali.
Vai alla scheda del modello Llama 3.3 70B
Passaggi successivi
Scopri come utilizzare i modelli Llama.