Modelli Llama completamente gestiti


I modelli Llama sono disponibili per l'utilizzo come API gestite e modelli autodistribuiti su Vertex AI. Puoi trasmettere in streaming le risposte per ridurre la percezione della latenza da parte dell'utente finale. Una risposta in streaming utilizza gli eventi inviati dal server (SSE) per trasmettere la risposta in modo incrementale.

Modelli Llama gestiti

I modelli Llama offrono modelli serverless e completamente gestiti come API. Per utilizzare un modello Llama su Vertex AI, invia una richiesta direttamente all&#3endpoint APIPI Vertex AI. Quando utilizzi i modelli Llama come API gestita, non è necessario eseguire il provisioning o gestire l'infrastruttura.

I seguenti modelli sono disponibili da Llama per l'utilizzo in Vertex AI. Per accedere a un modello Llama, vai alla relativa scheda del modello Model Garden.

Llama 4 Maverick 17B-128E

Llama 4 Maverick 17B-128E è il modello Llama 4 più grande e potente che offre funzionalità di programmazione, ragionamento e immagini. È caratterizzato da un'architettura Mixture-of-Experts (MoE) con 17 miliardi di parametri attivi su un totale di 400 miliardi di parametri e 128 esperti. Llama 4 Maverick 17B-128E utilizza livelli MoE e densi alternati, in cui ogni token attiva un esperto condiviso più uno dei 128 esperti di routing. Il modello è preaddestrato su 200 lingue e ottimizzato per interazioni di chat di alta qualità tramite una pipeline di post-training perfezionata.

Llama 4 Maverick 17B-128E è multimodale ed è adatto per la didascalia avanzata delle immagini, l'analisi, la comprensione precisa delle immagini, domande e risposte visive, la generazione di testo creativo, gli assistenti AI generici e i chatbot sofisticati che richiedono intelligenza e comprensione delle immagini di primo livello.

Considerazioni

  • Puoi includere un massimo di tre immagini per richiesta.
  • L'endpoint MaaS non utilizza Llama Guard, a differenza delle versioni precedenti. Per utilizzare Llama Guard, esegui il deployment di Llama Guard da Model Garden e poi invia i prompt e le risposte a questo endpoint. Tuttavia, rispetto a Llama 4, Llama Guard ha un contesto più limitato (128.000) e può elaborare solo richieste con una singola immagine all'inizio del prompt.
  • Le previsioni batch non sono supportate.

Vai alla scheda del modello Llama 4

Llama 4 Scout 17B-16E

Llama 4 Scout 17B-16E offre risultati all'avanguardia per la sua classe di dimensioni che superano le generazioni precedenti di Llama e altri modelli aperti e proprietari in diversi benchmark. È caratterizzato da un'architettura MoE con 17 miliardi di parametri attivi su un totale di 109 miliardi e 16 esperti.

Llama 4 Scout 17B-16E è adatto per attività di recupero all'interno di contesti lunghi e per attività che richiedono un ragionamento su grandi quantità di informazioni, come riassumere più documenti di grandi dimensioni, analizzare log di interazione degli utenti estesi per la personalizzazione e ragionare su codebase di grandi dimensioni.

Vai alla scheda del modello Llama 4

Considerazioni

  • Puoi includere un massimo di tre immagini per richiesta.
  • L'endpoint MaaS non utilizza Llama Guard, a differenza delle versioni precedenti. Per utilizzare Llama Guard, esegui il deployment di Llama Guard da Model Garden e poi invia i prompt e le risposte a questo endpoint. Tuttavia, rispetto a Llama 4, Llama Guard ha un contesto più limitato (128.000) e può elaborare solo richieste con una singola immagine all'inizio del prompt.
  • Le previsioni batch non sono supportate.

Vai alla scheda del modello Llama 4

Llama 3.3

Llama 3.3 è un modello di 70 miliardi di parametri ottimizzato per le istruzioni solo testuali che offre prestazioni migliorate rispetto a Llama 3.1 70B e Llama 3.2 90B se utilizzato per applicazioni solo testuali.

Vai alla scheda del modello Llama 3.3 70B

Utilizzare i modelli Llama

Per i modelli gestiti, puoi utilizzare i comandi curl per inviare richieste all'endpoint Vertex AI utilizzando i seguenti nomi di modelli. Per scoprire come effettuare chiamate di streaming e non di streaming ai modelli Llama, consulta Chiamare le API del modello aperto.

Per utilizzare un modello Vertex AI con deployment automatico:

  1. Vai alla console Model Garden.
  2. Trova il modello Vertex AI pertinente.
  3. Fai clic su Attiva e compila il modulo fornito per ottenere le licenze di utilizzo commerciale necessarie.

Per saperne di più sul deployment e sull'utilizzo dei modelli partner, consulta Eseguire il deployment di un modello partner ed effettuare richieste di previsione.

Passaggi successivi

Scopri come utilizzare i modelli Llama.