I modelli Llama sono disponibili per l'utilizzo come API gestite e modelli di cui è stato eseguito il deployment autonomo sulla piattaforma Gemini Enterprise Agent. Puoi trasmettere in streaming le risposte per ridurre la percezione della latenza dell'utente finale. Una risposta in streaming utilizza gli eventi inviati dal server (SSE) per trasmettere in streaming la risposta in modo incrementale.
Modelli Llama gestiti
I modelli Llama offrono modelli serverless e completamente gestiti come API. Per utilizzare un modello Llama su Agent Platform, invia una richiesta direttamente allendpoint APIPI Agent Platform. Quando utilizzi i modelli Llama come API gestita, non è necessario eseguire il provisioning o gestire l'infrastruttura.
I seguenti modelli sono disponibili da Llama per l'utilizzo in Gemini Enterprise Agent Platform. Per accedere a un modello Llama, vai alla relativa scheda del modello Model Garden.
Llama 4 Maverick 17B-128E
Llama 4 Maverick 17B-128E è il modello Llama 4 più grande e potente che offre funzionalità di programmazione, ragionamento e immagini. È caratterizzato da un'architettura Mixture-of-Experts (MoE) con 17 miliardi di parametri attivi su un totale di 400 miliardi di parametri e 128 esperti. Llama 4 Maverick 17B-128E utilizza livelli densi e MoE alternati, in cui ogni token attiva un esperto condiviso più uno dei 128 esperti instradati. Il modello è preaddestrato su 200 lingue e ottimizzato per interazioni di chat di alta qualità tramite una pipeline di post-training perfezionata.
Llama 4 Maverick 17B-128E è multimodale ed è adatto per la didascalia avanzata delle immagini, l'analisi, la comprensione precisa delle immagini, domande e risposte visive, la generazione di testo creativo, gli assistenti AI generici e i chatbot sofisticati che richiedono intelligenza e comprensione delle immagini di primo livello.
Considerazioni
- Puoi includere un massimo di tre immagini per richiesta.
- L'endpoint MaaS non utilizza Llama Guard, a differenza delle versioni precedenti. Per utilizzare Llama Guard, esegui il deployment di Llama Guard da Model Garden e poi invia i prompt e le risposte a questo endpoint. Tuttavia, rispetto a Llama 4, Llama Guard ha un contesto più limitato (128.000) e può elaborare solo richieste con una singola immagine all'inizio del prompt.
- Le previsioni batch non sono supportate.
Vai alla scheda del modello Llama 4
Llama 4 Scout 17B-16E
Llama 4 Scout 17B-16E offre risultati all'avanguardia per la sua classe di dimensioni che superano le generazioni precedenti di Llama e altri modelli proprietari e open su diversi benchmark. Presenta un'architettura MoE con 17 miliardi di parametri attivi su un totale di 109 miliardi di parametri e 16 esperti.
Llama 4 Scout 17B-16E è adatto per attività di recupero all'interno di contesti lunghi e per attività che richiedono il ragionamento su grandi quantità di informazioni, come il riepilogo di più documenti di grandi dimensioni, l'analisi di log di interazione utente estesi per la personalizzazione e il ragionamento su codebase di grandi dimensioni.
Vai alla scheda del modello Llama 4
Considerazioni
- Puoi includere un massimo di tre immagini per richiesta.
- L'endpoint MaaS non utilizza Llama Guard, a differenza delle versioni precedenti. Per utilizzare Llama Guard, esegui il deployment di Llama Guard da Model Garden e poi invia i prompt e le risposte a questo endpoint. Tuttavia, rispetto a Llama 4, Llama Guard ha un contesto più limitato (128.000) e può elaborare solo richieste con una singola immagine all'inizio del prompt.
- Le previsioni batch non sono supportate.
Vai alla scheda del modello Llama 4
Llama 3.3
Llama 3.3 è un modello di 70 miliardi di parametri ottimizzato per le istruzioni solo testuali che offre prestazioni migliorate rispetto a Llama 3.1 70B e Llama 3.2 90B se utilizzato per applicazioni solo testuali.
Vai alla scheda del modello Llama 3.3 70B
Utilizzare i modelli Llama
Per i modelli gestiti, puoi utilizzare i comandi curl per inviare richieste all'endpoint Gemini Enterprise Agent Platform utilizzando i seguenti nomi di modelli. Per scoprire come effettuare chiamate di streaming e non di streaming ai modelli Llama, consulta Chiamare le API dei modelli aperti.
Per utilizzare un modello Gemini Enterprise Agent Platform con deployment automatico:
- Vai alla console Model Garden.
- Trova il modello Gemini Enterprise Agent Platform pertinente.
- Fai clic su Attiva e compila il modulo fornito per ottenere le licenze di utilizzo commerciale necessarie.
Per saperne di più sul deployment e sull'utilizzo dei modelli partner, consulta Eseguire il deployment di un modello partner ed effettuare richieste di previsione.
Passaggi successivi
Scopri come utilizzare i modelli Llama.