Modelli Llama completamente gestiti


I modelli Llama sono disponibili per l'utilizzo come API gestite e modelli con deployment autonomo sulla piattaforma agentica Gemini Enterprise. Puoi eseguire lo streaming delle risposte per ridurre la percezione della latenza da parte dell'utente finale. Una risposta in streaming utilizza gli eventi inviati dal server (SSE) per eseguire lo streaming incrementale della risposta.

Modelli Llama gestiti

I modelli Llama offrono modelli completamente gestiti e serverless come API. Per utilizzare un modello Llama sulla piattaforma agentica, invia una richiesta direttamente all'endpoint API della piattaforma agentica. Quando utilizzi i modelli Llama come API gestita, non è necessario eseguire il provisioning o gestire l'infrastruttura.

I seguenti modelli sono disponibili da Llama per l'utilizzo nella piattaforma agentica Gemini Enterprise. Per accedere a un modello Llama, vai alla scheda del modello in Model Garden.

Llama 4 Maverick 17B-128E

Llama 4 Maverick 17B-128E è il modello Llama 4 più grande e potente che offre funzionalità di codifica, ragionamento e immagini. È dotato di un'architettura Mixture-of-Experts (MoE) con 17 miliardi di parametri attivi su un totale di 400 miliardi di parametri e 128 esperti. Llama 4 Maverick 17B-128E utilizza livelli densi e MoE alternati, in cui ogni token attiva un esperto condiviso più uno dei 128 esperti instradati. Il modello è preaddestrato su 200 lingue e ottimizzato per interazioni di chat di alta qualità tramite una pipeline di post-training perfezionata.

Llama 4 Maverick 17B-128E è multimodale ed è adatto per la didascalia avanzata delle immagini, l'analisi, la comprensione precisa delle immagini, le domande e risposte visive, la generazione di testo creativo, gli assistenti AI di uso generale e i chatbot sofisticati che richiedono intelligenza e comprensione delle immagini di alto livello.

Considerazioni

  • Puoi includere un massimo di tre immagini per richiesta.
  • A differenza delle versioni precedenti, l'endpoint MaaS non utilizza Llama Guard. Per utilizzare Llama Guard, esegui il deployment di Llama Guard da Model Garden e poi invia i prompt e le risposte a quell'endpoint. Tuttavia, rispetto a Llama 4, Llama Guard ha un contesto più limitato (128.000) e può elaborare solo le richieste con una singola immagine all'inizio del prompt.
  • Le previsioni in batch non sono supportate.

Vai alla scheda del modello Llama 4

Llama 4 Scout 17B-16E

Llama 4 Scout 17B-16E offre risultati all'avanguardia per la sua classe di dimensioni, superando le generazioni precedenti di Llama e altri modelli open e proprietari in diversi benchmark. È dotato di un'architettura MoE con 17 miliardi di parametri attivi su un totale di 109 miliardi di parametri e 16 esperti.

Llama 4 Scout 17B-16E è adatto per le attività di recupero in contesti lunghi e per le attività che richiedono il ragionamento su grandi quantità di informazioni, come il riepilogo di più documenti di grandi dimensioni, l'analisi di log di interazione utente estesi per la personalizzazione e il ragionamento su codebase di grandi dimensioni.

Vai alla scheda del modello Llama 4

Considerazioni

  • Puoi includere un massimo di tre immagini per richiesta.
  • A differenza delle versioni precedenti, l'endpoint MaaS non utilizza Llama Guard. Per utilizzare Llama Guard, esegui il deployment di Llama Guard da Model Garden e poi invia i prompt e le risposte a quell'endpoint. Tuttavia, rispetto a Llama 4, Llama Guard ha un contesto più limitato (128.000) e può elaborare solo le richieste con una singola immagine all'inizio del prompt.
  • Le previsioni in batch non sono supportate.

Vai alla scheda del modello Llama 4

Llama 3.3

Llama 3.3 è un modello con istruzioni ottimizzate da 70B solo testuale che offre prestazioni migliorate rispetto a Llama 3.1 70B e Llama 3.2 90B quando viene utilizzato per applicazioni solo testuali.

Vai alla scheda del modello Llama 3.3 70B

Utilizzare i modelli Llama

Per i modelli gestiti, puoi utilizzare i comandi curl per inviare richieste all'endpoint della piattaforma agentica Gemini Enterprise utilizzando i seguenti nomi di modelli. Per scoprire come effettuare chiamate in streaming e non in streaming ai modelli Llama, consulta Chiamare le API dei modelli open.

Per utilizzare un modello della piattaforma agentica Gemini Enterprise con deployment autonomo:

  1. Vai alla console Model Garden.
  2. Trova il modello della piattaforma agentica Gemini Enterprise pertinente.
  3. Fai clic su Attiva e compila il modulo fornito per ottenere le licenze di utilizzo commerciale necessarie.

Per saperne di più sul deployment e sull'utilizzo dei modelli partner, consulta Eseguire il deployment di un modello partner ed effettuare richieste di previsione.

Passaggi successivi

Scopri come utilizzare i modelli Llama.