Modelos Llama totalmente gerenciados


Os modelos Llama estão disponíveis para uso como APIs gerenciadas e modelos autônomos na plataforma de agentes do Gemini Enterprise. É possível transmitir as respostas para reduzir a percepção de latência do usuário final. Uma resposta transmitida usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.

Modelos Llama gerenciados

Os modelos Llama oferecem modelos totalmente gerenciados e sem servidor como APIs. Para usar um modelo Llama na Agent Platform, envie uma solicitação diretamente para o endpoint de API Agent Platform. Ao usar modelos Llama como uma API gerenciada, não é necessário provisionar nem gerenciar a infraestrutura.

Os modelos a seguir estão disponíveis no Llama para uso na plataforma de agentes do Gemini Enterprise. Para acessar um modelo Llama, acesse a Card de modelo do Model Garden.

Llama 4 Maverick 17B-128E

O Llama 4 Maverick 17B-128E é o maior e mais eficiente modelo Llama 4 que oferece recursos de programação, raciocínio e imagem. Ele apresenta arquitetura de combinação de especialistas (MoE) com 17 bilhões de parâmetros ativos de um total de 400 bilhões de parâmetros e 128 especialistas. O Llama 4 Maverick 17B-128E usa camadas densas e MoE alternadas, em que cada token ativa um especialista compartilhado mais um dos 128 especialistas roteados. O modelo é pré-treinado em 200 idiomas e otimizado para interações de chat de alta qualidade por um pipeline pós-treinamento refinado.

O Llama 4 Maverick 17B-128E é multimodal e adequado para legendas, análises e compreensão precisas de imagens, perguntas e respostas visuais, geração de texto criativo, assistentes de IA de uso geral e chatbots sofisticados que exigem inteligência e compreensão de imagens de alto nível.

Considerações

  • É possível incluir no máximo três imagens por solicitação.
  • O endpoint do MaaS não usa o Llama Guard, ao contrário das versões anteriores. Para usar o Llama Guard, implante-o no Model Garden e envie os comandos e respostas para esse endpoint. No entanto, em comparação com o Llama 4, o Llama Guard tem um contexto mais limitado (128.000) e só pode processar solicitações com uma única imagem no início do comando.
  • As previsões em lote não são compatíveis.

Acessar o card de modelo do Llama 4

Llama 4 Scout 17B-16E

O Llama 4 Scout 17B-16E oferece resultados de última geração para a classe de tamanho dele, superando gerações anteriores do Llama e outros modelos abertos e proprietários em vários comparativos. Ele apresenta arquitetura MoE com 17 bilhões de parâmetros ativos dos 109 bilhões de parâmetros totais e 16 especialistas.

O Llama 4 Scout 17B-16E é adequado para tarefas de recuperação em contextos longos e tarefas que exigem raciocínio sobre grandes quantidades de informações, como resumir vários documentos grandes, analisar registros extensos de interação do usuário para personalização e raciocinar em grandes bases de código.

Acessar o card de modelo do Llama 4

Considerações

  • É possível incluir no máximo três imagens por solicitação.
  • O endpoint do MaaS não usa o Llama Guard, ao contrário das versões anteriores. Para usar o Llama Guard, implante-o no Model Garden e envie os comandos e respostas para esse endpoint. No entanto, em comparação com o Llama 4, o Llama Guard tem um contexto mais limitado (128.000) e só pode processar solicitações com uma única imagem no início do comando.
  • As previsões em lote não são compatíveis.

Acessar o card de modelo do Llama 4

Llama 3.3

O Llama 3.3 é um modelo de 70 bilhões de parâmetros ajustado por instrução somente de texto que oferece desempenho aprimorado em relação ao Llama 3.1 70B e ao Llama 3.2 90B quando usado em aplicativos somente de texto.

Acessar o card de modelo Llama 3.3 70B

Usar modelos de Llama

Para modelos gerenciados, use comandos curl para enviar solicitações ao endpoint da plataforma do agente do Gemini Enterprise usando os seguintes nomes de modelos. Para saber como fazer chamadas de streaming e não streaming para modelos Llama, consulte Chamar APIs de modelos abertos.

Para usar um modelo autoimplantado da plataforma de agentes do Gemini Enterprise:

  1. Navegue até o console do Model Garden.
  2. Encontre o modelo relevante da plataforma de agentes do Gemini Enterprise.
  3. Clique em Ativar e preencha o formulário fornecido para receber as licenças de uso comercial necessárias.

Para mais informações sobre como implantar e usar modelos de parceiros, consulte Implantar um modelo de parceiro e fazer solicitações de previsão.

A seguir

Saiba como usar os modelos Llama.