Modelos Llama totalmente gerenciados


Os modelos Llama estão disponíveis para uso como APIs gerenciadas e modelos autônomos na Vertex AI. É possível transmitir as respostas para reduzir a percepção de latência do usuário final. Uma resposta transmitida usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.

Modelos Llama gerenciados

Os modelos Llama oferecem modelos totalmente gerenciados e sem servidor como APIs. Para usar um modelo Llama na Vertex AI, envie uma solicitação diretamente para o endpoint de API Vertex AI. Ao usar modelos Llama como uma API gerenciada, não é necessário provisionar nem gerenciar a infraestrutura.

Os modelos a seguir estão disponíveis no Llama para uso na Vertex AI. Para acessar um modelo Llama, acesse a Card de modelo do Model Garden.

Llama 4 Maverick 17B-128E

O Llama 4 Maverick 17B-128E é o maior e mais eficiente modelo Llama 4 que oferece recursos de programação, raciocínio e imagem. Ele apresenta arquitetura de combinação de especialistas (MoE) com 17 bilhões de parâmetros ativos de um total de 400 bilhões de parâmetros e 128 especialistas. O Llama 4 Maverick 17B-128E usa camadas densas e MoE alternadas, em que cada token ativa um especialista compartilhado mais um dos 128 especialistas roteados. O modelo é pré-treinado em 200 idiomas e otimizado para interações de chat de alta qualidade por um pipeline refinado pós-treinamento.

O Llama 4 Maverick 17B-128E é multimodal e adequado para legendas, análises e compreensão precisas de imagens, perguntas e respostas visuais, geração de texto criativo, assistentes de IA de uso geral e chatbots sofisticados que exigem inteligência e compreensão de imagens de alto nível.

Considerações

  • É possível incluir no máximo três imagens por solicitação.
  • O endpoint do MaaS não usa o Llama Guard, ao contrário das versões anteriores. Para usar o Llama Guard, implante-o no Model Garden e envie os comandos e respostas para esse endpoint. No entanto, em comparação com o Llama 4, o LlamaGuard tem um contexto mais limitado (128.000) e só pode processar solicitações com uma única imagem no início do comando.
  • As previsões em lote não são compatíveis.

Acessar o card do modelo Llama 4

Llama 4 Scout 17B-16E

O Llama 4 Scout 17B-16E oferece resultados de última geração para a classe de tamanho dele, superando as gerações anteriores do Llama e outros modelos abertos e proprietários em vários comparativos. Ele apresenta arquitetura MoE com 17 bilhões de parâmetros ativos dos 109 bilhões de parâmetros totais e 16 especialistas.

O Llama 4 Scout 17B-16E é adequado para tarefas de recuperação em contextos longos e tarefas que exigem raciocínio sobre grandes quantidades de informações, como resumir vários documentos grandes, analisar registros extensos de interação do usuário para personalização e raciocinar em grandes bases de código.

Acessar o card do modelo Llama 4

Considerações

  • É possível incluir no máximo três imagens por solicitação.
  • O endpoint do MaaS não usa o Llama Guard, ao contrário das versões anteriores. Para usar o Llama Guard, implante-o no Model Garden e envie os comandos e respostas para esse endpoint. No entanto, em comparação com o Llama 4, o LlamaGuard tem um contexto mais limitado (128.000) e só pode processar solicitações com uma única imagem no início do comando.
  • As previsões em lote não são compatíveis.

Acessar o card do modelo Llama 4

Llama 3.3

O Llama 3.3 é um modelo de 70 bilhões de parâmetros ajustado por instrução somente de texto que oferece desempenho aprimorado em relação ao Llama 3.1 70B e ao Llama 3.2 90B quando usado em aplicativos somente de texto.

Acessar o card do modelo Llama 3.3 70B

Usar modelos de Llama

Para modelos gerenciados, é possível usar comandos curl para enviar solicitações ao endpoint da Vertex AI usando os seguintes nomes de modelos. Para saber como fazer chamadas de streaming e não streaming para modelos Llama, consulte Chamar APIs de modelos abertos.

Para usar um modelo autoimplantado da Vertex AI:

  1. Navegue até o console do Model Garden.
  2. Encontre o modelo relevante da Vertex AI.
  3. Clique em Ativar e preencha o formulário fornecido para receber as licenças de uso comercial necessárias.

Para mais informações sobre como implantar e usar modelos de parceiros, consulte Implantar um modelo de parceiro e fazer solicitações de previsão.

A seguir

Saiba como usar os modelos Llama.