Modelos Llama totalmente gerenciados


Os modelos Llama na Vertex AI oferecem modelos totalmente gerenciados e sem servidor modelos como APIs. Para usar um modelo Llama na Vertex AI, envie uma solicitação diretamente para o endpoint da API Vertex AI. Devido ao Os modelos Llama usam uma API gerenciada, não é necessário provisionar nem gerenciar a infraestrutura.

É possível transmitir as respostas para reduzir a percepção de latência do usuário final. Uma resposta transmitida usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.

Modelos Llama disponíveis

Os seguintes modelos Llama estão disponíveis na Meta para uso na Vertex AI. Para acessar um modelo Llama, acesse a Card de modelo do Model Garden.

Os modelos em Prévia também têm a opção de autodeploy. Se você precisar de um serviço pronto para produção, use os modelos Llama de autodeploy.

Llama 4 Maverick 17B-128E

O Llama 4 Maverick 17B-128E é o maior e mais eficiente modelo Llama 4 que oferece recursos de programação, raciocínio e imagem. Ele apresenta arquitetura de mistura de especialistas (MoE) com 17 bilhões de parâmetros ativos de um total de 400 bilhões de parâmetros e 128 especialistas. O Llama 4 Maverick 17B-128E usa camadas densas e MoE alternadas, em que cada token ativa um especialista compartilhado e um dos 128 especialistas roteados. O modelo é pré-treinado em 200 idiomas e otimizado para interações de chat de alta qualidade por um pipeline refinado pós-treinamento.

O Llama 4 Maverick 17B-128E é multimodal e adequado para legendas e análises de imagens avançadas, compreensão precisa de imagens, perguntas e respostas visuais, geração de texto criativo, assistentes de IA de uso geral e chatbots sofisticados que exigem inteligência e compreensão de imagens de alto nível.

Considerações

  • É possível incluir no máximo três imagens por solicitação.
  • O endpoint do MaaS não usa o Llama Guard, ao contrário das versões anteriores. Para usar o Llama Guard, implante-o no Model Garden e envie os comandos e respostas para esse endpoint. No entanto, em comparação com o Llama 4, o Llama Guard tem um contexto mais limitado (128.000) e só pode processar solicitações com uma única imagem no início do comando.
  • As previsões em lote não são compatíveis.

Acessar o card de modelo do Llama 4

Llama 4 Scout 17B-16E

O Llama 4 Scout 17B-16E oferece resultados de última geração para a classe de tamanho dele, superando gerações anteriores do Llama e outros modelos abertos e proprietários em vários comparativos. Ele apresenta arquitetura MoE com 17 bilhões de parâmetros ativos dos 109 bilhões de parâmetros totais e 16 especialistas.

O Llama 4 Scout 17B-16E é adequado para tarefas de recuperação em contextos longos e tarefas que exigem raciocínio sobre grandes quantidades de informações, como resumir vários documentos grandes, analisar registros extensos de interação do usuário para personalização e raciocinar em grandes bases de código.

Acessar o card do modelo Llama 4

Considerações

  • É possível incluir no máximo três imagens por solicitação.
  • O endpoint do MaaS não usa o Llama Guard, ao contrário das versões anteriores. Para usar o Llama Guard, implante-o no Model Garden e envie os comandos e respostas para esse endpoint. No entanto, em comparação com o Llama 4, o Llama Guard tem um contexto mais limitado (128.000) e só pode processar solicitações com uma única imagem no início do comando.
  • As previsões em lote não são compatíveis.

Acessar o card do modelo Llama 4

Llama 3.3

O Llama 3.3 é um modelo de 70 bilhões de parâmetros ajustado por instrução somente de texto que oferece desempenho aprimorado em relação ao Llama 3.1 70B e ao Llama 3.2 90B quando usado em aplicativos somente de texto.

Acessar o card do modelo Llama 3.3 70B

A seguir

Saiba como usar os modelos Llama.