Modelos Llama totalmente geridos


Os modelos Llama estão disponíveis para utilização como APIs geridas e modelos implementados automaticamente no Vertex AI. Pode transmitir as suas respostas para reduzir a perceção de latência do utilizador final. Uma resposta transmitida usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.

Modelos Llama geridos

Os modelos Llama oferecem modelos totalmente geridos e sem servidor como APIs. Para usar um modelo Llama no Vertex AI, envie um pedido diretamente para o ponto final da API Vertex AI. Quando usa os modelos Llama como uma API gerida, não tem de aprovisionar nem gerir a infraestrutura.

Os seguintes modelos estão disponíveis no Llama para utilização no Vertex AI. Para aceder a um modelo Llama, aceda ao respetivo cartão de modelo do Model Garden.

Llama 4 Maverick 17B-128E

O Llama 4 Maverick 17B-128E é o modelo Llama 4 maior e mais capaz que oferece capacidades de programação, raciocínio e imagem. Apresenta uma arquitetura de mistura de especialistas (MoE) com 17 mil milhões de parâmetros ativos de um total de 400 mil milhões de parâmetros e 128 especialistas. O Llama 4 Maverick 17B-128E usa camadas densas e MoE alternadas, em que cada token ativa um especialista partilhado mais um dos 128 especialistas encaminhados. O modelo é pré-treinado em 200 idiomas e otimizado para interações de chat de alta qualidade através de um pipeline de pós-treino refinado.

O Llama 4 Maverick 17B-128E é multimodal e adequado para legendagem de imagens avançada, análise, compreensão precisa de imagens, perguntas e respostas visuais, geração de texto criativo, assistentes de IA de uso geral e chatbots sofisticados que requerem inteligência de nível superior e compreensão de imagens.

Considerações

  • Pode incluir um máximo de três imagens por pedido.
  • O ponto final da MaaS não usa o Llama Guard, ao contrário das versões anteriores. Para usar o Llama Guard, implemente-o a partir do Model Garden e, em seguida, envie os comandos e as respostas para esse ponto final. No entanto, em comparação com o Llama 4, o LlamaGuard tem um contexto mais limitado (128 000) e só pode processar pedidos com uma única imagem no início do comando.
  • As previsões em lote não são suportadas.

Aceda ao cartão do modelo Llama 4

Llama 4 Scout 17B-16E

O Llama 4 Scout 17B-16E oferece resultados de vanguarda para a sua classe de tamanho que superam as gerações anteriores do Llama e outros modelos abertos e proprietários em vários testes de referência. Apresenta uma arquitetura MoE com 17 mil milhões de parâmetros ativos dos 109 mil milhões de parâmetros totais e 16 especialistas.

O Llama 4 Scout 17B-16E é adequado para tarefas de obtenção em contextos longos e tarefas que exigem raciocínio sobre grandes quantidades de informações, como resumir vários documentos grandes, analisar registos de interação do utilizador extensos para personalização e raciocinar em grandes bases de código.

Aceda ao cartão do modelo Llama 4

Considerações

  • Pode incluir um máximo de três imagens por pedido.
  • O ponto final da MaaS não usa o Llama Guard, ao contrário das versões anteriores. Para usar o Llama Guard, implemente-o a partir do Model Garden e, em seguida, envie os comandos e as respostas para esse ponto final. No entanto, em comparação com o Llama 4, o LlamaGuard tem um contexto mais limitado (128 000) e só pode processar pedidos com uma única imagem no início do comando.
  • As previsões em lote não são suportadas.

Aceda ao cartão do modelo Llama 4

Llama 3.3

O Llama 3.3 é um modelo de 70 mil milhões de parâmetros ajustado para instruções apenas de texto que oferece um desempenho melhorado em relação ao Llama 3.1 de 70 mil milhões de parâmetros e ao Llama 3.2 de 90 mil milhões de parâmetros quando usado para aplicações apenas de texto.

Aceda ao cartão do modelo Llama 3.3 70B

Use os modelos Llama

Para modelos geridos, pode usar comandos curl para enviar pedidos para o endpoint do Vertex AI com os seguintes nomes de modelos. Para saber como fazer chamadas de streaming e não streaming para os modelos Llama, consulte o artigo Chame APIs de modelos abertos.

Para usar um modelo do Vertex AI implementado autonomamente:

  1. Navegue para a consola do Model Garden.
  2. Encontre o modelo do Vertex AI relevante.
  3. Clique em Ativar e preencha o formulário fornecido para obter as licenças de utilização comercial necessárias.

Para mais informações sobre a implementação e a utilização de modelos de parceiros, consulte o artigo Implemente um modelo de parceiro e faça pedidos de previsão.

O que se segue?

Saiba como usar os modelos Llama.