Os modelos Llama no Vertex AI oferecem modelos totalmente geridos e sem servidor como APIs. Para usar um modelo Llama no Vertex AI, envie um pedido diretamente para o ponto final da API Vertex AI. Uma vez que os modelos Llama usam uma API gerida, não é necessário aprovisionar nem gerir a infraestrutura.
Pode transmitir as suas respostas para reduzir a perceção de latência do utilizador final. Uma resposta em stream usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.
Modelos Llama disponíveis
Os seguintes modelos Llama estão disponíveis na Meta para utilização no Vertex AI. Para aceder a um modelo Llama, aceda ao respetivo cartão de modelo do Model Garden.
Os modelos que estão em Pré-visualização também têm a opção de implementação automática. Se precisar de um serviço pronto para produção, use os modelos Llama de implementação automática.
Llama 4 Maverick 17B-128E
O Llama 4 Maverick 17B-128E é o modelo Llama 4 maior e mais capaz que oferece capacidades de programação, raciocínio e imagem. Apresenta uma arquitetura de mistura de especialistas (MoE) com 17 mil milhões de parâmetros ativos de um total de 400 mil milhões de parâmetros e 128 especialistas. O Llama 4 Maverick 17B-128E usa camadas densas e MoE alternadas, em que cada token ativa um especialista partilhado, além de um dos 128 especialistas encaminhados. O modelo é pré-treinado em 200 idiomas e otimizado para interações de chat de alta qualidade através de um pipeline de pós-treino refinado.
O Llama 4 Maverick 17B-128E é multimodal e adequado para legendagem de imagens avançada, análise, compreensão precisa de imagens, perguntas e respostas visuais, geração de texto criativo, assistentes de IA de uso geral e chatbots sofisticados que requerem inteligência de nível superior e compreensão de imagens.
Considerações
- Pode incluir um máximo de três imagens por pedido.
- O ponto final da MaaS não usa o Llama Guard, ao contrário das versões anteriores. Para usar o Llama Guard, implemente-o a partir do Model Garden e, em seguida, envie os comandos e as respostas para esse ponto final. No entanto, em comparação com o Llama 4, o LlamaGuard tem um contexto mais limitado (128 000) e só pode processar pedidos com uma única imagem no início do comando.
- As previsões em lote não são suportadas.
Aceda ao cartão do modelo Llama 4
Llama 4 Scout 17B-16E
O Llama 4 Scout 17B-16E oferece resultados de vanguarda para a sua classe de tamanho que superam as gerações anteriores do Llama e outros modelos abertos e proprietários em vários testes de referência. Apresenta uma arquitetura MoE com 17 mil milhões de parâmetros ativos dos 109 mil milhões de parâmetros totais e 16 especialistas.
O Llama 4 Scout 17B-16E é adequado para tarefas de obtenção em contextos longos e tarefas que exigem raciocínio sobre grandes quantidades de informações, como resumir vários documentos grandes, analisar registos de interação do utilizador extensos para personalização e raciocinar em grandes bases de código.
Aceda ao cartão do modelo Llama 4
Considerações
- Pode incluir um máximo de três imagens por pedido.
- O ponto final da MaaS não usa o Llama Guard, ao contrário das versões anteriores. Para usar o Llama Guard, implemente-o a partir do Model Garden e, em seguida, envie os comandos e as respostas para esse ponto final. No entanto, em comparação com o Llama 4, o LlamaGuard tem um contexto mais limitado (128 000) e só pode processar pedidos com uma única imagem no início do comando.
- As previsões em lote não são suportadas.
Aceda ao cartão do modelo Llama 4
Lama 3.3
O Llama 3.3 é um modelo de 70 mil milhões de parâmetros ajustado para instruções apenas de texto que oferece um desempenho melhorado em relação ao Llama 3.1 de 70 mil milhões de parâmetros e ao Llama 3.2 de 90 mil milhões de parâmetros quando usado para aplicações apenas de texto.
Aceda ao cartão do modelo Llama 3.3 70B
O que se segue?
Saiba como usar os modelos Llama.