Abra a vista geral dos modelos

A Vertex AI oferece várias formas de publicar modelos de linguagem (conteúdo extenso) abertos, incluindo Llama, DeepSeek, Mistral e Qwen, em Google Cloud. Este documento oferece uma vista geral das ofertas da Vertex AI para o fornecimento de modelos abertos e ajuda a escolher a opção certa para o seu exemplo de utilização.

Opções de publicação

O Vertex AI oferece as seguintes opções para a apresentação de modelos abertos. Cada uma destas opções oferece elevada disponibilidade e inclui as práticas recomendadas de Google Cloud segurança por predefinição:

Modelo como serviço (MaaS): publica modelos abertos através de APIs geridas sem servidor.
Modelos implementados automaticamente no Model Garden: Implementa modelos abertos do Model Garden através da implementação com um clique ou com ponderações personalizadas.
Imagens de contentores pré-criados do Vertex AI: apresenta modelos abertos através de contentores pré-criados para frameworks de apresentação populares, por exemplo, vLLM, Hex-LLM e TGI.
Contentor vLLM personalizado: permite-lhe criar e implementar o seu próprio contentor vLLM personalizado para maior flexibilidade.

Quando usar o MaaS

Considere usar o MaaS nestes cenários:

Desenvolvimento e criação de protótipos rápidos: o MaaS ajuda a integrar rapidamente capacidades de MDIs em aplicações. Isto é especialmente útil para a exploração inicial, a criação rápida de protótipos e quando um tempo de comercialização rápido é um objetivo fundamental.
Minimizar a sobrecarga operacional: escolha o MaaS quando a sua equipa quiser concentrar-se na lógica da aplicação em vez da gestão da infraestrutura. A Google trata de todo o aprovisionamento, escalabilidade e manutenção de GPUs/TPUs, o que beneficia as equipas focadas no desenvolvimento de aplicações em vez de MLOps ou DevOps.
Tráfego variável: o modelo de pagamento conforme o uso suporta cargas de trabalho ou aplicações experimentais com padrões de tráfego imprevisíveis e irregulares.
Utilização imediata: use uma API gerida para aplicações que precisam de um desempenho consistente, mas não requerem uma personalização detalhada do modelo subjacente ou da pilha de publicação.
Segurança e conformidade: o MaaS permite que as empresas usem as funcionalidades de segurança e conformidade de nível empresarial incorporadas do Google Cloud.
Utilização do modelo padrão: use o MaaS quando um modelo base padrão e não personalizado satisfizer as suas necessidades.

Quando usar modelos implementados automaticamente no Model Garden

As opções de implementação autónoma incluem a implementação a partir do Model Garden através de contentores pré-criados ou personalizados. Considere a implementação autónoma nestes cenários importantes:

Pesos personalizados e modelos otimizados: a implementação autónoma é a melhor escolha quando a sua aplicação requer a utilização de pesos personalizados ou uma versão otimizada de um modelo, oferecendo maior flexibilidade para implementar modelos adaptados às suas necessidades específicas. Também pode criar e implementar os seus próprios contentores de publicação personalizados. Por exemplo, use esta opção quando um modelo requer uma lógica de pré-processamento ou pós-processamento única.
Cargas de trabalho previsíveis e de volume elevado: a implementação automática é uma opção estratégica e rentável para aplicações de produção com tráfego previsível e de volume elevado. Embora exija um maior investimento inicial em engenharia, pode levar a um custo total de propriedade (TCO) inferior ao longo da duração da aplicação devido aos custos por token otimizados em grande escala.
Controlo detalhado da infraestrutura: use a implementação automática quando precisar de ajustar o desempenho e o orçamento escolhendo configurações de hardware específicas. Isto inclui selecionar tipos de máquinas exatos, GPUs (por exemplo, NVIDIA L4 ou H100) ou TPUs, e frameworks de publicação otimizados.
Segurança e conformidade rigorosas: esta abordagem suporta aplicações que têm de cumprir políticas de residência de dados específicas ou regulamentos rigorosos que proíbem a utilização de um serviço gerido multi-inquilino. Permite-lhe implementar modelos de forma segura no seu próprio Google Cloud projeto e rede de nuvem privada virtual, o que lhe dá controlo total sobre o caminho dos dados.
Controlo detalhado da localização: os pontos finais dedicados permitem a implementação em qualquer acelerador do Compute Engine em Google Cloud em todas as regiões.

Quando usar contentores pré-criados

Considere usar contentores pré-criados do Vertex AI nestes cenários:

Desempenho otimizado: o Vertex AI otimiza e personaliza os contentores pré-criados para frameworks como o vLLM para um desempenho melhorado, fiabilidade e integração perfeita no Google Cloud.
Facilidade de utilização: publique modelos usando frameworks de publicação populares, como vLLM, Hex-LLM, SGLang, TGI ou TensorRT-LLM, sem criar e manter as suas próprias imagens de contentores.

Quando usar contentores vLLM personalizados

Considere criar e usar o seu próprio contentor personalizado nestes cenários:

Máxima flexibilidade: quando as opções de publicação existentes e os contentores pré-criados não são suficientes para as suas necessidades e precisa de controlo total sobre a imagem do contentor, incluindo dependências e configurações.
Lógica de publicação personalizada: quando o seu modelo requer passos de pré-processamento ou pós-processamento únicos que não são suportados por contentores pré-criados.

Abra a vista geral dos modelos Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.