Escolher uma opção de veiculação de modelo aberto

A Vertex AI oferece várias maneiras de disponibilizar modelos de linguagem grandes abertos, incluindo Llama, DeepSeek, Mistral e Qwen, em Google Cloud. Este documento oferece uma visão geral das ofertas da Vertex AI para disponibilização de modelos abertos e ajuda você a escolher a opção certa para seu caso de uso.

Opções de veiculação

A Vertex AI oferece as seguintes opções para disponibilizar modelos abertos. Cada uma dessas opções oferece alta disponibilidade e inclui as práticas recomendadas de segurança Google Cloud por padrão:

Quando usar o MaaS

Considere usar o MaaS nestes cenários:

  • Desenvolvimento e prototipagem rápidos: o MaaS ajuda você a integrar rapidamente recursos de LLM aos aplicativos. Isso é especialmente útil para exploração inicial, prototipagem rápida e quando o tempo de lançamento no mercado é uma meta principal.
  • Minimizar a sobrecarga operacional: escolha o MaaS quando sua equipe quiser se concentrar na lógica do aplicativo em vez do gerenciamento de infraestrutura. O Google cuida de todo o provisionamento, escalonamento e manutenção de GPU/TPU, o que beneficia equipes focadas no desenvolvimento de aplicativos em vez de MLOps ou DevOps.
  • Tráfego variável: o modelo de pagamento conforme o uso é compatível com cargas de trabalho ou aplicativos experimentais com padrões de tráfego imprevisíveis e irregulares.
  • Uso imediato: use uma API gerenciada para aplicativos que precisam de performance consistente, mas não exigem personalização profunda do modelo ou da pilha de serviço.
  • Segurança e compliance: o MaaS permite que as empresas usem os recursos integrados de segurança e compliance de nível empresarial do Google Cloud.
  • Uso do modelo padrão: use o MaaS quando um modelo de base padrão e não personalizado atender às suas necessidades.

Quando usar modelos autoimplantados no Model Garden

As opções de autoimplantação incluem a implantação do Model Garden usando contêineres pré-criados ou personalizados. Considere o autodesenvolvimento nestes cenários principais:

  • Pesos personalizados e modelos ajustados: o autodeploy é a melhor opção quando seu aplicativo exige o uso de pesos personalizados ou uma versão ajustada de um modelo, oferecendo mais flexibilidade para implantar modelos adaptados às suas necessidades específicas. Também é possível criar e implantar seus próprios contêineres de serviço personalizados. Por exemplo, use essa opção quando um modelo exigir uma lógica exclusiva de pré ou pós-processamento.
  • Cargas de trabalho previsíveis e de alto volume: a autodeimplantação é uma opção estratégica e econômica para aplicativos de produção com tráfego previsível e de alto volume. Embora exija um investimento inicial maior em engenharia, ele pode levar a um custo total de propriedade (TCO) menor ao longo da vida útil do aplicativo devido aos custos otimizados por token em grande escala.
  • Controle granular da infraestrutura: use a autolimitação quando precisar ajustar a performance e o orçamento escolhendo configurações de hardware específicas. Isso inclui selecionar tipos de máquina exatos, GPUs (por exemplo, NVIDIA L4 ou H100) ou TPUs e estruturas de serviço otimizadas.
  • Segurança e compliance rigorosos: essa abordagem é compatível com aplicativos que precisam obedecer a políticas específicas de residência de dados ou regulamentações rigorosas que proíbem o uso de um serviço gerenciado multilocatário. Ele permite implantar modelos com segurança no seu próprio projeto Google Cloud e na rede de nuvem privada virtual, oferecendo controle total sobre o caminho dos dados.
  • Controle granular sobre o local: os endpoints dedicados permitem implantar em qualquer acelerador do Compute Engine em Google Cloud em todas as regiões.

Quando usar contêineres pré-criados

Considere usar contêineres pré-criados da Vertex AI nestes cenários:

  • Performance otimizada: a Vertex AI otimiza e personaliza contêineres pré-criados para frameworks como o vLLM, melhorando a performance, a confiabilidade e a integração perfeita no Google Cloud.
  • Facilidade de uso: disponibilize modelos usando frameworks de veiculação conhecidos, como vLLM, Hex-LLM, SGLang, TGI ou TensorRT-LLM, sem criar e manter suas próprias imagens de contêiner.

Quando usar contêineres vLLM personalizados

Considere criar e usar seu próprio contêiner personalizado nestes cenários:

  • Flexibilidade máxima: quando as opções de veiculação e os contêineres pré-criados não são suficientes para suas necessidades e você precisa de controle total sobre a imagem do contêiner, incluindo dependências e configurações.
  • Lógica de exibição personalizada: quando o modelo exige etapas exclusivas de pré-processamento ou pós-processamento que não são compatíveis com contêineres pré-criados.

A seguir