A Vertex AI oferece várias maneiras de disponibilizar modelos de linguagem grandes abertos, incluindo Llama, DeepSeek, Mistral e Qwen, em Google Cloud. Este documento oferece uma visão geral das ofertas da Vertex AI para disponibilização de modelos abertos e ajuda você a escolher a opção certa para seu caso de uso.
Opções de veiculação
A Vertex AI oferece as seguintes opções para disponibilizar modelos abertos. Cada uma dessas opções oferece alta disponibilidade e inclui as práticas recomendadas de segurança Google Cloud por padrão:
- Modelo como serviço (MaaS): oferece modelos abertos usando APIs gerenciadas sem servidor.
- Modelos autoimplantados no Model Garden: implanta modelos abertos do Model Garden usando a implantação com um clique ou com ponderações personalizadas.
- Imagens de contêineres pré-criados da Vertex AI: disponibiliza modelos abertos usando contêineres pré-criados para frameworks de exibição conhecidos, como vLLM, Hex-LLM e TGI.
- Contêiner vLLM personalizado: permite criar e implantar seu próprio contêiner vLLM personalizado para mais flexibilidade.
Quando usar o MaaS
Considere usar o MaaS nestes cenários:
- Desenvolvimento e prototipagem rápidos: o MaaS ajuda você a integrar rapidamente recursos de LLM aos aplicativos. Isso é especialmente útil para exploração inicial, prototipagem rápida e quando o tempo de lançamento no mercado é uma meta principal.
- Minimizar a sobrecarga operacional: escolha o MaaS quando sua equipe quiser se concentrar na lógica do aplicativo em vez do gerenciamento de infraestrutura. O Google cuida de todo o provisionamento, escalonamento e manutenção de GPU/TPU, o que beneficia equipes focadas no desenvolvimento de aplicativos em vez de MLOps ou DevOps.
- Tráfego variável: o modelo de pagamento conforme o uso é compatível com cargas de trabalho ou aplicativos experimentais com padrões de tráfego imprevisíveis e irregulares.
- Uso imediato: use uma API gerenciada para aplicativos que precisam de performance consistente, mas não exigem personalização profunda do modelo ou da pilha de serviço.
- Segurança e compliance: o MaaS permite que as empresas usem os recursos integrados de segurança e compliance de nível empresarial do Google Cloud.
- Uso do modelo padrão: use o MaaS quando um modelo de base padrão e não personalizado atender às suas necessidades.
Quando usar modelos autoimplantados no Model Garden
As opções de autoimplantação incluem a implantação do Model Garden usando contêineres pré-criados ou personalizados. Considere o autodesenvolvimento nestes cenários principais:
- Pesos personalizados e modelos ajustados: o autodeploy é a melhor opção quando seu aplicativo exige o uso de pesos personalizados ou uma versão ajustada de um modelo, oferecendo mais flexibilidade para implantar modelos adaptados às suas necessidades específicas. Também é possível criar e implantar seus próprios contêineres de serviço personalizados. Por exemplo, use essa opção quando um modelo exigir uma lógica exclusiva de pré ou pós-processamento.
- Cargas de trabalho previsíveis e de alto volume: a autodeimplantação é uma opção estratégica e econômica para aplicativos de produção com tráfego previsível e de alto volume. Embora exija um investimento inicial maior em engenharia, ele pode levar a um custo total de propriedade (TCO) menor ao longo da vida útil do aplicativo devido aos custos otimizados por token em grande escala.
- Controle granular da infraestrutura: use a autolimitação quando precisar ajustar a performance e o orçamento escolhendo configurações de hardware específicas. Isso inclui selecionar tipos de máquina exatos, GPUs (por exemplo, NVIDIA L4 ou H100) ou TPUs e estruturas de serviço otimizadas.
- Segurança e compliance rigorosos: essa abordagem é compatível com aplicativos que precisam obedecer a políticas específicas de residência de dados ou regulamentações rigorosas que proíbem o uso de um serviço gerenciado multilocatário. Ele permite implantar modelos com segurança no seu próprio projeto Google Cloud e na rede de nuvem privada virtual, oferecendo controle total sobre o caminho dos dados.
- Controle granular sobre o local: os endpoints dedicados permitem implantar em qualquer acelerador do Compute Engine em Google Cloud em todas as regiões.
Quando usar contêineres pré-criados
Considere usar contêineres pré-criados da Vertex AI nestes cenários:
- Performance otimizada: a Vertex AI otimiza e personaliza contêineres pré-criados para frameworks como o vLLM, melhorando a performance, a confiabilidade e a integração perfeita no Google Cloud.
- Facilidade de uso: disponibilize modelos usando frameworks de veiculação conhecidos, como vLLM, Hex-LLM, SGLang, TGI ou TensorRT-LLM, sem criar e manter suas próprias imagens de contêiner.
Quando usar contêineres vLLM personalizados
Considere criar e usar seu próprio contêiner personalizado nestes cenários:
- Flexibilidade máxima: quando as opções de veiculação e os contêineres pré-criados não são suficientes para suas necessidades e você precisa de controle total sobre a imagem do contêiner, incluindo dependências e configurações.
- Lógica de exibição personalizada: quando o modelo exige etapas exclusivas de pré-processamento ou pós-processamento que não são compatíveis com contêineres pré-criados.
A seguir
- Usar modelos abertos com o modelo como um serviço (MaaS)
- Implantar modelos abertos do Model Garden
- Implantar modelos abertos com contêineres pré-criados
- Implantar modelos abertos com um contêiner vLLM personalizado