A Vertex AI oferece várias formas de publicar modelos de linguagem (conteúdo extenso) abertos, incluindo Llama, DeepSeek, Mistral e Qwen, em Google Cloud. Este documento oferece uma vista geral das ofertas do Vertex AI para o fornecimento de modelos abertos e ajuda a escolher a opção certa para o seu exemplo de utilização.
Opções de publicação
O Vertex AI oferece as seguintes opções para a apresentação de modelos abertos. Cada uma destas opções oferece elevada disponibilidade e inclui as práticas recomendadas de Google Cloud segurança por predefinição:
- Modelo como serviço (MaaS): publica modelos abertos através de APIs geridas sem servidor.
- Modelos implementados automaticamente no Model Garden: Implementa modelos abertos do Model Garden através da implementação com um clique ou com ponderações personalizadas.
- Imagens de contentores pré-criados do Vertex AI: apresenta modelos abertos através de contentores pré-criados para frameworks de apresentação populares, por exemplo, vLLM, Hex-LLM e TGI.
- Contentor vLLM personalizado: permite-lhe criar e implementar o seu próprio contentor vLLM personalizado para maior flexibilidade.
Quando usar o MaaS
Considere usar o MaaS nestes cenários:
- Desenvolvimento e criação de protótipos rápidos: o MaaS ajuda a integrar rapidamente capacidades de MDIs em aplicações. Isto é especialmente útil para a exploração inicial, a criação rápida de protótipos e quando um tempo de comercialização rápido é um objetivo fundamental.
- Minimizar a sobrecarga operacional: escolha o MaaS quando a sua equipa quiser concentrar-se na lógica da aplicação em vez da gestão da infraestrutura. A Google trata de toda a administração de contas, escalabilidade e manutenção de GPUs/TPUs, o que beneficia as equipas focadas no desenvolvimento de aplicações em vez de MLOps ou DevOps.
- Tráfego variável: o modelo de pagamento conforme o uso suporta cargas de trabalho ou aplicações experimentais com padrões de tráfego imprevisíveis e irregulares.
- Utilização imediata: use uma API gerida para aplicações que precisam de um desempenho consistente, mas não requerem uma personalização detalhada do modelo subjacente ou da pilha de publicação.
- Segurança e conformidade: o MaaS permite que as empresas usem as funcionalidades de segurança e conformidade de nível empresarial incorporadas do Google Cloud.
- Utilização do modelo padrão: use o MaaS quando um modelo base padrão e não personalizado satisfizer as suas necessidades.
Quando usar modelos implementados automaticamente no Model Garden
As opções de implementação autónoma incluem a implementação a partir do Model Garden através de contentores pré-criados ou personalizados. Considere a implementação autónoma nestes cenários importantes:
- Ponderações personalizadas e modelos otimizados: a implementação autónoma é a melhor escolha quando a sua aplicação requer a utilização de ponderações personalizadas ou uma versão otimizada de um modelo, oferecendo maior flexibilidade para implementar modelos adaptados às suas necessidades específicas. Também pode criar e implementar os seus próprios contentores de publicação personalizados. Por exemplo, use esta opção quando um modelo requer uma lógica de pré-processamento ou pós-processamento única.
- Cargas de trabalho previsíveis e de volume elevado: a implementação autónoma é uma opção estratégica e rentável para aplicações de produção com tráfego previsível e de volume elevado. Embora exija um maior investimento inicial em engenharia, pode levar a um custo total de propriedade (TCO) inferior ao longo da duração da aplicação devido aos custos por token otimizados em grande escala.
- Controlo detalhado da infraestrutura: use a implementação automática quando precisar de ajustar o desempenho e o orçamento escolhendo configurações de hardware específicas. Isto inclui selecionar tipos de máquinas exatos, GPUs (por exemplo, NVIDIA L4 ou H100) ou TPUs, e frameworks de publicação otimizados.
- Segurança e conformidade rigorosas: esta abordagem suporta aplicações que têm de cumprir políticas de residência de dados específicas ou regulamentos rigorosos que proíbem a utilização de um serviço gerido multi-inquilino. Permite-lhe implementar modelos de forma segura no seu próprio Google Cloud projeto e rede de nuvem privada virtual, o que lhe dá controlo total sobre o caminho dos dados.
- Controlo detalhado da localização: os pontos finais dedicados permitem a implementação em qualquer acelerador do Compute Engine em Google Cloud em todas as regiões.
Quando usar contentores pré-criados
Considere usar contentores pré-criados do Vertex AI nestes cenários:
- Desempenho otimizado: o Vertex AI otimiza e personaliza contentores pré-criados para frameworks como o vLLM para um desempenho melhorado, fiabilidade e integração perfeita no Google Cloud.
- Facilidade de utilização: publique modelos usando frameworks de publicação populares, como vLLM, Hex-LLM, SGLang, TGI ou TensorRT-LLM, sem criar e manter as suas próprias imagens de contentores.
Quando usar contentores vLLM personalizados
Considere criar e usar o seu próprio contentor personalizado nestes cenários:
- Máxima flexibilidade: quando as opções de publicação existentes e os contentores pré-criados não são suficientes para as suas necessidades e precisa de controlo total sobre a imagem do contentor, incluindo dependências e configurações.
- Lógica de publicação personalizada: quando o seu modelo requer passos de pré-processamento ou pós-processamento únicos que não são suportados por contentores pré-criados.
O que se segue?
- Use modelos abertos com o modelo como serviço (MaaS)
- Implemente modelos abertos do Model Garden
- Implemente modelos abertos com contentores pré-criados
- Implemente modelos abertos com um contentor vLLM personalizado