Este documento descreve como implementar e publicar modelos abertos no Vertex AI usando imagens de contentores pré-criadas. A Vertex AI fornece contentores pré-criados para frameworks de publicação populares, como vLLM, Hex-LLM e SGLang, bem como suporte para Text Generation Inference (TGI), Text Embeddings Inference (TEI), Inference Toolkit (através deGoogle Cloud Hugging Face PyTorch Inference Containers) e contentores Tensor-RT-LLM para publicar modelos suportados na Vertex AI.
O vLLM é uma biblioteca de código aberto para inferência e fornecimento rápidos de grandes modelos de linguagem (GMLs). A Vertex AI usa uma versão otimizada e personalizada do vLLM. Esta versão foi concebida especificamente para um desempenho melhorado, fiabilidade e integração perfeita no Google Cloud. Pode usar a imagem do contentor vLLM personalizada do Vertex AI para apresentar modelos no Vertex AI. O contentor vLLM pré-criado pode transferir modelos do Hugging Face ou do Cloud Storage. Para mais informações sobre a apresentação de modelos com imagens de contentores vLLM pré-criados do Vertex AI, consulte o artigo Apresentação de modelos com imagens de contentores vLLM pré-criados do Vertex AI.
Blocos de notas de exemplo
Os seguintes blocos de notas demonstram como usar contentores pré-criados do Vertex AI para o serviço de modelos. Pode encontrar mais notebooks de exemplo no repositório do GitHub para exemplos do Vertex AI.
| Nome do bloco de notas | Descrição | Link direto (GitHub/Colab) |
|---|---|---|
| Vertex AI Model Garden – Gemma 3 (implementação) | Demonstra a implementação de modelos Gemma 3 na GPU através do vLLM. | Ver no GitHub |
| Vertex AI Model Garden: apresente o Llama 3.2 multimodal com o vLLM | Implementa modelos Llama 3.2 multimodais através do contentor pré-criado vLLM. | Ver no GitHub |
| Vertex AI Model Garden – Implementação da inferência de geração de texto do Hugging Face | Demonstra a implementação do modelo Gemma-2-2b-it com a inferência de geração de texto (TGI) da Hugging Face | Ver no GitHub |
| Vertex AI Model Garden – Implementação da inferência de incorporações de texto do Hugging Face | Demonstra a implementação de nomic-ai/nomic-embed-text-v1 com a inferência de incorporações de texto (TEI) da Hugging Face | Ver no GitHub |
| Vertex AI Model Garden – Implementação da inferência do PyTorch do Hugging Face | Demonstra a implementação de distilbert/distilbert-base-uncased-finetuned-sst-2-english com a inferência do Hugging Face PyTorch | Ver no GitHub |
| Vertex AI Model Garden – Implementação do DeepSeek | Demonstra a publicação de modelos DeepSeek com vLLM, SGLang ou TensorRT-LLM | Ver no GitHub |
| Vertex AI Model Garden – Implementação do Qwen3 | Demonstra a publicação de modelos Qwen3 com o SGLang | Ver no GitHub |
| Vertex AI Model Garden – Implementação do Gemma 3n | Demonstra a publicação de modelos Gemma3n com o SGLang | Ver no GitHub |
| Vertex AI Model Garden - Deep dive: implemente o Llama 3.1 e 3.2 com o Hex-LLM | Demonstra a implementação dos modelos Llama 3.1 e 3.2 com o Hex-LLM em TPUs através do Vertex AI Model Garden | Ver no GitHub |
O que se segue?
- Escolha uma opção de publicação de modelos abertos
- Use modelos abertos através do modelo como serviço (MaaS)
- Implemente modelos abertos do Model Garden
- Implemente modelos abertos com um contentor vLLM personalizado