Este documento descreve como implantar e disponibilizar modelos abertos na Vertex AI usando imagens de contêineres predefinidas. A Vertex AI oferece contêineres pré-criados para frameworks de serviço populares, como vLLM, Hex-LLM e SGLang, além de suporte para Text Generation Inference (TGI), Text Embeddings Inference (TEI), Inference Toolkit (viaGoogle Cloud Hugging Face PyTorch Inference Containers) e contêineres Tensor-RT-LLM do Hugging Face.
O vLLM é uma biblioteca de código aberto para inferência e disponibilização rápidas de modelos de linguagem grandes (LLMs). A Vertex AI usa uma versão otimizada e personalizada do vLLM. Essa versão foi projetada especificamente para melhorar o desempenho, a confiabilidade e a integração perfeita no Google Cloud. É possível usar a imagem de contêiner vLLM personalizada da Vertex AI para veicular modelos na Vertex AI. O contêiner vLLM pré-criado pode fazer o download de modelos do Hugging Face ou do Cloud Storage. Para mais informações sobre a disponibilização de modelos com imagens de contêiner vLLM pré-criadas da Vertex AI, consulte Disponibilização de modelos com imagens de contêiner vLLM pré-criadas da Vertex AI.
Notebooks de exemplo
Os notebooks a seguir demonstram como usar contêineres pré-criados da Vertex AI para veiculação de modelos. Encontre mais notebooks de exemplo no repositório do GitHub para exemplos da Vertex AI.
| Nome do notebook | Descrição | Link direto (GitHub/Colab) |
|---|---|---|
| Model Garden da Vertex AI: Gemma 3 (implantação) | Mostra como implantar modelos do Gemma 3 em GPUs usando o vLLM. | Ver no GitHub |
| Model Garden da Vertex AI: disponibilizar o Llama 3.2 multimodal com vLLM | Implanta modelos multimodais do Llama 3.2 usando o contêiner pré-criado do vLLM. | Ver no GitHub |
| Vertex AI Model Garden: implantação de inferência de geração de texto do Hugging Face | Demonstra a implantação do modelo Gemma-2-2b-it com a inferência de geração de texto (TGI) do Hugging Face | Ver no GitHub |
| Vertex AI Model Garden: implantação de inferência de embeddings de texto do Hugging Face | Demonstra a implantação de nomic-ai/nomic-embed-text-v1 com inferência de embeddings de texto (TEI) da Hugging Face | Ver no GitHub |
| Model Garden da Vertex AI: implantação de inferência do PyTorch do Hugging Face | Demonstra a implantação de distilbert/distilbert-base-uncased-finetuned-sst-2-english com a inferência do PyTorch do Hugging Face | Ver no GitHub |
| Model Garden da Vertex AI: implantação do DeepSeek | Demonstra como disponibilizar modelos DeepSeek com vLLM, SGLang ou TensorRT-LLM | Ver no GitHub |
| Model Garden da Vertex AI: implantação do Qwen3 | Demonstra como veicular modelos Qwen3 com SGLang | Ver no GitHub |
| Model Garden da Vertex AI: implantação do Gemma 3n | Demonstra a disponibilização de modelos Gemma3n com SGLang. | Ver no GitHub |
| Model Garden da Vertex AI: detalhes da implantação do Llama 3.1 e 3.2 com o Hex-LLM | Demonstra a implantação dos modelos Llama 3.1 e 3.2 usando o Hex-LLM em TPUs com o Model Garden da Vertex AI | Ver no GitHub |
A seguir
- Escolher uma opção de veiculação de modelo aberto
- Usar modelos abertos com o modelo como um serviço (MaaS)
- Implantar modelos abertos do Model Garden
- Implantar modelos abertos com um contêiner vLLM personalizado