Implantar modelos abertos com contêineres pré-criados

Este documento descreve como implantar e disponibilizar modelos abertos na Vertex AI usando imagens de contêineres predefinidas. A Vertex AI oferece contêineres pré-criados para frameworks de serviço populares, como vLLM, Hex-LLM e SGLang, além de suporte para Text Generation Inference (TGI), Text Embeddings Inference (TEI), Inference Toolkit (viaGoogle Cloud Hugging Face PyTorch Inference Containers) e contêineres Tensor-RT-LLM do Hugging Face.

O vLLM é uma biblioteca de código aberto para inferência e disponibilização rápidas de modelos de linguagem grandes (LLMs). A Vertex AI usa uma versão otimizada e personalizada do vLLM. Essa versão foi projetada especificamente para melhorar o desempenho, a confiabilidade e a integração perfeita no Google Cloud. É possível usar a imagem de contêiner vLLM personalizada da Vertex AI para veicular modelos na Vertex AI. O contêiner vLLM pré-criado pode fazer o download de modelos do Hugging Face ou do Cloud Storage. Para mais informações sobre a disponibilização de modelos com imagens de contêiner vLLM pré-criadas da Vertex AI, consulte Disponibilização de modelos com imagens de contêiner vLLM pré-criadas da Vertex AI.

Notebooks de exemplo

Os notebooks a seguir demonstram como usar contêineres pré-criados da Vertex AI para veiculação de modelos. Encontre mais notebooks de exemplo no repositório do GitHub para exemplos da Vertex AI.

Nome do notebook Descrição Link direto (GitHub/Colab)
Model Garden da Vertex AI: Gemma 3 (implantação) Mostra como implantar modelos do Gemma 3 em GPUs usando o vLLM. Ver no GitHub
Model Garden da Vertex AI: disponibilizar o Llama 3.2 multimodal com vLLM Implanta modelos multimodais do Llama 3.2 usando o contêiner pré-criado do vLLM. Ver no GitHub
Vertex AI Model Garden: implantação de inferência de geração de texto do Hugging Face Demonstra a implantação do modelo Gemma-2-2b-it com a inferência de geração de texto (TGI) do Hugging Face Ver no GitHub
Vertex AI Model Garden: implantação de inferência de embeddings de texto do Hugging Face Demonstra a implantação de nomic-ai/nomic-embed-text-v1 com inferência de embeddings de texto (TEI) da Hugging Face Ver no GitHub
Model Garden da Vertex AI: implantação de inferência do PyTorch do Hugging Face Demonstra a implantação de distilbert/distilbert-base-uncased-finetuned-sst-2-english com a inferência do PyTorch do Hugging Face Ver no GitHub
Model Garden da Vertex AI: implantação do DeepSeek Demonstra como disponibilizar modelos DeepSeek com vLLM, SGLang ou TensorRT-LLM Ver no GitHub
Model Garden da Vertex AI: implantação do Qwen3 Demonstra como veicular modelos Qwen3 com SGLang Ver no GitHub
Model Garden da Vertex AI: implantação do Gemma 3n Demonstra a disponibilização de modelos Gemma3n com SGLang. Ver no GitHub
Model Garden da Vertex AI: detalhes da implantação do Llama 3.1 e 3.2 com o Hex-LLM Demonstra a implantação dos modelos Llama 3.1 e 3.2 usando o Hex-LLM em TPUs com o Model Garden da Vertex AI Ver no GitHub

A seguir