Implemente modelos abertos com contentores pré-criados

Este documento descreve como implementar e publicar modelos abertos no Vertex AI usando imagens de contentores pré-criadas. A Vertex AI fornece contentores pré-criados para frameworks de publicação populares, como vLLM, Hex-LLM e SGLang, bem como suporte para Text Generation Inference (TGI), Text Embeddings Inference (TEI), Inference Toolkit (através deGoogle Cloud Hugging Face PyTorch Inference Containers) e contentores Tensor-RT-LLM para publicar modelos suportados na Vertex AI.

O vLLM é uma biblioteca de código aberto para inferência e fornecimento rápidos de grandes modelos de linguagem (GMLs). A Vertex AI usa uma versão otimizada e personalizada do vLLM. Esta versão foi concebida especificamente para um desempenho melhorado, fiabilidade e integração perfeita no Google Cloud. Pode usar a imagem do contentor vLLM personalizada do Vertex AI para apresentar modelos no Vertex AI. O contentor vLLM pré-criado pode transferir modelos do Hugging Face ou do Cloud Storage. Para mais informações sobre a apresentação de modelos com imagens de contentores vLLM pré-criados do Vertex AI, consulte o artigo Apresentação de modelos com imagens de contentores vLLM pré-criados do Vertex AI.

Blocos de notas de exemplo

Os seguintes blocos de notas demonstram como usar contentores pré-criados do Vertex AI para o serviço de modelos. Pode encontrar mais notebooks de exemplo no repositório do GitHub para exemplos do Vertex AI.

Nome do bloco de notas Descrição Link direto (GitHub/Colab)
Vertex AI Model Garden – Gemma 3 (implementação) Demonstra a implementação de modelos Gemma 3 na GPU através do vLLM. Ver no GitHub
Vertex AI Model Garden: apresente o Llama 3.2 multimodal com o vLLM Implementa modelos Llama 3.2 multimodais através do contentor pré-criado vLLM. Ver no GitHub
Vertex AI Model Garden – Implementação da inferência de geração de texto do Hugging Face Demonstra a implementação do modelo Gemma-2-2b-it com a inferência de geração de texto (TGI) da Hugging Face Ver no GitHub
Vertex AI Model Garden – Implementação da inferência de incorporações de texto do Hugging Face Demonstra a implementação de nomic-ai/nomic-embed-text-v1 com a inferência de incorporações de texto (TEI) da Hugging Face Ver no GitHub
Vertex AI Model Garden – Implementação da inferência do PyTorch do Hugging Face Demonstra a implementação de distilbert/distilbert-base-uncased-finetuned-sst-2-english com a inferência do Hugging Face PyTorch Ver no GitHub
Vertex AI Model Garden – Implementação do DeepSeek Demonstra a publicação de modelos DeepSeek com vLLM, SGLang ou TensorRT-LLM Ver no GitHub
Vertex AI Model Garden – Implementação do Qwen3 Demonstra a publicação de modelos Qwen3 com o SGLang Ver no GitHub
Vertex AI Model Garden – Implementação do Gemma 3n Demonstra a publicação de modelos Gemma3n com o SGLang Ver no GitHub
Vertex AI Model Garden - Deep dive: implemente o Llama 3.1 e 3.2 com o Hex-LLM Demonstra a implementação dos modelos Llama 3.1 e 3.2 com o Hex-LLM em TPUs através do Vertex AI Model Garden Ver no GitHub

O que se segue?