Implantar modelos abertos com contêineres pré-criados

Este documento descreve como implantar e disponibilizar modelos abertos na plataforma de agentes do Gemini Enterprise usando imagens de contêiner pré-criadas. A plataforma de agentes do Gemini Enterprise oferece contêineres pré-criados para frameworks de disponibilização conhecidos, como vLLM, Hex-LLM e SGLang, além de suporte para inferência de geração de texto (TGI), inferência de embeddings de texto (TEI), kit de ferramentas de inferência (via Google Cloud contêineres de inferência do PyTorch do Hugging Face) e contêineres Tensor-RT-LLM para disponibilizar modelos compatíveis na plataforma de agentes do Gemini Enterprise.

O vLLM é uma biblioteca de código aberto para inferência e disponibilização rápidas de modelos de linguagem grandes (LLMs). A plataforma de agentes do Gemini Enterprise usa uma versão otimizada e personalizada do vLLM. Essa versão foi projetada especificamente para melhorar o desempenho, a confiabilidade e a integração perfeita Google Cloud. É possível usar a imagem de contêiner vLLM personalizada da plataforma de agentes do Gemini Enterprise para disponibilizar modelos na plataforma de agentes do Gemini Enterprise. O contêiner vLLM pré-criado pode fazer o download de modelos do Hugging Face ou do Cloud Storage. Para mais informações sobre a disponibilização do modelo com imagens de contêiner vLLM pré-criadas da Gemini Enterprise Agent Platform, consulte Disponibilização do modelo com imagens de contêiner vLLM pré-criadas da Gemini Enterprise Agent Platform images.

Notebooks de exemplo

Os notebooks a seguir demonstram como usar contêineres pré-criados da plataforma de agentes do Gemini Enterprise para disponibilização de modelos. É possível encontrar mais notebooks de exemplo no repositório do GitHub para exemplos da plataforma de agentes do Gemini Enterprise.

Nome do notebook Descrição Link direto (GitHub/Colab)
Model Garden da plataforma de agentes do Gemini Enterprise - Gemma 3 (implantação) Demonstra a implantação de modelos do Gemma 3 na GPU usando o vLLM. Ver no GitHub
Model Garden da plataforma de agentes do Gemini Enterprise - Disponibilizar o Llama 3.2 multimodal com o vLLM Implanta modelos Llama 3.2 multimodais usando o contêiner vLLM pré-criado. Ver no GitHub
Model Garden da Gemini Enterprise Agent Platform - Implantação de inferência de geração de texto do Hugging Face Demonstra a implantação do modelo Gemma-2-2b-it com inferência de geração de texto (TGI) do Hugging Face Ver no GitHub
Model Garden da Gemini Enterprise Agent Platform - Implantação de inferência de embeddings de texto do Hugging Face Demonstra a implantação do nomic-ai/nomic-embed-text-v1 com inferência de embeddings de texto (TEI) do Hugging Face Ver no GitHub
Model Garden da plataforma de agentes do Gemini Enterprise - Implantação de inferência do PyTorch do Hugging Face Demonstra a implantação do distilbert/distilbert-base-uncased-finetuned-sst-2-english com inferência do PyTorch do Hugging Face Ver no GitHub
Model Garden da plataforma de agentes do Gemini Enterprise - Implantação do DeepSeek Demonstra a disponibilização de modelos do DeepSeek com vLLM, SGLang ou TensorRT-LLM Ver no GitHub
Model Garden da plataforma de agentes do Gemini Enterprise - Implantação do Qwen3 Demonstra a disponibilização de modelos do Qwen3 com o SGLang Ver no GitHub
Model Garden da plataforma de agentes do Gemini Enterprise - Implantação do Gemma 3n Demonstra a disponibilização de modelos do Gemma3n com o SGLang Ver no GitHub
Model Garden da plataforma de agentes do Gemini Enterprise - Análise detalhada: implantar o Llama 3.1 e 3.2 com o Hex-LLM Demonstra a implantação de modelos Llama 3.1 e 3.2 usando o Hex-LLM em TPUs com o Model Garden da plataforma de agentes do Gemini Enterprise Ver no GitHub

A seguir