Este documento descreve como implantar e disponibilizar modelos abertos na plataforma de agentes do Gemini Enterprise usando imagens de contêiner pré-criadas. A plataforma de agentes do Gemini Enterprise oferece contêineres pré-criados para frameworks de disponibilização conhecidos, como vLLM, Hex-LLM e SGLang, além de suporte para inferência de geração de texto (TGI), inferência de embeddings de texto (TEI), kit de ferramentas de inferência (via Google Cloud contêineres de inferência do PyTorch do Hugging Face) e contêineres Tensor-RT-LLM para disponibilizar modelos compatíveis na plataforma de agentes do Gemini Enterprise.
O vLLM é uma biblioteca de código aberto para inferência e disponibilização rápidas de modelos de linguagem grandes (LLMs). A plataforma de agentes do Gemini Enterprise usa uma versão otimizada e personalizada do vLLM. Essa versão foi projetada especificamente para melhorar o desempenho, a confiabilidade e a integração perfeita Google Cloud. É possível usar a imagem de contêiner vLLM personalizada da plataforma de agentes do Gemini Enterprise para disponibilizar modelos na plataforma de agentes do Gemini Enterprise. O contêiner vLLM pré-criado pode fazer o download de modelos do Hugging Face ou do Cloud Storage. Para mais informações sobre a disponibilização do modelo com imagens de contêiner vLLM pré-criadas da Gemini Enterprise Agent Platform, consulte Disponibilização do modelo com imagens de contêiner vLLM pré-criadas da Gemini Enterprise Agent Platform images.
Notebooks de exemplo
Os notebooks a seguir demonstram como usar contêineres pré-criados da plataforma de agentes do Gemini Enterprise para disponibilização de modelos. É possível encontrar mais notebooks de exemplo no repositório do GitHub para exemplos da plataforma de agentes do Gemini Enterprise.
| Nome do notebook | Descrição | Link direto (GitHub/Colab) |
|---|---|---|
| Model Garden da plataforma de agentes do Gemini Enterprise - Gemma 3 (implantação) | Demonstra a implantação de modelos do Gemma 3 na GPU usando o vLLM. | Ver no GitHub |
| Model Garden da plataforma de agentes do Gemini Enterprise - Disponibilizar o Llama 3.2 multimodal com o vLLM | Implanta modelos Llama 3.2 multimodais usando o contêiner vLLM pré-criado. | Ver no GitHub |
| Model Garden da Gemini Enterprise Agent Platform - Implantação de inferência de geração de texto do Hugging Face | Demonstra a implantação do modelo Gemma-2-2b-it com inferência de geração de texto (TGI) do Hugging Face | Ver no GitHub |
| Model Garden da Gemini Enterprise Agent Platform - Implantação de inferência de embeddings de texto do Hugging Face | Demonstra a implantação do nomic-ai/nomic-embed-text-v1 com inferência de embeddings de texto (TEI) do Hugging Face | Ver no GitHub |
| Model Garden da plataforma de agentes do Gemini Enterprise - Implantação de inferência do PyTorch do Hugging Face | Demonstra a implantação do distilbert/distilbert-base-uncased-finetuned-sst-2-english com inferência do PyTorch do Hugging Face | Ver no GitHub |
| Model Garden da plataforma de agentes do Gemini Enterprise - Implantação do DeepSeek | Demonstra a disponibilização de modelos do DeepSeek com vLLM, SGLang ou TensorRT-LLM | Ver no GitHub |
| Model Garden da plataforma de agentes do Gemini Enterprise - Implantação do Qwen3 | Demonstra a disponibilização de modelos do Qwen3 com o SGLang | Ver no GitHub |
| Model Garden da plataforma de agentes do Gemini Enterprise - Implantação do Gemma 3n | Demonstra a disponibilização de modelos do Gemma3n com o SGLang | Ver no GitHub |
| Model Garden da plataforma de agentes do Gemini Enterprise - Análise detalhada: implantar o Llama 3.1 e 3.2 com o Hex-LLM | Demonstra a implantação de modelos Llama 3.1 e 3.2 usando o Hex-LLM em TPUs com o Model Garden da plataforma de agentes do Gemini Enterprise | Ver no GitHub |
A seguir
- Escolher uma opção de disponibilização de modelo aberto
- Usar modelos abertos com o modelo como serviço (MaaS)
- Implantar modelos abertos do Model Garden
- Implantar modelos abertos com um contêiner vLLM personalizado