Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Implantar modelos abertos com contêineres pré-criados

Este documento descreve como implantar e disponibilizar modelos abertos na plataforma de agentes do Gemini Enterprise usando imagens de contêiner pré-criadas. A plataforma de agentes do Gemini Enterprise oferece contêineres pré-criados para frameworks de disponibilização conhecidos, como vLLM, Hex-LLM e SGLang, além de suporte para inferência de geração de texto (TGI), inferência de embeddings de texto (TEI), kit de ferramentas de inferência (via Google Cloud contêineres de inferência do PyTorch do Hugging Face) e contêineres Tensor-RT-LLM para disponibilizar modelos compatíveis na plataforma de agentes do Gemini Enterprise.

O vLLM é uma biblioteca de código aberto para inferência e disponibilização rápidas de modelos de linguagem grandes (LLMs). A plataforma de agentes do Gemini Enterprise usa uma versão otimizada e personalizada do vLLM. Essa versão foi projetada especificamente para melhorar o desempenho, a confiabilidade e a integração perfeita Google Cloud. É possível usar a imagem de contêiner vLLM personalizada da plataforma de agentes do Gemini Enterprise para disponibilizar modelos na plataforma de agentes do Gemini Enterprise. O contêiner vLLM pré-criado pode fazer o download de modelos do Hugging Face ou do Cloud Storage. Para mais informações sobre a disponibilização do modelo com imagens de contêiner vLLM pré-criadas da Gemini Enterprise Agent Platform, consulte Disponibilização do modelo com imagens de contêiner vLLM pré-criadas da Gemini Enterprise Agent Platform images.

Notebooks de exemplo

Os notebooks a seguir demonstram como usar contêineres pré-criados da plataforma de agentes do Gemini Enterprise para disponibilização de modelos. É possível encontrar mais notebooks de exemplo no repositório do GitHub para exemplos da plataforma de agentes do Gemini Enterprise.

Nome do notebook	Descrição	Link direto (GitHub/Colab)
Model Garden da plataforma de agentes do Gemini Enterprise - Gemma 3 (implantação)	Demonstra a implantação de modelos do Gemma 3 na GPU usando o vLLM.	Ver no GitHub
Model Garden da plataforma de agentes do Gemini Enterprise - Disponibilizar o Llama 3.2 multimodal com o vLLM	Implanta modelos Llama 3.2 multimodais usando o contêiner vLLM pré-criado.	Ver no GitHub
Model Garden da Gemini Enterprise Agent Platform - Implantação de inferência de geração de texto do Hugging Face	Demonstra a implantação do modelo Gemma-2-2b-it com inferência de geração de texto (TGI) do Hugging Face	Ver no GitHub
Model Garden da Gemini Enterprise Agent Platform - Implantação de inferência de embeddings de texto do Hugging Face	Demonstra a implantação do nomic-ai/nomic-embed-text-v1 com inferência de embeddings de texto (TEI) do Hugging Face	Ver no GitHub
Model Garden da plataforma de agentes do Gemini Enterprise - Implantação de inferência do PyTorch do Hugging Face	Demonstra a implantação do distilbert/distilbert-base-uncased-finetuned-sst-2-english com inferência do PyTorch do Hugging Face	Ver no GitHub
Model Garden da plataforma de agentes do Gemini Enterprise - Implantação do DeepSeek	Demonstra a disponibilização de modelos do DeepSeek com vLLM, SGLang ou TensorRT-LLM	Ver no GitHub
Model Garden da plataforma de agentes do Gemini Enterprise - Implantação do Qwen3	Demonstra a disponibilização de modelos do Qwen3 com o SGLang	Ver no GitHub
Model Garden da plataforma de agentes do Gemini Enterprise - Implantação do Gemma 3n	Demonstra a disponibilização de modelos do Gemma3n com o SGLang	Ver no GitHub
Model Garden da plataforma de agentes do Gemini Enterprise - Análise detalhada: implantar o Llama 3.1 e 3.2 com o Hex-LLM	Demonstra a implantação de modelos Llama 3.1 e 3.2 usando o Hex-LLM em TPUs com o Model Garden da plataforma de agentes do Gemini Enterprise	Ver no GitHub

Implantar modelos abertos com contêineres pré-criados Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Notebooks de exemplo

A seguir

Implantar modelos abertos com contêineres pré-criados