Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Implementa modelos abiertos con contenedores compilados previamente

En este documento, se describe cómo implementar y entregar modelos abiertos en Gemini Enterprise Agent Platform con imágenes de contenedor compiladas previamente. Gemini Enterprise Agent Platform proporciona contenedores compilados previamente para frameworks de entrega populares, como vLLM, Hex-LLM y SGLang, además de compatibilidad con Hugging Face Text Generation Inference (TGI), Text Embeddings Inference (TEI), Inference Toolkit (a través deGoogle Cloud Hugging Face PyTorch Inference Containers) y contenedores Tensor-RT-LLM para entregar modelos compatibles en Gemini Enterprise Agent Platform.

vLLM es una biblioteca de código abierto para la inferencia y entrega rápidas de modelos de lenguaje grandes (LLM). Gemini Enterprise Agent Platform usa una versión optimizada y personalizada de vLLM. Esta versión está diseñada específicamente para mejorar el rendimiento, la confiabilidad y la integración perfecta dentro de Google Cloud. Puedes usar la imagen de contenedor vLLM personalizada de Gemini Enterprise Agent Platform para entregar modelos en Gemini Enterprise Agent Platform. El contenedor vLLM compilado previamente puede descargar modelos de Hugging Face o de Cloud Storage. Para obtener más información sobre la entrega de modelos con imágenes de contenedor vLLM compiladas previamente de Gemini Enterprise Agent Platform, consulta Entrega de modelos con imágenes de contenedor vLLM compiladas previamente de Gemini Enterprise Agent Platform.

Notebooks de ejemplo

En los siguientes notebooks, se muestra cómo usar contenedores compilados previamente de Gemini Enterprise Agent Platform para la entrega de modelos. Puedes encontrar más notebooks de ejemplo en el repositorio de GitHub para ejemplos de Gemini Enterprise Agent Platform.

Nombre del notebook	Descripción	Vínculo directo (GitHub/Colab)
Gemini Enterprise Agent Platform Model Garden - Gemma 3 (implementación)	Muestra la implementación de modelos de Gemma 3 en GPU con vLLM.	Ver en GitHub
Gemini Enterprise Agent Platform Model Garden - Entrega Llama 3.2 multimodal con vLLM	Implementa modelos multimodales de Llama 3.2 con el contenedor vLLM compilado previamente.	Ver en GitHub
Gemini Enterprise Agent Platform Model Garden - Implementación de Hugging Face Text Generation Inference	Muestra la implementación del modelo Gemma-2-2b-it con Text Generation Inference (TGI) de Hugging Face	Ver en GitHub
Gemini Enterprise Agent Platform Model Garden - Implementación de Hugging Face Text Embeddings Inference	Muestra la implementación de nomic-ai/nomic-embed-text-v1 con Text Embeddings Inference (TEI) de Hugging Face	Ver en GitHub
Gemini Enterprise Agent Platform Model Garden - Implementación de Hugging Face PyTorch Inference	Muestra la implementación de distilbert/distilbert-base-uncased-finetuned-sst-2-english con Hugging Face PyTorch Inference	Ver en GitHub
Gemini Enterprise Agent Platform Model Garden - Implementación de DeepSeek	Muestra la entrega de modelos de DeepSeek con vLLM, SGLang o TensorRT-LLM	Ver en GitHub
Gemini Enterprise Agent Platform Model Garden - Deployment de Qwen3	Muestra la entrega de modelos de Qwen3 con SGLang	Ver en GitHub
Gemini Enterprise Agent Platform Model Garden - Deployment de Gemma 3n	Muestra la entrega de modelos de Gemma3n con SGLang	Ver en GitHub
Gemini Enterprise Agent Platform Model Garden - Análisis detallado: Implementa Llama 3.1 y 3.2 con Hex-LLM	Muestra la implementación de modelos de Llama 3.1 y 3.2 con Hex-LLM en TPU con Gemini Enterprise Agent Platform Model Garden	Ver en GitHub

Implementa modelos abiertos con contenedores compilados previamente Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Notebooks de ejemplo

¿Qué sigue?

Implementa modelos abiertos con contenedores compilados previamente