Implementa modelos abiertos con contenedores compilados previamente

En este documento, se describe cómo implementar y entregar modelos abiertos en Gemini Enterprise Agent Platform con imágenes de contenedor compiladas previamente. Gemini Enterprise Agent Platform proporciona contenedores compilados previamente para frameworks de entrega populares, como vLLM, Hex-LLM y SGLang, además de compatibilidad con Hugging Face Text Generation Inference (TGI), Text Embeddings Inference (TEI), Inference Toolkit (a través deGoogle Cloud Hugging Face PyTorch Inference Containers) y contenedores Tensor-RT-LLM para entregar modelos compatibles en Gemini Enterprise Agent Platform.

vLLM es una biblioteca de código abierto para la inferencia y entrega rápidas de modelos de lenguaje grandes (LLM). Gemini Enterprise Agent Platform usa una versión optimizada y personalizada de vLLM. Esta versión está diseñada específicamente para mejorar el rendimiento, la confiabilidad y la integración perfecta dentro de Google Cloud. Puedes usar la imagen de contenedor vLLM personalizada de Gemini Enterprise Agent Platform para entregar modelos en Gemini Enterprise Agent Platform. El contenedor vLLM compilado previamente puede descargar modelos de Hugging Face o de Cloud Storage. Para obtener más información sobre la entrega de modelos con imágenes de contenedor vLLM compiladas previamente de Gemini Enterprise Agent Platform, consulta Entrega de modelos con imágenes de contenedor vLLM compiladas previamente de Gemini Enterprise Agent Platform.

Notebooks de ejemplo

En los siguientes notebooks, se muestra cómo usar contenedores compilados previamente de Gemini Enterprise Agent Platform para la entrega de modelos. Puedes encontrar más notebooks de ejemplo en el repositorio de GitHub para ejemplos de Gemini Enterprise Agent Platform.

Nombre del notebook Descripción Vínculo directo (GitHub/Colab)
Gemini Enterprise Agent Platform Model Garden - Gemma 3 (implementación) Muestra la implementación de modelos de Gemma 3 en GPU con vLLM. Ver en GitHub
Gemini Enterprise Agent Platform Model Garden - Entrega Llama 3.2 multimodal con vLLM Implementa modelos multimodales de Llama 3.2 con el contenedor vLLM compilado previamente. Ver en GitHub
Gemini Enterprise Agent Platform Model Garden - Implementación de Hugging Face Text Generation Inference Muestra la implementación del modelo Gemma-2-2b-it con Text Generation Inference (TGI) de Hugging Face Ver en GitHub
Gemini Enterprise Agent Platform Model Garden - Implementación de Hugging Face Text Embeddings Inference Muestra la implementación de nomic-ai/nomic-embed-text-v1 con Text Embeddings Inference (TEI) de Hugging Face Ver en GitHub
Gemini Enterprise Agent Platform Model Garden - Implementación de Hugging Face PyTorch Inference Muestra la implementación de distilbert/distilbert-base-uncased-finetuned-sst-2-english con Hugging Face PyTorch Inference Ver en GitHub
Gemini Enterprise Agent Platform Model Garden - Implementación de DeepSeek Muestra la entrega de modelos de DeepSeek con vLLM, SGLang o TensorRT-LLM Ver en GitHub
Gemini Enterprise Agent Platform Model Garden - Deployment de Qwen3 Muestra la entrega de modelos de Qwen3 con SGLang Ver en GitHub
Gemini Enterprise Agent Platform Model Garden - Deployment de Gemma 3n Muestra la entrega de modelos de Gemma3n con SGLang Ver en GitHub
Gemini Enterprise Agent Platform Model Garden - Análisis detallado: Implementa Llama 3.1 y 3.2 con Hex-LLM Muestra la implementación de modelos de Llama 3.1 y 3.2 con Hex-LLM en TPU con Gemini Enterprise Agent Platform Model Garden Ver en GitHub

¿Qué sigue?