Se usó la API de Cloud Translation para traducir esta página.

Implementa modelos abiertos con contenedores compilados previamente

En este documento, se describe cómo implementar y entregar modelos abiertos en Vertex AI con imágenes de contenedores compiladas previamente. Vertex AI proporciona contenedores compilados previamente para frameworks de entrega populares, como vLLM, Hex-LLM y SGLang, además de compatibilidad con Text Generation Inference (TGI), Text Embeddings Inference (TEI) y Inference Toolkit (a través deGoogle Cloud Hugging Face PyTorch Inference Containers) de Hugging Face, y contenedores de Tensor-RT-LLM para entregar modelos compatibles en Vertex AI.

vLLM es una biblioteca de código abierto para la inferencia y la entrega rápidas de modelos de lenguaje grandes (LLM). Vertex AI usa una versión optimizada y personalizada de vLLM. Esta versión está diseñada específicamente para mejorar el rendimiento, la confiabilidad y la integración perfecta en Google Cloud. Puedes usar la imagen de contenedor de vLLM personalizada de Vertex AI para entregar modelos en Vertex AI. El contenedor de vLLM compilado previamente puede descargar modelos de Hugging Face o de Cloud Storage. Para obtener más información sobre la entrega de modelos con imágenes de contenedores vLLM compilados previamente de Vertex AI, consulta Entrega de modelos con imágenes de contenedores vLLM compilados previamente de Vertex AI.

Notebooks de ejemplo

En los siguientes notebooks, se muestra cómo usar contenedores compilados previamente de Vertex AI para la entrega de modelos. Puedes encontrar más notebooks de ejemplo en el repositorio de GitHub para las muestras de Vertex AI.

Nombre del notebook	Descripción	Vínculo directo (GitHub/Colab)
Vertex AI Model Garden: Gemma 3 (implementación)	Se muestra la implementación de modelos de Gemma 3 en la GPU con vLLM.	Ver en GitHub
Vertex AI Model Garden: Entrega Llama 3.2 multimodal con vLLM	Implementa modelos multimodales de Llama 3.2 con el contenedor compilado previamente de vLLM.	Ver en GitHub
Vertex AI Model Garden: Implementación de inferencia de generación de texto de Hugging Face	Demuestra la implementación del modelo Gemma-2-2b-it con la inferencia de generación de texto (TGI) de Hugging Face	Ver en GitHub
Vertex AI Model Garden: Implementación de la inferencia de embeddings de texto de Hugging Face	Se muestra cómo implementar nomic-ai/nomic-embed-text-v1 con la inferencia de embeddings de texto (TEI) de Hugging Face	Ver en GitHub
Vertex AI Model Garden: Implementación de inferencia de PyTorch de Hugging Face	Demuestra la implementación de distilbert/distilbert-base-uncased-finetuned-sst-2-english con la inferencia de PyTorch de Hugging Face	Ver en GitHub
Vertex AI Model Garden: implementación de DeepSeek	Demuestra la entrega de modelos de DeepSeek con vLLM, SGLang o TensorRT-LLM	Ver en GitHub
Vertex AI Model Garden: Deployment de Qwen3	Demuestra cómo entregar modelos de Qwen3 con SGLang	Ver en GitHub
Vertex AI Model Garden: Deployment de Gemma 3n	Demuestra la entrega de modelos de Gemma3n con SGLang	Ver en GitHub
Vertex AI Model Garden: Análisis detallado sobre la implementación de Llama 3.1 y 3.2 con Hex-LLM	Muestra la implementación de modelos de Llama 3.1 y 3.2 con Hex-LLM en TPU a través de Vertex AI Model Garden	Ver en GitHub

Implementa modelos abiertos con contenedores compilados previamente Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Notebooks de ejemplo

¿Qué sigue?

Implementa modelos abiertos con contenedores compilados previamente