Implementa modelos abiertos con contenedores compilados previamente

En este documento, se describe cómo implementar y entregar modelos abiertos en Vertex AI con imágenes de contenedores compiladas previamente. Vertex AI proporciona contenedores compilados previamente para frameworks de entrega populares, como vLLM, Hex-LLM y SGLang, además de compatibilidad con Text Generation Inference (TGI), Text Embeddings Inference (TEI) y Inference Toolkit (a través deGoogle Cloud Hugging Face PyTorch Inference Containers) de Hugging Face, y contenedores de Tensor-RT-LLM para entregar modelos compatibles en Vertex AI.

vLLM es una biblioteca de código abierto para la inferencia y la entrega rápidas de modelos de lenguaje grandes (LLM). Vertex AI usa una versión optimizada y personalizada de vLLM. Esta versión está diseñada específicamente para mejorar el rendimiento, la confiabilidad y la integración perfecta en Google Cloud. Puedes usar la imagen de contenedor de vLLM personalizada de Vertex AI para entregar modelos en Vertex AI. El contenedor de vLLM compilado previamente puede descargar modelos de Hugging Face o de Cloud Storage. Para obtener más información sobre la entrega de modelos con imágenes de contenedores vLLM compilados previamente de Vertex AI, consulta Entrega de modelos con imágenes de contenedores vLLM compilados previamente de Vertex AI.

Notebooks de ejemplo

En los siguientes notebooks, se muestra cómo usar contenedores compilados previamente de Vertex AI para la entrega de modelos. Puedes encontrar más notebooks de ejemplo en el repositorio de GitHub para las muestras de Vertex AI.

Nombre del notebook Descripción Vínculo directo (GitHub/Colab)
Vertex AI Model Garden: Gemma 3 (implementación) Se muestra la implementación de modelos de Gemma 3 en la GPU con vLLM. Ver en GitHub
Vertex AI Model Garden: Entrega Llama 3.2 multimodal con vLLM Implementa modelos multimodales de Llama 3.2 con el contenedor compilado previamente de vLLM. Ver en GitHub
Vertex AI Model Garden: Implementación de inferencia de generación de texto de Hugging Face Demuestra la implementación del modelo Gemma-2-2b-it con la inferencia de generación de texto (TGI) de Hugging Face Ver en GitHub
Vertex AI Model Garden: Implementación de la inferencia de embeddings de texto de Hugging Face Se muestra cómo implementar nomic-ai/nomic-embed-text-v1 con la inferencia de embeddings de texto (TEI) de Hugging Face Ver en GitHub
Vertex AI Model Garden: Implementación de inferencia de PyTorch de Hugging Face Demuestra la implementación de distilbert/distilbert-base-uncased-finetuned-sst-2-english con la inferencia de PyTorch de Hugging Face Ver en GitHub
Vertex AI Model Garden: implementación de DeepSeek Demuestra la entrega de modelos de DeepSeek con vLLM, SGLang o TensorRT-LLM Ver en GitHub
Vertex AI Model Garden: Deployment de Qwen3 Demuestra cómo entregar modelos de Qwen3 con SGLang Ver en GitHub
Vertex AI Model Garden: Deployment de Gemma 3n Demuestra la entrega de modelos de Gemma3n con SGLang Ver en GitHub
Vertex AI Model Garden: Análisis detallado sobre la implementación de Llama 3.1 y 3.2 con Hex-LLM Muestra la implementación de modelos de Llama 3.1 y 3.2 con Hex-LLM en TPU a través de Vertex AI Model Garden Ver en GitHub

¿Qué sigue?