Ce document explique comment déployer et diffuser des modèles ouverts sur Vertex AI à l'aide d'images de conteneur prédéfinies. Vertex AI fournit des conteneurs prédéfinis pour les frameworks de diffusion populaires tels que vLLM, Hex-LLM et SGLang, ainsi que la compatibilité avec Hugging Face Text Generation Inference (TGI), Text Embeddings Inference (TEI), Inference Toolkit (viaGoogle Cloud Hugging Face PyTorch Inference Containers) et les conteneurs Tensor-RT-LLM pour diffuser les modèles compatibles sur Vertex AI.
vLLM est une bibliothèque Open Source permettant l'inférence et la diffusion rapides de grands modèles de langage (LLM). Vertex AI utilise une version optimisée et personnalisée de vLLM. Cette version est spécifiquement conçue pour améliorer les performances, la fiabilité et l'intégration dans Google Cloud. Vous pouvez utiliser l'image de conteneur vLLM personnalisée de Vertex AI pour diffuser des modèles sur Vertex AI. Le conteneur vLLM prédéfini peut télécharger des modèles depuis Hugging Face ou Cloud Storage. Pour en savoir plus sur le service de modèles avec les images de conteneur vLLM prédéfinies Vertex AI, consultez Service de modèles avec les images de conteneur vLLM prédéfinies Vertex AI.
Exemples de notebooks
Les notebooks suivants montrent comment utiliser les conteneurs prédéfinis Vertex AI pour la diffusion de modèles. Vous trouverez d'autres exemples de notebooks dans le dépôt GitHub d'exemples Vertex AI.
| Nom du notebook | Description | Lien direct (GitHub/Colab) |
|---|---|---|
| Vertex AI Model Garden – Gemma 3 (déploiement) | Montre comment déployer des modèles Gemma 3 sur un GPU à l'aide de vLLM. | Afficher sur GitHub |
| Vertex AI Model Garden : diffuser Llama 3.2 multimodal avec vLLM | Déploie des modèles Llama 3.2 multimodaux à l'aide du conteneur prédéfini vLLM. | Afficher sur GitHub |
| Vertex AI Model Garden : déploiement de l'inférence de génération de texte Hugging Face | Démonstration du déploiement du modèle Gemma-2-2b-it avec Text Generation Inference (TGI) de Hugging Face | Afficher sur GitHub |
| Vertex AI Model Garden : déploiement de l'inférence d'embedding textuel Hugging Face | Démonstration du déploiement de nomic-ai/nomic-embed-text-v1 avec Text Embeddings Inference (TEI) de Hugging Face | Afficher sur GitHub |
| Vertex AI Model Garden : déploiement de l'inférence PyTorch Hugging Face | Démonstration du déploiement de distilbert/distilbert-base-uncased-finetuned-sst-2-english avec Hugging Face PyTorch Inference | Afficher sur GitHub |
| Vertex AI Model Garden : déploiement DeepSeek | Démonstration de la diffusion de modèles DeepSeek avec vLLM, SGLang ou TensorRT-LLM | Afficher sur GitHub |
| Vertex AI Model Garden : déploiement de Qwen3 | Démonstration de la diffusion de modèles Qwen3 avec SGLang | Afficher sur GitHub |
| Vertex AI Model Garden : déploiement de Gemma 3n | Démonstration de la diffusion de modèles Gemma3n avec SGLang | Afficher sur GitHub |
| Vertex AI Model Garden : déploiement de Llama 3.1 et 3.2 avec Hex-LLM | Démonstration du déploiement de modèles Llama 3.1 et 3.2 à l'aide de Hex-LLM sur des TPU avec Vertex AI Model Garden | Afficher sur GitHub |
Étapes suivantes
- Choisir une option de diffusion de modèle ouvert
- Utiliser des modèles ouverts avec le modèle en tant que service (MaaS)
- Déployer des modèles Open Source à partir de Model Garden
- Déployer des modèles ouverts avec un conteneur vLLM personnalisé