Déployer des modèles ouverts avec des conteneurs prédéfinis

Ce document explique comment déployer et diffuser des modèles ouverts sur Vertex AI à l'aide d'images de conteneur prédéfinies. Vertex AI fournit des conteneurs prédéfinis pour les frameworks de diffusion populaires tels que vLLM, Hex-LLM et SGLang, ainsi que la compatibilité avec Hugging Face Text Generation Inference (TGI), Text Embeddings Inference (TEI), Inference Toolkit (viaGoogle Cloud Hugging Face PyTorch Inference Containers) et les conteneurs Tensor-RT-LLM pour diffuser les modèles compatibles sur Vertex AI.

vLLM est une bibliothèque Open Source permettant l'inférence et la diffusion rapides de grands modèles de langage (LLM). Vertex AI utilise une version optimisée et personnalisée de vLLM. Cette version est spécifiquement conçue pour améliorer les performances, la fiabilité et l'intégration dans Google Cloud. Vous pouvez utiliser l'image de conteneur vLLM personnalisée de Vertex AI pour diffuser des modèles sur Vertex AI. Le conteneur vLLM prédéfini peut télécharger des modèles depuis Hugging Face ou Cloud Storage. Pour en savoir plus sur le service de modèles avec les images de conteneur vLLM prédéfinies Vertex AI, consultez Service de modèles avec les images de conteneur vLLM prédéfinies Vertex AI.

Exemples de notebooks

Les notebooks suivants montrent comment utiliser les conteneurs prédéfinis Vertex AI pour la diffusion de modèles. Vous trouverez d'autres exemples de notebooks dans le dépôt GitHub d'exemples Vertex AI.

Nom du notebook	Description	Lien direct (GitHub/Colab)
Vertex AI Model Garden – Gemma 3 (déploiement)	Montre comment déployer des modèles Gemma 3 sur un GPU à l'aide de vLLM.	Afficher sur GitHub
Vertex AI Model Garden : diffuser Llama 3.2 multimodal avec vLLM	Déploie des modèles Llama 3.2 multimodaux à l'aide du conteneur prédéfini vLLM.	Afficher sur GitHub
Vertex AI Model Garden : déploiement de l'inférence de génération de texte Hugging Face	Démonstration du déploiement du modèle Gemma-2-2b-it avec Text Generation Inference (TGI) de Hugging Face	Afficher sur GitHub
Vertex AI Model Garden : déploiement de l'inférence d'embedding textuel Hugging Face	Démonstration du déploiement de nomic-ai/nomic-embed-text-v1 avec Text Embeddings Inference (TEI) de Hugging Face	Afficher sur GitHub
Vertex AI Model Garden : déploiement de l'inférence PyTorch Hugging Face	Démonstration du déploiement de distilbert/distilbert-base-uncased-finetuned-sst-2-english avec Hugging Face PyTorch Inference	Afficher sur GitHub
Vertex AI Model Garden : déploiement DeepSeek	Démonstration de la diffusion de modèles DeepSeek avec vLLM, SGLang ou TensorRT-LLM	Afficher sur GitHub
Vertex AI Model Garden : déploiement de Qwen3	Démonstration de la diffusion de modèles Qwen3 avec SGLang	Afficher sur GitHub
Vertex AI Model Garden : déploiement de Gemma 3n	Démonstration de la diffusion de modèles Gemma3n avec SGLang	Afficher sur GitHub
Vertex AI Model Garden : déploiement de Llama 3.1 et 3.2 avec Hex-LLM	Démonstration du déploiement de modèles Llama 3.1 et 3.2 à l'aide de Hex-LLM sur des TPU avec Vertex AI Model Garden	Afficher sur GitHub

Déployer des modèles ouverts avec des conteneurs prédéfinis Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Exemples de notebooks

Étapes suivantes

Déployer des modèles ouverts avec des conteneurs prédéfinis