Déployer des modèles ouverts avec des conteneurs prédéfinis

Ce document explique comment déployer et mettre en service des modèles ouverts sur Gemini Enterprise Agent Platform à l'aide d'images de conteneur prédéfinies. Gemini Enterprise Agent Platform fournit des conteneurs prédéfinis pour les frameworks de mise en service courants tels que vLLM, Hex-LLM, et SGLang, ainsi que la compatibilité avec Hugging Face Text Generation Inference (TGI), Text Embeddings Inference (TEI), Inference Toolkit (via Google Cloud Hugging Face PyTorch Inference Containers) et Tensor-RT-LLM conteneurs pour mettre en service les modèles compatibles sur Gemini Enterprise Agent Platform.

vLLM est une bibliothèque Open Source permettant l'inférence et la mise en service rapides de grands modèles de langage (LLM). Gemini Enterprise Agent Platform utilise une version optimisée et personnalisée de vLLM. Cette version est spécialement conçue pour améliorer les performances, la fiabilité et l'intégration transparente Google Cloud. Vous pouvez utiliser l'image de conteneur vLLM personnalisée de Gemini Enterprise Agent Platform pour mettre en service des modèles sur Gemini Enterprise Agent Platform. Le conteneur vLLM prédéfini peut télécharger des modèles à partir de Hugging Face ou de Cloud Storage. Pour en savoir plus sur la mise en service de modèles avec les images de conteneur vLLM prédéfinies de Gemini Enterprise Agent Platform, consultez Mise en service de modèles avec les images de conteneur vLLM prédéfinies de Gemini Enterprise Agent Platform images.

Exemples de notebooks

Les notebooks suivants montrent comment utiliser les conteneurs prédéfinis de Gemini Enterprise Agent Platform pour la mise en service de modèles. Vous trouverez d'autres exemples de notebooks dans le dépôt GitHub pour les exemples de Gemini Enterprise Agent Platform.

Nom du notebook Description Lien direct (GitHub/Colab)
Gemini Enterprise Agent Platform Model Garden – Gemma 3 (déploiement) Montre comment déployer des modèles Gemma 3 sur GPU à l'aide de vLLM. Afficher sur GitHub
Gemini Enterprise Agent Platform Model Garden – Mettre en service Llama 3.2 multimodal avec vLLM Déploie des modèles Llama 3.2 multimodaux à l'aide du conteneur prédéfini vLLM. Afficher sur GitHub
Gemini Enterprise Agent Platform Model Garden – Déploiement de l'inférence de génération de texte Hugging Face Montre comment déployer le modèle Gemma-2-2b-it avec l'inférence de génération de texte (TGI) de Hugging Face. Afficher sur GitHub
Gemini Enterprise Agent Platform Model Garden – Déploiement de l'inférence d'embedding textuel Hugging Face Montre comment déployer nomic-ai/nomic-embed-text-v1 avec l'inférence d'embedding textuel (TEI) de Hugging Face. Afficher sur GitHub
Gemini Enterprise Agent Platform Model Garden – Déploiement de l'inférence PyTorch Hugging Face Montre comment déployer distilbert/distilbert-base-uncased-finetuned-sst-2-english avec l'inférence PyTorch Hugging Face. Afficher sur GitHub
Gemini Enterprise Agent Platform Model Garden – Déploiement DeepSeek Montre comment mettre en service des modèles DeepSeek avec vLLM, SGLang ou TensorRT-LLM. Afficher sur GitHub
Gemini Enterprise Agent Platform Model Garden – Déploiement Qwen3 Montre comment mettre en service des modèles Qwen3 avec SGLang. Afficher sur GitHub
Gemini Enterprise Agent Platform Model Garden – Déploiement Gemma 3n Montre comment mettre en service des modèles Gemma3n avec SGLang. Afficher sur GitHub
Gemini Enterprise Agent Platform Model Garden – Analyse approfondie : déployer Llama 3.1 et 3.2 avec Hex-LLM Montre comment déployer des modèles Llama 3.1 et 3.2 à l'aide de Hex-LLM sur des TPU avec Gemini Enterprise Agent Platform Model Garden. Afficher sur GitHub

Étape suivante