Ce document explique comment déployer et mettre en service des modèles ouverts sur Gemini Enterprise Agent Platform à l'aide d'images de conteneur prédéfinies. Gemini Enterprise Agent Platform fournit des conteneurs prédéfinis pour les frameworks de mise en service courants tels que vLLM, Hex-LLM, et SGLang, ainsi que la compatibilité avec Hugging Face Text Generation Inference (TGI), Text Embeddings Inference (TEI), Inference Toolkit (via Google Cloud Hugging Face PyTorch Inference Containers) et Tensor-RT-LLM conteneurs pour mettre en service les modèles compatibles sur Gemini Enterprise Agent Platform.
vLLM est une bibliothèque Open Source permettant l'inférence et la mise en service rapides de grands modèles de langage (LLM). Gemini Enterprise Agent Platform utilise une version optimisée et personnalisée de vLLM. Cette version est spécialement conçue pour améliorer les performances, la fiabilité et l'intégration transparente Google Cloud. Vous pouvez utiliser l'image de conteneur vLLM personnalisée de Gemini Enterprise Agent Platform pour mettre en service des modèles sur Gemini Enterprise Agent Platform. Le conteneur vLLM prédéfini peut télécharger des modèles à partir de Hugging Face ou de Cloud Storage. Pour en savoir plus sur la mise en service de modèles avec les images de conteneur vLLM prédéfinies de Gemini Enterprise Agent Platform, consultez Mise en service de modèles avec les images de conteneur vLLM prédéfinies de Gemini Enterprise Agent Platform images.
Exemples de notebooks
Les notebooks suivants montrent comment utiliser les conteneurs prédéfinis de Gemini Enterprise Agent Platform pour la mise en service de modèles. Vous trouverez d'autres exemples de notebooks dans le dépôt GitHub pour les exemples de Gemini Enterprise Agent Platform.
| Nom du notebook | Description | Lien direct (GitHub/Colab) |
|---|---|---|
| Gemini Enterprise Agent Platform Model Garden – Gemma 3 (déploiement) | Montre comment déployer des modèles Gemma 3 sur GPU à l'aide de vLLM. | Afficher sur GitHub |
| Gemini Enterprise Agent Platform Model Garden – Mettre en service Llama 3.2 multimodal avec vLLM | Déploie des modèles Llama 3.2 multimodaux à l'aide du conteneur prédéfini vLLM. | Afficher sur GitHub |
| Gemini Enterprise Agent Platform Model Garden – Déploiement de l'inférence de génération de texte Hugging Face | Montre comment déployer le modèle Gemma-2-2b-it avec l'inférence de génération de texte (TGI) de Hugging Face. | Afficher sur GitHub |
| Gemini Enterprise Agent Platform Model Garden – Déploiement de l'inférence d'embedding textuel Hugging Face | Montre comment déployer nomic-ai/nomic-embed-text-v1 avec l'inférence d'embedding textuel (TEI) de Hugging Face. | Afficher sur GitHub |
| Gemini Enterprise Agent Platform Model Garden – Déploiement de l'inférence PyTorch Hugging Face | Montre comment déployer distilbert/distilbert-base-uncased-finetuned-sst-2-english avec l'inférence PyTorch Hugging Face. | Afficher sur GitHub |
| Gemini Enterprise Agent Platform Model Garden – Déploiement DeepSeek | Montre comment mettre en service des modèles DeepSeek avec vLLM, SGLang ou TensorRT-LLM. | Afficher sur GitHub |
| Gemini Enterprise Agent Platform Model Garden – Déploiement Qwen3 | Montre comment mettre en service des modèles Qwen3 avec SGLang. | Afficher sur GitHub |
| Gemini Enterprise Agent Platform Model Garden – Déploiement Gemma 3n | Montre comment mettre en service des modèles Gemma3n avec SGLang. | Afficher sur GitHub |
| Gemini Enterprise Agent Platform Model Garden – Analyse approfondie : déployer Llama 3.1 et 3.2 avec Hex-LLM | Montre comment déployer des modèles Llama 3.1 et 3.2 à l'aide de Hex-LLM sur des TPU avec Gemini Enterprise Agent Platform Model Garden. | Afficher sur GitHub |
Étape suivante
- Choisir une option de mise en service de modèle ouvert
- Utiliser des modèles ouverts avec le modèle en tant que service (MaaS)
- Déployer des modèles ouverts à partir de Model Garden
- Déployer des modèles ouverts avec un conteneur vLLM personnalisé