Model Garden vous permet de déployer vous-même des modèles ouverts. Les modèles déployés par l'utilisateur ne sont pas sans serveur. Vous devez les déployer sur Vertex AI avant de les utiliser. Ces modèles se déploient de manière sécurisée dans votre projet Google Cloud et votre réseau VPC. Pour en savoir plus sur les modèles déployés par vous-même, consultez la documentation sur les modèles déployés par vous-même.
Pour savoir comment déployer des modèles partenaires, consultez Déployer des modèles partenaires depuis Model Garden.
Modèles ouverts auto-déployables
Les modèles Open Source de Model Garden peuvent être disponibles à la fois en tant qu'API gérée (MaaS) et en tant que modèle auto-déployable. Lorsqu'une offre d'API gérée et une offre de modèle auto-déployable sont disponibles pour un modèle donné, la fiche du modèle d'API gérée comporte la mention Service d'API dans son nom, contrairement à celle du modèle auto-déployable.
Lister les modèles
Pour obtenir la liste des modèles ouverts auto-déployables :
Accédez à Model Garden.
Dans le filtre Fonctionnalités, sélectionnez Modèles ouverts et Déploiement en un clic.
Déployer des modèles
Après avoir identifié le modèle ouvert que vous souhaitez déployer, vous pouvez le déployer sur un point de terminaison Vertex AI à l'aide du déploiement en un clic. Vous pouvez effectuer un déploiement en un clic à l'aide de la console Google Cloud ou du SDK Vertex AI pour Python.
Console
Pour déployer un modèle dans la console Google Cloud , procédez comme suit :
Accédez à Model Garden.
Recherchez la fiche du modèle que vous souhaitez utiliser, puis cliquez dessus.
Cliquez sur Déployer le modèle.
Configurez votre déploiement en suivant les instructions fournies.
Cliquez sur Déployer.
Python
L'exemple suivant vous montre comment déployer un modèle à l'aide du SDK Vertex AI pour Python.
import vertexai
from vertexai import model_garden
vertexai.init(project="PROJECT_ID", location="asia-south2")
model = model_garden.OpenModel("meta/llama3-3@llama-3.3-70b-instruct-fp8")
endpoint = model.deploy(
accept_eula=True,
machine_type="a3-ultragpu-8g",
accelerator_type="NVIDIA_H200_141GB",
accelerator_count=8,
serving_container_image_uri="us-docker.pkg.dev/deeplearning-platform-release/vertex-model-garden/tensorrt-llm.cu128.0-18.ubuntu2404.py312:20250605-1800-rc0",
endpoint_display_name="llama-3-3-70b-instruct-fp8-mg-one-click-deploy",
model_display_name="llama-3-3-70b-instruct-fp8-1752269273562",
use_dedicated_endpoint=True,
)
Déployer des modèles avec des pondérations personnalisées
Model Garden vous permet de déployer des modèles compatibles avec des pondérations personnalisées à partir d'un bucket Cloud Storage. Pour en savoir plus sur le déploiement de modèles avec des pondérations personnalisées, consultez Déployer des modèles avec des pondérations personnalisées. Vous pouvez déployer des pondérations personnalisées à l'aide de la console Google Cloud , de la Google Cloud CLI, de l'API Vertex AI ou du SDK Vertex AI pour Python.
Étapes suivantes
- Choisir une option de diffusion de modèle ouvert
- Utiliser des modèles ouverts avec le modèle en tant que service (MaaS)
- Déployer des modèles ouverts avec des conteneurs prédéfinis
- Déployer des modèles ouverts avec un conteneur vLLM personnalisé