Déployer des modèles d'IA générative

Certains modèles d'IA générative, tels que Gemini, disposent d'API gérées et sont prêts à accepter des requêtes sans déploiement. Pour obtenir la liste des modèles disposant d'API gérées, consultez API de modèles de fondation.

D'autres modèles d'IA générative doivent être déployés sur un point de terminaison avant de pouvoir accepter des requêtes. Il existe deux types de modèles génératifs à déployer :

  • Les modèles réglés, que vous créez en affinant un modèle de fondation compatible avec vos propres données.

  • Les modèles génératifs sans API gérées. Dans Model Garden, il s'agit de modèles qui ne comportent pas d'étiquette API disponible ou Vertex AI Studio (par exemple, Llama 2).

Lorsque vous déployez un modèle sur un point de terminaison, Vertex AI associe des ressources de calcul et un URI au modèle afin qu'il puisse livrer les requêtes.

Déployer un modèle réglé

Les modèles réglés sont automatiquement importés dans Vertex AI Model Registry et déployés vers un endpoint Vertex AI public partagé. Les modèles réglés n'apparaissent pas dans Model Garden, car ils sont réglés avec vos données. Pour en savoir plus, consultez Présentation du réglage de modèle.

Une fois que le point de terminaison est actif, il est prêt à accepter les requêtes sur son URI. Le format de l'appel d'API pour un modèle réglé est identique à celui du modèle de fondation à partir duquel il a été réglé. Par exemple, si votre modèle est réglé sur Gemini, votre requête doit suivre l'API Gemini.

Veillez à envoyer les requêtes au point de terminaison de votre modèle réglé, plutôt qu'à l'API gérée. Le point de terminaison du modèle réglé est au format suivant :

https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID

Pour obtenir l'ID du point de terminaison, consultez Afficher ou gérer un point de terminaison.

Pour en savoir plus sur la mise en forme des requêtes, consultez la documentation de référence de l'API du modèle.

Déployer un modèle génératif sans API gérée

Pour utiliser un modèle de Model Garden qui ne possède pas d'API gérée, vous devez importer le modèle dans Model Registry et le déployer sur un point de terminaison avant de pouvoir envoyer des requêtes. Cette opération s'apparente à l'importation et au déploiement d'un modèle entraîné personnalisé pour la prédiction en ligne dans Vertex AI.

Pour déployer l'un de ces modèles, accédez à Model Garden et sélectionnez le modèle que vous souhaitez déployer.

Accéder à Model Garden

Chaque fiche de modèle affiche une ou plusieurs des options de déploiement suivantes :

  • Bouton Déployer : la plupart des modèles génératifs de Model Garden disposent d'un bouton Déployer qui vous guide tout au long du déploiement sur Vertex AI. Si vous ne voyez pas ce bouton, passez au point suivant.

    Pour le déploiement sur Vertex AI, vous pouvez utiliser les paramètres suggérés ou les modifier. Vous pouvez également définir des paramètres de déploiement Avancé pour, par exemple, sélectionner une réservation Compute Engine.

  • Bouton Ouvrir le notebook : cette option permet d'ouvrir un notebook Jupyter. Chaque fiche de modèle affiche cette option. Le notebook Jupyter inclut des instructions et un exemple de code permettant d'importer le modèle dans Model Registry, de le déployer sur un point de terminaison et d'envoyer une requête.

Une fois le déploiement terminé et le point de terminaison actif, il est prêt à accepter les requêtes sur son URI. Le format de l'API est predict et le format de chaque instance dans le corps de la requête dépend du modèle. Pour en savoir plus, consultez les ressources suivantes :

Assurez-vous de disposer d'un quota de machines suffisant pour déployer votre modèle. Pour afficher votre quota actuel ou demander une augmentation de quota, accédez à la console Google Cloud , puis à la page Quotas.

Accéder à "Quotas"

Filtrez ensuite les résultats avec le nom de quota Custom Model Serving afin d'afficher les quotas pour la prédiction en ligne. Pour en savoir plus, consultez Afficher et gérer les quotas.

Assurer la capacité des modèles déployés avec des réservations Compute Engine

Vous pouvez déployer des modèles Model Garden sur des ressources de VM allouées par le biais de réservations Compute Engine. Les réservations vous permettent de vous assurer que la capacité est disponible lorsque vos requêtes de prédiction de modèle en ont besoin. Pour en savoir plus, consultez Utiliser des réservations avec prédiction.

Afficher ou gérer un modèle

Pour les modèles réglés, vous pouvez afficher le modèle et son job de réglage sur la page Régler et distiller de la console Google Cloud .

Accéder à "Régler et distiller"

Vous pouvez également afficher et gérer tous vos modèles importés dans Model Registry.

Accéder à Model Registry

Dans Model Registry, un modèle réglé est classé dans la catégorie Grand modèle et possède des étiquettes qui spécifient le modèle de fondation ainsi que le pipeline ou le job de réglage utilisé pour le réglage.

Les modèles déployés avec le bouton Déployer indiqueront Model Garden comme Source. Notez que si le modèle est mis à jour dans Model Garden, votre modèle importé dans Model Registry n'est pas mis à jour.

Pour en savoir plus, consultez Présentation de Vertex AI Model Registry.

Afficher ou gérer un point de terminaison

Pour afficher et gérer votre point de terminaison, accédez à la page Prédiction en ligne de Vertex AI. Par défaut, le nom du point de terminaison est identique au nom du modèle.

Accéder à "Prédiction en ligne"

Pour en savoir plus, consultez Déployer un modèle sur un point de terminaison.

Surveiller le trafic des points de terminaison du modèle

Pour savoir comment surveiller le trafic des points de terminaison du modèle, consultez Surveiller les modèles.

Limites

  • Un modèle Gemini réglé ne peut être déployé que sur un point de terminaison public partagé. Le déploiement vers des points de terminaison publics dédiés, des points de terminaison Private Service Connect et des points de terminaison privés n'est pas pris en charge.

Tarification

Pour les modèles réglés, vous payez par jeton et le tarif est le même que pour le modèle de fondation à partir duquel votre modèle a été réglé. Le point de terminaison n'engendre pas de frais supplémentaires, car le réglage est implémenté comme une petite adaptation en complément du modèle de fondation. Pour en savoir plus, consultez les tarifs de l'IA générative sur Vertex AI.

Pour les modèles sans API gérées, vous payez les heures de fonctionnement des machines utilisées par votre point de terminaison au même tarif que les prédictions en ligne Vertex AI. Vous ne payez pas par jeton. Pour en savoir plus, consultez les tarifs des prédictions dans Vertex AI.

Étapes suivantes