Présentation de l'obtention d'inférences sur Agent Platform

Une inférence est le résultat d'un modèle de machine learning entraîné. Cette page présente le workflow permettant d'obtenir des inférences à partir de vos modèles sur Gemini Enterprise Agent Platform.

Agent Platform propose deux méthodes pour obtenir des inférences :

  • Les inférences en ligne sont des requêtes synchrones adressées à un modèle déployé sur un Endpoint. Par conséquent, avant d'envoyer une requête, vous devez d'abord déployer la Model ressource sur un point de terminaison. Cette opération associe des ressources de calcul au modèle afin qu'il puisse diffuser des inférences en ligne avec une faible latence. Utilisez les inférences en ligne pour effectuer des requêtes en réponse à des entrées d'application ou dans des situations nécessitant une inférence rapide.
  • Les inférences par lot sont des requêtes asynchrones adressées à un modèle non déployé sur un point de terminaison. Vous envoyez la requête (en tant que BatchPredictionJob ressource) directement à la Model ressource. Utilisez les inférences par lot lorsque vous n'avez pas besoin d'une réponse immédiate et que vous voulez traiter des données accumulées avec une seule requête.

Tester le modèle en local

Avant d'obtenir des inférences, il est utile de déployer votre modèle sur un point de terminaison local pendant la phase de développement et de test. Cela vous permet d'effectuer des itérations plus rapidement et de tester votre modèle sans le déployer sur un point de terminaison en ligne ni entraîner des frais d'inférence. Le déploiement local est destiné au développement et aux tests locaux, et non aux déploiements en production.

Pour déployer un modèle localement, utilisez le SDK Agent Platform pour Python et déployez un LocalModel sur un LocalEndpoint. Pour obtenir une démonstration, consultez ce notebook.

Même si votre client n'est pas écrit en Python, vous pouvez toujours utiliser le SDK Agent Platform pour Python pour lancer le conteneur et le serveur afin de tester les requêtes de votre client.

Obtenir des inférences à partir de modèles entraînés personnalisés

Pour obtenir des inférences, vous devez d'abord importer votre modèle. Une fois importé, il devient une Model ressource visible dans Model Registry.

Consultez ensuite la documentation suivante pour savoir comment obtenir des inférences :

Obtenir des inférences à partir de modèles AutoML

Contrairement aux modèles entraînés personnalisés, les modèles AutoML sont automatiquement importés dans Model Registry après l'entraînement.

En dehors de cela, le workflow des modèles AutoML est similaire, mais varie légèrement en fonction de votre type de données et de votre objectif de modèle. La documentation permettant d'obtenir des inférences AutoML se trouve à côté de l'autre documentation AutoML. Les sections suivantes fournissent des liens vers la documentation.

Image

Découvrez comment obtenir des inférences à partir des types de modèles AutoML d'images suivants :

Tabulaire

Découvrez comment obtenir des inférences à partir des types de modèles AutoML tabulaires suivants :

Obtenir des inférences à partir de modèles BigQuery ML

Vous pouvez obtenir des inférences à partir de modèles BigQuery ML de deux manières :

  • Demandez des inférences par lot directement à partir du modèle dans BigQuery ML.
  • Enregistrez les modèles directement auprès de Model Registry, sans les exporter depuis BigQuery ML ni les importer dans Model Registry.

Étape suivante