Choisir une méthode d'entraînement

Ce document explique les principales différences entre l'entraînement d'un modèle dans Vertex AI à l'aide d'AutoML, l'entraînement personnalisé, Ray sur Vertex AI ou l'entraînement d'un modèle à l'aide de BigQuery ML.

  • AutoML vous permet de créer et d'entraîner un modèle avec un minimum d'efforts techniques. Vous pouvez utiliser AutoML pour créer rapidement des prototypes de modèles et explorer de nouveaux ensembles de données avant d'investir dans le développement. Par exemple, vous pouvez l'utiliser pour connaître les fonctionnalités les plus adaptées à un ensemble de données spécifique.

  • L'entraînement personnalisé vous permet de créer une application d'entraînement optimisée pour le résultat ciblé. Vous contrôlez entièrement les fonctionnalités de l'application d'entraînement. En d'autres termes, vous pouvez cibler n'importe quel objectif, utiliser n'importe quel algorithme, développer vos propres fonctions ou métriques de perte, ou effectuer toute autre personnalisation.

  • Avec Ray sur Vertex AI, vous pouvez utiliser le framework de calcul distribué de Ray sur l'infrastructure Google Cloud . Ray sur Vertex AI fournit un environnement géré avec des ressources de calcul configurables, une intégration avec des services tels que Vertex AI Inference et BigQuery, ainsi que des options réseau flexibles pour développer et exécuter des charges de travail distribuées.

  • Avec BigQuery, vous pouvez entraîner des modèles à l'aide de vos données BigQuery directement dans BigQuery. Les commandes SQL vous permettent de créer rapidement un modèle et de l'utiliser pour obtenir des inférences par lot.

Pour comparer les différentes fonctionnalités ainsi que le niveau d'expertise pour chaque service, consultez le tableau suivant.

AutoML Entraînement personnalisé Ray sur Vertex AI BigQuery ML
Connaissance de la data science requise Non Oui, pour développer l'application d'entraînement et effectuer la préparation des données, par exemple avec une ingénierie des caractéristiques. Il est utile de posséder des connaissances de base sur les concepts de machine learning et les workflows de data science. Non
Capacité de programmation nécessaire Non, AutoML s'utilise sans code. Oui, pour développer l'application d'entraînement. Oui. Oui.
Temps d'entraînement du modèle Durée plus courte. La préparation des données est réduite, et aucun développement n'est nécessaire. Durée plus longue. Nécessite davantage de préparation des données en plus du développement de l'application d'entraînement. L'entraînement distribué peut réduire le temps nécessaire à l'entraînement d'un modèle. La durée de l'entraînement dépend de la logique du code (préparation et entraînement des données) et du temps nécessaire pour provisionner les ressources. Durée plus courte. La vitesse de développement des modèles est augmentée puisque vous n'avez pas besoin de créer l'infrastructure requise pour les inférences par lot ni pour l'entraînement de modèles, car BigQuery ML exploite le moteur de calcul BigQuery. L'entraînement, l'évaluation et l'inférence sont ainsi accélérés.
Limites sur les objectifs de machine learning Oui. Vous devez cibler l'un des objectifs prédéfinis d'AutoML. Non Non Oui
Optimiser manuellement les performances du modèle avec les réglages d'hyperparamètres Non. AutoML effectue certains réglages automatiques des hyperparamètres mais vous ne pouvez pas modifier les valeurs utilisées. Oui. Vous pouvez ajuster le modèle lors de chaque entraînement pour expérimenter et comparer. Oui. Comme vous fournissez le code d'entraînement personnalisé, vous pouvez définir ou ajuster manuellement les valeurs de vos hyperparamètres avant de lancer un job Ray sur Vertex AI. Oui. BigQuery ML permet de régler les hyperparamètres lors de l'entraînement de modèles de ML grâce aux instructions CREATE MODEL.
Contrôler les aspects de l'environnement d'entraînement Limitée. Pour les ensembles de données d'images et de données tabulaires, vous pouvez spécifier le nombre d'heures-nœud pour l'entraînement et si vous souhaitez autoriser l'arrêt prématuré de l'entraînement. Oui. Vous pouvez spécifier certains aspects de l'environnement, tels que le type de machine Compute Engine, la taille du disque, le framework de machine learning et le nombre de nœuds, ainsi que l'image Docker que vous souhaitez utiliser pour l'entraînement. Oui. Vous disposez d'un contrôle important sur différents aspects de l'environnement d'entraînement. Par exemple, vous pouvez apporter vos propres images de conteneurs Docker personnalisées à votre cluster Ray sur Vertex AI. Lorsque vous créez un cluster Ray, vous pouvez spécifier le type de machine pour le nœud principal et les nœuds de calcul, y compris le nombre et le type d'accélérateurs (GPU) que vous souhaitez utiliser, et plus encore. Non
Limites de taille des données

Oui. AutoML utilise des ensembles de données gérés. Les limitations de taille varient en fonction du type de l'ensemble de données. Reportez-vous à l'une des rubriques suivantes pour plus de détails :

Pour les ensembles de données non gérés, non. Les ensembles de données gérés présentent les mêmes limites que les objets d'ensembles de données gérés créés et hébergés par BigQuery et sont utilisés pour entraîner des modèles AutoML. Non. Toutefois, la taille maximale des réponses aux requêtes est de 10 Go pour les lectures BigQuery. Il s'agit d'une limite de la taille de la réponse de l'API BigQuery, et non d'une limite de la quantité totale de données que Ray sur Vertex AI peut traiter à partir de BigQuery par le biais de requêtes itératives ou parallèles. Oui. BigQuery ML applique des quotas appropriés par projet. Pour en savoir plus, consultez la page Quotas et limites.

Étapes suivantes