Découvrez comment entraîner des modèles d'IA et de ML dans l'extension Google Cloud Data Agent Kit pour Visual Studio Code.
Dans ce guide de démarrage rapide, vous utilisez un modèle de session et un exemple de notebook Jupyter pour prédire les montants des pourboires des taxis à New York. À l'aide d'un noyau Jupyter distant avec PySpark, vous testez différents modèles tels que la régression linéaire, la forêt aléatoire et XGBoost. Ce processus vous permet d'effectuer un entraînement et une inférence distribués. Il illustre l'évolutivité sur plusieurs machines à l'aide de Spark ML et de la bibliothèque XGBoost.
Bien que ce guide de démarrage rapide ne les aborde pas, il existe plusieurs façons d'entraîner des modèles d'IA et de ML à l'aide de l'extension Google Cloud Data Agent Kit pour Visual Studio Code :
- Si votre ensemble de données d'entraînement est volumineux ou si vous souhaitez bénéficier des fonctionnalités d'entraînement distribué qu'offre Apache Spark, vous pouvez utiliser des notebooks Spark avec des noyaux distants.
- Si votre ensemble de données se trouve dans BigQuery et que BigQuery ML est compatible avec votre cas d'utilisation, vous pouvez utiliser un notebook BigQuery DataFrames.
- Si votre ensemble de données est petit et que vous souhaitez entraîner votre modèle en local, vous pouvez utiliser un notebook Python.
Créer un modèle d'exécution Spark
Les modèles d'exécution Spark sans serveur vous permettent de démarrer une session Apache Spark avec un ensemble de configurations donné. Pour créer un modèle d'exécution sans serveur, procédez comme suit :
- Dans la barre d'activité de l'IDE, cliquez sur l'icône Google Cloud Data Agent Kit.
- Dans le menu Google Cloud Data Agent Kit, développez Apache Spark.
- Développez Sans serveur , puis cliquez sur + Créer des environnements d'exécution sans serveur. Un formulaire de création d'environnement d'exécution sans serveur s'affiche.
- Dans le champ Nom à afficher, saisissez
ai-ml-tutorial. - Accédez à la section Autoscaling.
- Définissez
spark.dynamicAllocation.enabledsur "false" dans la liste déroulante. Ce paramètre est nécessaire pour qu'XGBoost fonctionne avec Apache Spark. - Laissez tous les autres champs définis sur la valeur par défaut.
- Cliquez sur Envoyer.
Créer un notebook
Ensuite, créez un notebook Spark :
- Sous Apache Spark dans l'onglet Google Cloud Data Agent Kit, cliquez sur + Nouveau Spark Notebook.
- Choisissez Noyau distant pour le type de noyau.
- Cliquez sur Commencer avec un exemple de notebook.
- Dans la liste des exemples, sélectionnez Data Science with PySpark and Distributed XGBoost (Data science avec PySpark et XGBoost distribué). Un notebook Jupyter sans titre s'affiche.
Entraîner le modèle
- Dans l'onglet du notebook, cliquez sur Tout exécuter. Le sélecteur de noyau vous demande de sélectionner un noyau pour exécuter le notebook.
- Cliquez sur Sélectionner un autre noyau.
- Cliquez sur Noyaux Spark distants.
- Sélectionnez ai-ml-tutorial on Serverless Spark, le modèle d'exécution que vous avez créé précédemment.
La notification suivante s'affiche pendant que le système crée votre session Spark sans serveur : Connecting to kernel: ai-ml-tutorial on Serverless Spark (Connexion au noyau : ai-ml-tutorial sur Spark sans serveur). Lorsque le notebook se connecte au noyau PySpark distant, l'exécution commence à la première cellule. Ce processus prend environ deux à trois minutes.
Inspecter votre session Spark
- Dans l'onglet Google Cloud Data Agent Kit, sous Apache Spark, développez le modèle d'exécution ai-ml-tutorial. L'IDE affiche la liste des sessions interactives que vous avez créées avec ce modèle d'exécution.
- Recherchez la session que le système a créée en exécutant le notebook en haut de la liste. Cliquez sur la session pour afficher ses détails. Vous pouvez examiner la configuration de la session et les ressources que le système a consommées pour exécuter votre notebook.
Effectuer un nettoyage
Une fois le notebook exécuté, procédez comme suit pour effectuer un nettoyage.
- Dans l'onglet Google Cloud Data Agent Kit, sous Apache Spark, faites un clic droit sur Sans serveur , puis sélectionnez Lister les environnements d'exécution sans serveur. La liste des environnements d'exécution sans serveur s'affiche.
- Cliquez sur le menu Action pour
ai-ml-tutorialafin de lister toutes les sessions interactives que le système a créées à partir de votre modèle. - Sous Actions, cliquez sur Supprimer.
- Revenez à la fenêtre des environnements d'exécution sans serveur.
- Sous Actions pour
ai-ml-tutorial, cliquez sur Supprimer. - Cliquez sur Confirmer pour supprimer le modèle que vous avez créé pour ce tutoriel.