Utiliser le langage naturel pour analyser les données avec l'agent Data Science

Ce tutoriel explique comment créer un modèle de machine learning (ML) à l'aide de requêtes en langage naturel avec l'agent Data Science Colab Enterprise.

Dans ce tutoriel, vous allez créer un modèle de ML pour prévoir les ventes de boissons alcoolisées à l'aide de l'ensemble de données public sur les ventes de boissons alcoolisées dans l'Iowa. Cet agent optimisé par l'IA vous permet d'utiliser des requêtes en langage naturel pour écrire, expliquer et résoudre les problèmes de code directement dans un notebook, afin d'accélérer vos workflows de science des données.

Ce tutoriel est destiné aux spécialistes des données.

Objectifs

Dans ce tutoriel, vous allez apprendre à utiliser l'agent Data Science pour effectuer les tâches suivantes :

  • Effectuez une analyse exploratoire des données (EDA) de l'ensemble de données public sur les ventes de boissons alcoolisées au détail dans l'Iowa pour comprendre les distributions de données, rechercher les valeurs manquantes et vérifier la qualité globale des données.
  • Trouvez les magasins qui ont vendu le plus de litres d'alcool pour tous les produits.
  • Créez, entraînez et évaluez un modèle qui prévoit les ventes d'alcool à l'aide de BigQuery ML.
  • Générez et résumez les insights clés et les performances du modèle.

Coûts

Dans ce document, vous utilisez les composants facturables suivants de Google Cloud :

Pour obtenir une estimation des coûts en fonction de votre utilisation prévue, utilisez le simulateur de coût.

Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai sans frais.

Une fois que vous avez terminé les tâches décrites dans ce document, supprimez les ressources que vous avez créées pour éviter que des frais vous soient facturés. Pour en savoir plus, consultez la section Effectuer un nettoyage.

Avant de commencer

  1. Connectez-vous à votre compte Google Cloud . Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits sans frais pour exécuter, tester et déployer des charges de travail.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Activez les API BigQuery, Gemini pour Google Cloud, Dataform et Compute Engine.

    Rôles requis pour activer les API

    Pour activer les API, vous avez besoin du rôle IAM Administrateur Service Usage (roles/serviceusage.serviceUsageAdmin), qui contient l'autorisation serviceusage.services.enable. Découvrez comment attribuer des rôles.

    Activer les API

    Pour les nouveaux projets, l'API BigQuery est automatiquement activée.

Rôles requis

Si vous avez créé un projet, vous disposez de toutes les autorisations requises pour suivre ce tutoriel. Si vous utilisez un projet existant, demandez à votre administrateur de vous accorder les rôles suivants.

Autorisations de créer et d'exécuter des notebooks

Pour obtenir les autorisations nécessaires pour créer et exécuter des notebooks, demandez à votre administrateur de vous accorder le rôle IAM Utilisateur BigQuery Studio (roles/bigquery.studioUser) sur le projet. Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.

Pour afficher les autorisations requises pour créer et exécuter des notebooks, consultez les étapes de configuration sur la page Créer des notebooks.

Pour en savoir plus sur la gestion de l'authentification et des accès (IAM) dans BigQuery, consultez la page Contrôle des accès avec IAM.

Créer un notebook Colab Enterprise et se connecter à un environnement d'exécution

Les notebooks Colab Enterprise sont des composants de code BigQuery Studio fournis par Dataform. Vous pouvez utiliser des notebooks pour exécuter des workflows d'analyse et de ML à l'aide de SQL, Python et d'autres packages et API courants.

Pour créer un notebook et le connecter à l'environnement d'exécution par défaut, procédez comme suit :

  1. Accédez à la page BigQuery.

    Accéder à BigQuery

  2. Dans le volet de gauche, développez votre projet, puis cliquez sur Notebooks.

  3. Cliquez sur Nouveau notebook > Notebook vide.

  4. Cliquez sur Enregistrer.

  5. Pour afficher le nouveau notebook, cliquez sur l'onglet Notebooks. Vous devrez peut-être cliquer sur Actualiser Actualiser .

  6. Pour votre notebook sans titre, cliquez sur more_vert Ouvrir les actions, puis sélectionnez Renommer.

  7. Dans le champ Nom du notebook, saisissez predict_liquor_sales, puis cliquez sur Renommer.

  8. Cliquez sur l'onglet predict_liquor_sales.

  9. Dans la barre d'outils du notebook, cliquez sur Connecter pour connecter votre notebook à l'environnement d'exécution par défaut.

Utiliser l'agent Data Science pour analyser les données

L'agent data science est un assistant optimisé par Gemini qui peut écrire, expliquer et résoudre les problèmes liés au code directement dans votre notebook. Il peut vous aider à effectuer des tâches allant de l'analyse de données exploratoire à la génération de prédictions et de prévisions de machine learning, y compris les suivantes :

  • Génération de plans : créez un plan détaillé pour résoudre un problème de data science.
  • Exploration et nettoyage des données. Identifiez les valeurs manquantes et les valeurs aberrantes, et visualisez les distributions.
  • Ingénierie des caractéristiques : Convertissez des caractéristiques catégorielles et créez-en d'autres.
  • Entraînement et évaluation du modèle. Entraînez des modèles tels que la régression linéaire ou la forêt aléatoire, et comparez leurs performances.

Dans ce tutoriel, vous allez utiliser Data Science Agent pour analyser les données de l'ensemble de données public sur les ventes de boissons alcoolisées dans l'Iowa et créer un modèle qui prévoit les ventes de boissons alcoolisées.

Pour utiliser l'agent Data Science afin d'analyser les données, procédez comme suit :

  1. Dans votre notebook predict_liquor_sales, si la discussion Gemini n'est pas ouverte, cliquez sur spark Toggle Gemini in Colab (Activer/Désactiver Gemini dans Colab) pour ouvrir la boîte de dialogue du chat.

  2. Dans l'interface de chat, saisissez le prompt suivant :

    Analyze the liquor sales data from
    bigquery-public-data.iowa_liquor_sales.sales by performing exploratory data
    analysis. Find the stores that sold the most gallons of alcohol across
    all products. Then, create a model that predicts liquor sales by store by
    using BigQuery ML. Visualize the results, evaluate the model,
    summarize the model's performance, and provide any key insights.
    
  3. Vérifiez que le modèle est défini sur Gemini 3.0 Flash.

  4. Cliquez sur Envoyer.

  5. Examinez le plan généré par l'agent. Le plan ressemble à ce qui suit.

    "J'ai analysé la demande de données sur les ventes d'alcool dans l'Iowa et créé un plan stratégique. Étant donné que les données sont stockées dans BigQuery et que vous avez spécifié d'utiliser BigQuery ML, nous allons commencer par explorer les données, identifier les magasins les plus performants, puis créer un modèle de régression pour prédire les ventes. Voici la marche à suivre :

    • Exploration et profilage des données : effectuez une exploration initiale de la table "bigquery-public-data.iowa_liquor_sales.sales" pour comprendre la distribution des données, rechercher les valeurs manquantes et vérifier la qualité des données pour les colonnes clés telles que les informations sur les magasins, le volume vendu et le chiffre d'affaires.
    • Identifier les magasins les plus performants en termes de volume : agrégez le nombre total de litres d'alcool vendus par chaque magasin pour tous les produits et identifiez les magasins les plus performants.
    • Préparation des données : préparez les données d'entraînement en agrégeant les ventes d'alcool par magasin et en sélectionnant les caractéristiques pertinentes pour le modèle de prédiction.
    • Développement de modèles : entraînez un modèle de régression à l'aide de BigQuery ML pour prédire les ventes d'alcool pour chaque magasin.
    • Évaluation du modèle : évaluez les performances du modèle entraîné à l'aide de métriques de régression standards.
    • Prédiction du modèle : générez des prédictions pour les ventes d'alcool à l'aide du modèle entraîné.
    • Visualisation : créez un graphique en nuage de points comparant les prévisions de ventes d'alcool aux valeurs réelles pour évaluer visuellement la précision du modèle.
    • Termine la tâche : résume les performances du modèle, fournis des insights clés sur les ventes en magasin et conclus l'analyse."
  6. Après avoir examiné le plan, cliquez sur Accepter et exécuter. L'agent génère la première sous-tâche : explorer et profiler les données. L'agent fait une pause jusqu'à ce que vous examiniez et acceptiez le code. Si l'agent attend une entrée utilisateur, les cellules générées sont affichées sur un fond vert.

  7. Examinez la cellule de code générée et le raisonnement fourni par l'agent.

    Code et raisonnement fournis par l'ASD après examen de l'ensemble de données public.

  8. Cliquez sur Accepter et exécuter. Si l'agent rencontre des problèmes avec son approche, il fournit des explications sur la façon de les corriger et vous invite à accepter le code modifié.

  9. Examinez le résultat dans la cellule de code.

    Résultats produits par la sous-tâche d'exploration des données.

    Sous les résultats, l'agent crée une cellule pour effectuer la sous-tâche suivante : trouver les magasins ayant réalisé les ventes d'alcool les plus élevées.

    Requête SQL générée par l'agent pour trouver les magasins d'alcool les plus performants en termes de gallons vendus.

  10. Examinez le code SQL généré qui interroge les données pour identifier les magasins les plus performants en termes de litres d'alcool vendus. Vous pouvez examiner le raisonnement de l'agent en affichant la cellule de texte Raisonnement au-dessus du code. Si vous êtes sûr que le code est correct, cliquez sur Accepter et exécuter.

  11. Examinez les résultats de la requête dans la sortie de la cellule. Les résultats sont semblables aux suivants :

    Résultats de la requête affichant les principaux magasins de vente d'alcool par chiffre d'affaires.

  12. Examinez le code et le raisonnement générés par l'agent pour la prochaine sous-tâche : préparer les données pour l'entraînement du modèle.

    Code et raisonnement générés pour préparer les données à l'entraînement du modèle.

  13. Une fois que vous avez vérifié que le code SQL est correct, cliquez sur Accepter et exécuter.

  14. Examinez le résultat dans la cellule de code. Un message semblable à celui-ci s'affiche : JOB ID 123456 successfully executed.

  15. Examinez le code et le raisonnement générés par l'agent pour la prochaine sous-tâche : l'entraînement du modèle de régression.

    Code et raisonnement générés pour entraîner le modèle de régression.

  16. Après avoir examiné le code et le raisonnement, cliquez sur Accepter et exécuter.

  17. Examinez le résultat dans la cellule de code. Un message semblable à celui-ci s'affiche : JOB ID 123456 successfully executed.

  18. Examine le code et le raisonnement générés par l'agent pour la sous-tâche suivante : évaluation du modèle.

    Code et raisonnement générés pour évaluer le modèle.

  19. Après avoir examiné le code et le raisonnement, cliquez sur Accepter et exécuter.

  20. Examinez le résultat dans la cellule de code.

    Résultat de la sous-tâche d'évaluation du modèle.

  21. Examinez le code et le raisonnement générés par l'agent pour la sous-tâche suivante : générer des prédictions.

    Code et raisonnement pour générer des prédictions.

  22. Après avoir examiné le code et le raisonnement, cliquez sur Accepter et exécuter.

  23. Examinez le résultat dans la cellule de code. Un message semblable à celui-ci s'affiche : JOB ID 123456 successfully executed.

    Une fois la requête exécutée, l'agent crée une cellule de code pour la sous-tâche suivante : la visualisation des données.

    Code et raisonnement pour visualiser les résultats.

  24. Après avoir examiné le code et le raisonnement, cliquez sur Accepter et exécuter.

  25. Examinez le résultat dans la cellule de code. Un graphique représentant les ventes réelles d'alcool par rapport aux ventes prévues s'affiche. Le graphique ressemble à ceci :

    Graphique comparant les ventes réelles et prévues.

    Une fois le graphique généré, l'agent génère un résumé des résultats avec les principales conclusions et les insights.

    Résumé généré par l'agent.

  26. Après avoir examiné le récapitulatif, cliquez sur Accepter pour finaliser le forfait.

Effectuer un nettoyage

Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et supprimez les ressources individuelles.

Pour éviter que les ressources utilisées dans ce tutoriel ne soient facturées sur votre compte Google Cloud , vous pouvez supprimer le notebook que vous avez créé. Pour supprimer votre notebook, procédez comme suit :

  1. Accédez à la page BigQuery.

    Accéder à BigQuery

  2. Dans le volet de gauche, développez votre projet, puis cliquez sur Notebooks.

  3. Pour votre notebook predict_liquor_sales, cliquez sur more_vert Ouvrir les actions, puis sélectionnez Supprimer.

  4. Cliquez sur Supprimer pour supprimer le notebook.

Étapes suivantes