Utiliser l'agent Data Science Colab Enterprise avec BigQuery

L'agent Data Science (DSA) pour Colab Enterprise et BigQuery vous permet d'automatiser l'analyse exploratoire des données, d'effectuer des tâches de machine learning et de fournir des insights, le tout dans un notebook Colab Enterprise.

Avant de commencer

  1. Connectez-vous à votre Google Cloud compte. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $de crédits sans frais pour exécuter, tester et déployer des charges de travail.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Activez les API BigQuery, Vertex AI, Dataform et Compute Engine.

    Rôles requis pour activer les API

    Pour activer les API, vous avez besoin du rôle IAM Administrateur d'utilisation du service (roles/serviceusage.serviceUsageAdmin), qui contient l'autorisation serviceusage.services.enable. Découvrez comment attribuer des rôles.

    Activer les API

    Pour les nouveaux projets, l'API BigQuery est automatiquement activée.

Si vous ne connaissez pas encore Colab Enterprise dans BigQuery, consultez les étapes de configuration sur la page Créer des notebooks.

Limites

  • L'agent Data Science n'est disponible que dans l'environnement Colab Enterprise.
  • L'agent Data Science est compatible avec les sources de données suivantes :
    • Fichiers CSV
    • les tables BigQuery
  • Le code produit par l'agent Data Science ne s'exécute que dans l'environnement d'exécution de votre notebook.
  • L'agent Data Science n'est pas compatible avec les projets pour lesquels VPC Service Controls est activé.
  • La recherche de tables BigQuery à l'aide de la fonction @mention est limitée à votre projet actuel. Utilisez le sélecteur de table pour effectuer des recherches dans tous les projets.
  • La fonction @mention ne recherche que les tables BigQuery. Pour rechercher des fichiers de données que vous pouvez importer, utilisez le symbole +.
  • PySpark dans l'agent Data Science ne génère que du code Serverless pour Apache Spark 4.0. Le DSA peut vous aider à passer à Serverless pour Apache Spark 4.0, mais les utilisateurs qui ont besoin de versions antérieures ne doivent pas utiliser l'agent Data Science.

Quand utiliser l'agent Data Science ?

L'agent Data Science vous aide à effectuer des tâches allant de l'analyse exploratoire des données à la génération de prédictions et de prévisions de machine learning. Vous pouvez utiliser le DSA pour :

  • Traitement de données à grande échelle : utilisez BigQuery ML, BigQuery DataFrames ou Serverless pour Apache Spark afin d'effectuer un traitement de données distribué sur de grands ensembles de données. Cela vous permet de nettoyer, de transformer et d'analyser efficacement des données trop volumineuses pour tenir dans la mémoire d'une seule machine.
  • Générer un plan : générez et modifiez un plan pour effectuer une tâche spécifique à l'aide d'outils courants tels que Python, SQL, Serverless pour Apache Spark et BigQuery DataFrames.
  • Exploration des données : explorez un ensemble de données pour comprendre sa structure, identifier les problèmes potentiels tels que les valeurs manquantes et les valeurs aberrantes, et examiner la distribution des variables clés à l’aide de Python ou de SQL.
  • Nettoyage des données : nettoyez vos données. Par exemple, supprimez les points de données aberrants.
  • Préparation des données : convertissez les caractéristiques catégorielles en représentations numériques à l'aide de techniques telles que l'encodage one-hot ou l'encodage de libellés, ou à l'aide des outils de transformation des caractéristiques BigQuery ML. Créez de nouvelles caractéristiques pour l'analyse.
  • Analyse des données : analysez les relations entre différentes variables. Calculez les corrélations entre les caractéristiques numériques et explorez les distributions des caractéristiques catégorielles. Recherchez des modèles et des tendances dans les données.
  • Visualisation des données : créez des visualisations telles que des histogrammes, des graphiques en boîte, des nuages de points et des graphiques à barres qui représentent les distributions des variables individuelles et les relations entre elles. Vous pouvez également créer des visualisations en Python pour les tables stockées dans BigQuery.
  • Ingénierie des caractéristiques : créez de nouvelles caractéristiques à partir d'un ensemble de données nettoyé.
  • Répartition des données : divisez un ensemble de données conçu en ensembles de données d'entraînement, de validation, et de test.
  • Entraînement du modèle : entraînez un modèle à l'aide des données d'entraînement dans un DataFrame pandas (X_train, y_train), BigQuery DataFrames, un DataFrame PySpark ou à l'aide de l'instruction CREATE MODEL BigQuery ML avec des tables BigQuery.
  • Optimisation du modèle : optimisez un modèle à l'aide de l'ensemble de validation. Explorez d'autres modèles tels que DecisionTreeRegressor et RandomForestRegressor, et comparez leurs performances.
  • Évaluation du modèle : évaluez les performances du modèle sur un ensemble de données de test à l'aide d'un DataFrame pandas, de BigQuery DataFrames ou d'un DataFrame PySpark. Vous pouvez également évaluer la qualité du modèle et comparer les modèles à l'aide des fonctions d'évaluation de modèle BigQuery ML pour les modèles entraînés à l'aide de BigQuery ML.
  • Inférence du modèle : effectuez une inférence avec des modèles entraînés BigQuery ML , des modèles importés et des modèles distants à l'aide des fonctions d'inférence BigQuery ML . Vous pouvez également utiliser la méthode model.predict() BigFrames ou les transformateurs PySpark pour effectuer des prédictions.

Utiliser l'agent Data Science dans BigQuery

Les étapes suivantes vous montrent comment utiliser l'agent Data Science dans BigQuery.

  1. Créez ou ouvrez un notebook Colab Enterprise.

  2. Facultatif : Référencez vos données de l'une des manières suivantes :

    • Importez un fichier CSV ou utilisez le symbole + dans votre requête pour rechercher les fichiers disponibles.
    • Choisissez une ou plusieurs tables BigQuery dans le sélecteur de table de votre projet actuel ou d'autres projets auxquels vous avez accès.
    • Référencez un nom de table BigQuery dans votre requête au format suivant : project_id:dataset.table.
    • Saisissez le symbole @ pour rechercher un nom de table BigQuery à l'aide de la fonction @mention.
  3. Saisissez une requête décrivant l'analyse de données que vous souhaitez effectuer ou le prototype que vous souhaitez créer. Par défaut, l'agent Data Science génère du code Python à l'aide de bibliothèques Open Source telles que sklearn pour effectuer des tâches complexes de machine learning. Pour utiliser un outil spécifique, incluez les mots clés suivants dans votre requête :

    • Si vous souhaitez utiliser BigQuery ML, incluez le mot clé "SQL".
    • Si vous souhaitez utiliser "BigQuery DataFrames", spécifiez les mots clés "BigFrames" ou "BigQuery DataFrames".
    • Si vous souhaitez utiliser PySpark, incluez les mots clés "Apache Spark" ou "PySpark".

    Pour obtenir de l'aide, consultez les exemples de requêtes.

  4. Parcourez les résultats.

Analyser un fichier CSV

Pour analyser un fichier CSV à l'aide de l'agent Data Science dans BigQuery, procédez comme suit.

  1. Accédez à la page BigQuery.

    Accéder à BigQuery

  2. Sur la page de bienvenue de BigQuery Studio, sous Créer, cliquez sur Notebook.

    Vous pouvez également cliquer sur la flèche du menu déroulant à côté de l'icône + dans la barre d'onglets, puis sur Notebook > Notebook vide.

  3. Cliquez sur le bouton Activer/Désactiver Gemini dans Colab pour ouvrir la boîte de dialogue de chat.

  4. Importez votre fichier CSV.

    1. Dans la boîte de dialogue de chat, cliquez sur Ajouter à Gemini > Importer.

    2. Si nécessaire, autorisez votre compte Google.

    3. Accédez à l'emplacement du fichier CSV, puis cliquez sur Ouvrir.

  5. Vous pouvez également saisir le symbole + dans votre requête pour rechercher les fichiers disponibles à importer.

  6. Saisissez votre requête dans la fenêtre de chat. Par exemple : Identify trends and anomalies in this file.

  7. Cliquez sur Envoyer. Les résultats s'affichent dans la fenêtre de chat.

  8. Vous pouvez demander à l'agent de modifier le plan ou l'exécuter en cliquant sur Accepter et exécuter. Pendant l'exécution du plan, le code et le texte générés s'affichent dans le notebook. Cliquez sur Annuler pour arrêter.

Analyser des tables BigQuery

Pour analyser une table BigQuery, choisissez une ou plusieurs tables dans le sélecteur de table, fournissez une référence à la table dans votre requête ou recherchez une table à l'aide du symbole @.

  1. Accédez à la page BigQuery.

    Accéder à BigQuery

  2. Sur la page de bienvenue de BigQuery Studio, sous Créer, cliquez sur Notebook.

    Vous pouvez également cliquer sur la flèche du menu déroulant à côté de l'icône + dans la barre d'onglets, puis sur Notebook > Notebook vide.

  3. Cliquez sur le bouton Activer/Désactiver Gemini dans Colab pour ouvrir la boîte de dialogue de chat.

  4. Saisissez votre requête dans la fenêtre de chat.

  5. Référencez vos données de l'une des manières suivantes :

    1. Choisissez une ou plusieurs tables à l'aide du sélecteur de table :

      1. Cliquez sur Ajouter à Gemini > Tables BigQuery.

      2. Dans la fenêtre Tables BigQuery, sélectionnez une ou plusieurs tables de votre projet. Vous pouvez rechercher des tables dans tous les projets et les filtrer à l'aide de la barre de recherche.

    2. Incluez directement un nom de table BigQuery dans votre requête. Par exemple : "Help me perform exploratory data analysis and get insights about the data in this table: project_id:dataset.table."

      Remplacez les éléments suivants :

      • project_id : ID de votre projet
      • dataset: nom de l'ensemble de données contenant la table que vous analysez
      • table: nom de la table que vous analysez
    3. Saisissez @ pour rechercher une table BigQuery dans votre projet actuel.

  6. Cliquez sur Envoyer.

    Les résultats s'affichent dans la fenêtre de chat.

  7. Vous pouvez demander à l'agent de modifier le plan ou l'exécuter en cliquant sur Accepter et exécuter. Pendant l'exécution du plan, le code et le texte générés s'affichent dans le notebook. Pour les étapes supplémentaires du plan, vous devrez peut-être cliquer à nouveau sur Accepter et exécuter. Cliquez sur Annuler pour arrêter.

Exemples de requêtes

Quelle que soit la complexité de la requête que vous utilisez, l'agent Data Science génère un plan que vous pouvez affiner pour répondre à vos besoins.

Les exemples suivants illustrent les types de requêtes que vous pouvez utiliser avec le DSA.

Requêtes Python

Le code Python est généré par défaut, sauf si vous utilisez un mot clé spécifique dans la requête, tel que "BigQuery ML" ou "SQL".

  • Étudiez et renseignez les valeurs manquantes à l'aide de l'algorithme de machine learning des k plus proches voisins (KNN).
  • Créez un graphique des salaires par niveau d'expérience. Utilisez la colonne experience_level pour regrouper les salaires et créez un graphique en boîte pour chaque groupe affichant les valeurs de la colonne salary_in_usd.
  • Utilisez l'algorithme XGBoost pour créer un modèle permettant de déterminer la variable class d'un fruit particulier. Divisez les données en ensembles de données d'entraînement et de test pour générer un modèle et déterminer sa précision. Créez une matrice de confusion pour afficher les prédictions dans chaque classe, y compris toutes les prédictions correctes et incorrectes.
  • Prévoyez la target_variable à partir de filename.csv pour les six prochains mois.

Requêtes SQL et BigQuery ML

  • Créez et évaluez un modèle de classification sur bigquery-public-data.ml_datasets.census_adult_income à l'aide de BigQuery SQL.
  • À l'aide de SQL, prévoyez le trafic futur de mon site Web pour le mois prochain en fonction de bigquery-public-data.google_analytics_sample.ga_sessions_*. Tracez ensuite les valeurs historiques et prévues.
  • Regroupez les clients similaires pour créer des campagnes marketing ciblées à l'aide d'un modèle KMeans et des fonctions SQL BigQuery ML. Utilisez trois caractéristiques pour le clustering. Visualisez ensuite les résultats en créant une série de nuages de points 2D. Utilisez la table bigquery-public-data.ml_datasets.census_adult_income.
  • Générez des embeddings de texte dans BigQuery ML à l'aide du contenu des avis dans bigquery-public-data.imdb.reviews.

Pour obtenir la liste des modèles et des tâches de machine learning compatibles, consultez la documentation BigQuery ML.

Requêtes DataFrame

  • Créez un DataFrame pandas pour les données de project_id:dataset.table. Analysez les données pour détecter les valeurs nulles, puis représentez graphiquement la distribution de chaque colonne à l'aide du type de graphique. Utilisez des graphiques en violon pour les valeurs mesurées et des graphiques à barres pour les catégories.
  • Lisez filename.csv et créez un DataFrame. Exécutez une analyse sur le DataFrame pour déterminer ce qui doit être fait avec les valeurs. Par exemple, y a-t-il des valeurs manquantes à remplacer ou à supprimer, ou des lignes en double à traiter ? Utilisez le fichier de données pour déterminer la répartition de l'argent investi en USD par ville. Représentez graphiquement les 20 premiers résultats à l'aide d'un graphique à barres qui affiche les résultats par ordre décroissant sous la forme "Lieu" par rapport au "Montant moyen investi (USD)".
  • Créez et évaluez un modèle de classification sur project_id:dataset.table à l'aide de BigQuery DataFrames.
  • Créez un modèle de prévision de séries temporelles sur project_id:dataset.table à l'aide de BigQuery DataFrames et visualisez les évaluations du modèle.
  • Visualisez les chiffres de ventes de l'année dernière dans la table BigQuery project_id:dataset.table à l'aide de BigQuery DataFrames.
  • Recherchez les caractéristiques qui permettent de prédire au mieux l'espèce de pingouin à partir de la table bigquery-public_data.ml_datasets.penguins à l'aide de BigQuery DataFrames.

Requêtes PySpark

  • Créez et évaluez un modèle de classification sur project_id:dataset.table à l'aide de Serverless pour Apache Spark.
  • Regroupez les clients similaires pour créer des campagnes marketing ciblées, mais effectuez d'abord une réduction de la dimensionnalité à l'aide d'un modèle PCA. Utilisez PySpark pour effectuer cette opération sur la table project_id:dataset.table.

Désactiver Gemini dans BigQuery

Pour désactiver Gemini dans BigQuery pour un Google Cloud projet, un administrateur doit désactiver l' API Gemini pour Google Cloud. Consultez Désactiver des services.

Pour désactiver Gemini dans BigQuery pour un utilisateur spécifique, un administrateur doit lui retirer le rôle Utilisateur Gemini pour Google Cloud (roles/cloudaicompanion.user). Consultez Révoquer un rôle IAM unique.

Tarifs

Pendant la preview, vous êtes facturé pour l'exécution de code dans l'environnement d'exécution du notebook et pour tous les emplacements BigQuery que vous avez utilisés. Pour en savoir plus, consultez les tarifs de Colab Enterprise.

Régions où le service est disponible

Pour afficher les régions où l'agent Data Science de Colab Enterprise est disponible, consultez la page Emplacements.