Utiliser l'agent Data Science Colab Enterprise avec BigQuery

L'agent Data Science (DSA) pour Colab Enterprise et BigQuery vous permet d'automatiser l'analyse de données exploratoire, d'effectuer des tâches de machine learning et de fournir des insights, le tout dans un notebook Colab Enterprise.

Avant de commencer

  1. Connectez-vous à votre Google Cloud compte. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits sans frais pour exécuter, tester et déployer des charges de travail.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Activez les API BigQuery, Gemini pour Google Cloud, Dataform et Compute Engine.

    Rôles requis pour activer les API

    Pour activer les API, vous avez besoin du rôle IAM Administrateur d'utilisation du service (roles/serviceusage.serviceUsageAdmin), qui contient l'autorisation serviceusage.services.enable. Découvrez comment attribuer des rôles.

    Activer les API

    Pour les nouveaux projets, l'API BigQuery est automatiquement activée.

Si vous ne connaissez pas encore Colab Enterprise dans BigQuery, consultez les étapes de configuration sur la page Créer des notebooks.

Limites

  • L'agent Data Science n'est disponible que dans l'environnement Colab Enterprise.
  • L'agent Data Science est compatible avec les sources de données suivantes :
    • Fichiers CSV
    • Tables BigQuery
  • Le code produit par le Data Science Agent ne s'exécute que dans l'environnement d'exécution de votre notebook.
  • La recherche de tables BigQuery à l'aide de la fonction @mention est limitée à votre projet actuel. Utilisez le sélecteur de table pour effectuer une recherche dans tous les projets.
  • La fonction @mention ne recherche que les tables BigQuery. Pour rechercher des fichiers de données que vous pouvez importer, utilisez le symbole +.
  • PySpark dans l'agent Data Science ne génère que du code Managed Service pour Apache Spark 4.0. Le DSA peut vous aider à passer à Managed Service pour Apache Spark 4.0, mais les utilisateurs qui ont besoin de versions antérieures ne doivent pas utiliser l'agent Data Science.
  • Les clés de chiffrement gérées par le client (CMEK) ne sont pas prises en charge.

Quand utiliser l'agent Data Science ?

L'agent Data Science vous aide à effectuer des tâches allant de l'analyse exploratoire des données à la génération de prédictions et de prévisions de machine learning. Vous pouvez utiliser le DSA pour :

  • Traitement des données à grande échelle : utilisez BigQuery ML, BigQuery DataFrames ou Managed Service pour Apache Spark afin d'effectuer un traitement distribué des données sur de grands ensembles de données. Cela vous permet de nettoyer, de transformer et d'analyser efficacement des données trop volumineuses pour tenir dans la mémoire d'une seule machine.
  • Générer un plan : générez et modifiez un plan pour effectuer une tâche spécifique à l'aide d'outils courants tels que Python, SQL, Managed Service pour Apache Spark et BigQuery DataFrames.
  • Exploration des données : explorez un ensemble de données pour comprendre sa structure, identifier les problèmes potentiels tels que les valeurs manquantes et les valeurs aberrantes, et examiner la distribution des variables clés à l’aide de Python ou de SQL.
  • Nettoyage des données : nettoyez vos données. Par exemple, supprimez les points de données qui sont des valeurs aberrantes.
  • Préparation des données : convertissez les caractéristiques catégorielles en représentations numériques à l'aide de techniques telles que l'encodage one-hot ou l'encodage de libellés, ou à l'aide des outils de transformation des caractéristiques BigQuery ML. Créez de nouvelles caractéristiques pour l'analyse.
  • Analyse des données : analysez les relations entre différentes variables. Calculez les corrélations entre les caractéristiques numériques et explorez les distributions des caractéristiques catégorielles. Recherchez des modèles et des tendances dans les données.
  • Visualisation des données : créez des visualisations telles que des histogrammes, des graphiques en boîte, des nuages de points et des graphiques à barres qui représentent les distributions des variables individuelles et les relations entre elles. Vous pouvez également créer des visualisations en Python pour les tables stockées dans BigQuery.
  • Ingénierie des caractéristiques : créez de nouvelles caractéristiques à partir d'un ensemble de données nettoyé.
  • Répartition des données : divisez un ensemble de données conçu en ensembles de données d'entraînement, de validation, et de test.
  • Entraînement du modèle : entraînez un modèle à l'aide des données d'entraînement dans un DataFrame pandas (X_train, y_train), BigQuery DataFrames, un DataFrame PySpark ou à l'aide de l'instruction BigQuery ML CREATE MODEL avec des tables BigQuery.
  • Optimisation du modèle : optimisez un modèle à l'aide de l'ensemble de validation. Explorez d'autres modèles tels que DecisionTreeRegressor et RandomForestRegressor, et comparez leurs performances.
  • Évaluation du modèle : évaluez les performances du modèle sur un ensemble de données de test à l'aide d'un DataFrame pandas, de BigQuery DataFrames ou d'un DataFrame PySpark. Vous pouvez également évaluer la qualité du modèle et comparer les modèles à l'aide des fonctions d'évaluation de modèle BigQuery ML pour les modèles entraînés à l'aide de BigQuery ML.
  • Inférence du modèle : effectuez une inférence avec des modèles entraînés BigQuery ML, des modèles importés et des modèles distants à l'aide des fonctions d'inférence BigQuery ML. Vous pouvez également utiliser la méthode BigFrames model.predict() ou les transformateurs PySpark pour effectuer des prédictions.

Utiliser l'agent Data Science dans BigQuery

Les étapes suivantes vous montrent comment utiliser l'agent Data Science dans BigQuery.

  1. Créez ou ouvrez un notebook Colab Enterprise.

  2. Facultatif : Référencez vos données de l'une des manières suivantes :

    • Importez un fichier CSV ou utilisez le symbole + dans votre requête pour rechercher les fichiers disponibles.
    • Choisissez une ou plusieurs tables BigQuery dans le sélecteur de table de votre projet actuel ou d'autres projets auxquels vous avez accès.
    • Référencez un nom de table BigQuery dans votre requête au format suivant : project_id:dataset.table.
    • Saisissez le symbole @ pour rechercher un nom de table BigQuery à l'aide de la fonction @mention.
  3. Saisissez une requête décrivant l'analyse de données que vous souhaitez effectuer ou le prototype que vous souhaitez créer. Le comportement par défaut de l'agent Data Science consiste à générer du code Python à l'aide de bibliothèques Open Source telles que sklearn pour effectuer des tâches complexes de machine learning. Pour utiliser un outil spécifique, incluez les mots clés suivants dans votre requête :

    • Si vous souhaitez utiliser BigQuery ML, incluez le mot clé "SQL".
    • Si vous souhaitez utiliser "BigQuery DataFrames", spécifiez les mots clés "BigFrames" ou "BigQuery DataFrames".
    • Si vous souhaitez utiliser PySpark, incluez les mots clés "Apache Spark" ou "PySpark".

    Pour obtenir de l'aide, consultez les exemples de requêtes.

  4. Choisissez votre modèle. Le modèle par défaut est Gemini 3.0 Flash.

  5. Envoyez votre requête et examinez les résultats.

Analyser un fichier CSV

Pour analyser un fichier CSV à l'aide de l'agent Data Science dans BigQuery, procédez comme suit.

  1. Accédez à la page BigQuery.

    Accéder à BigQuery

  2. Dans le volet de gauche, développez votre projet, puis cliquez sur Notebooks.

  3. Cliquez sur Nouveau notebook > Notebook vide.

    Vous pouvez également cliquer sur la flèche du menu déroulant arrow_drop_down à côté de l'icône add_box Ajouter dans la barre d'onglets, puis sur Notebook > Notebook vide.

  4. Cliquez sur le bouton spark Activer/Désactiver Gemini dans Colab pour ouvrir la boîte de dialogue de chat.

  5. Importez votre fichier CSV.

    1. Dans la boîte de dialogue de chat, cliquez sur Ajouter à Gemini > Importer.

    2. Si nécessaire, autorisez votre compte Google.

    3. Accédez à l'emplacement du fichier CSV, puis cliquez sur Ouvrir.

  6. Vous pouvez également saisir le symbole + dans votre requête pour rechercher les fichiers disponibles à importer.

  7. Saisissez votre requête dans la fenêtre de chat. Par exemple : Identify trends and anomalies in this file.

  8. Choisissez votre modèle. Le modèle par défaut est Gemini 3.0 Flash.

  9. Cliquez sur Envoyer. Les résultats s'affichent dans la fenêtre de chat.

  10. Vous pouvez demander à l'agent de modifier le plan ou l'exécuter en cliquant sur Accepter et exécuter. Pendant l'exécution du plan, le code et le texte générés s'affichent dans le notebook. Cliquez sur Annuler pour arrêter.

Analyser des tables BigQuery

Pour analyser une table BigQuery, choisissez une ou plusieurs tables dans le sélecteur de table, fournissez une référence à la table dans votre requête ou recherchez une table à l'aide du symbole @.

  1. Accédez à la page BigQuery.

    Accéder à BigQuery

  2. Dans le volet de gauche, développez votre projet, puis cliquez sur Notebooks.

  3. Cliquez sur Nouveau notebook > Notebook vide.

    Vous pouvez également cliquer sur la flèche du menu déroulant arrow_drop_down à côté de l'icône add_box Ajouter dans la barre d'onglets, puis sur Notebook > Notebook vide.

  4. Cliquez sur le bouton spark Activer/Désactiver Gemini dans Colab pour ouvrir la boîte de dialogue de chat.

  5. Saisissez votre requête dans la fenêtre de chat.

  6. Référencez vos données de l'une des manières suivantes :

    1. Choisissez une ou plusieurs tables à l'aide du sélecteur de table :

      1. Cliquez sur Ajouter à Gemini > Tables BigQuery.

      2. Dans la fenêtre Tables BigQuery, sélectionnez une ou plusieurs tables de votre projet. Vous pouvez rechercher des tables dans tous les projets et les filtrer à l'aide de la barre de recherche.

    2. Incluez directement un nom de table BigQuery dans votre requête. Par exemple : "Aidez-moi à effectuer une analyse de données exploratoire et à obtenir des insights sur les données de ce tableau : project_id:dataset.table."

      Remplacez les éléments suivants :

      • project_id : ID de votre projet
      • dataset: nom de l'ensemble de données contenant la table que vous analysez
      • table: nom de la table que vous analysez
    3. Saisissez @ pour rechercher une table BigQuery dans votre projet actuel.

  7. Choisissez votre modèle. Le modèle par défaut est Gemini 3.0 Flash.

  8. Cliquez sur Envoyer.

    Les résultats s'affichent dans la fenêtre de chat.

  9. Vous pouvez demander à l'agent de modifier le plan ou l'exécuter en cliquant sur Accepter et exécuter. Pendant l'exécution du plan, le code et le texte générés s'affichent dans le notebook. Pour les étapes supplémentaires du plan, vous devrez peut-être cliquer à nouveau sur Accepter et exécuter. Cliquez sur Annuler pour arrêter.

Exemples de requêtes

Quelle que soit la complexité de la requête que vous utilisez, l'agent Data Science génère un plan que vous pouvez affiner pour répondre à vos besoins.

Les exemples suivants illustrent les types de requêtes que vous pouvez utiliser avec le DSA.

Requêtes Python

Le code Python est généré par défaut, sauf si vous utilisez un mot clé spécifique dans la requête, tel que "BigQuery ML" ou "SQL".

  • "Investigate and fill missing values by using the k-Nearest Neighbors (KNN) machine learning algorithm."
  • "Create a plot of salary by experience level. Use the experience_level column to group the salaries, and create a box plot for each group showing the values from the salary_in_usd column."
  • "Use the XGBoost algorithm to make a model for determining the class variable of a particular fruit. Split the data into training and testing datasets to generate a model and to determine the model's accuracy. Créez une matrice de confusion pour afficher les prédictions de chaque classe, y compris toutes les prédictions correctes et incorrectes.
  • "Forecast target_variable from filename.csv for the next six months."

Requêtes SQL et BigQuery ML

  • "Create and evaluate a classification model on bigquery-public-data.ml_datasets.census_adult_income using BigQuery SQL."
  • "Using SQL, forecast the future traffic of my website for the next month based on bigquery-public-data.google_analytics_sample.ga_sessions_*. Then, plot the historical and forecasted values."
  • "Group similar customers together to create targeting market campaigns using a KMeans model and BigQuery ML SQL functions. Use three features for clustering. Then visualize the results by creating a series of 2D scatter plots. Use the table bigquery-public-data.ml_datasets.census_adult_income."
  • "Generate text embeddings in BigQuery ML using the review content in bigquery-public-data.imdb.reviews."

Pour obtenir la liste des modèles et des tâches de machine learning compatibles, consultez la documentation BigQuery ML.

Requêtes DataFrame

  • "Create a pandas DataFrame for the data in project_id:dataset.table. Analyze the data for null values, and then graph the distribution of each column using the graph type. Use violin plots for measured values and bar plots for categories."
  • "Read filename.csv and construct a DataFrame. Run analysis on the DataFrame to determine what needs to be done with values. For example, are there missing values that need to be replaced or removed, or are there duplicate rows that need to be addressed. Use the data file to determine the distribution of the money invested in USD per city location. Graph the top 20 results using a bar graph that shows the results in descending order as Location versus Avg Amount Invested (USD)."
  • "Create and evaluate a classification model on project_id:dataset.table using BigQuery DataFrames."
  • "Create a time series forecasting model on project_id:dataset.table using BigQuery DataFrames, and visualize the model evaluations."
  • "Visualize the sales figures in the past year in BigQuery table project_id:dataset.table using BigQuery DataFrames."
  • "Find the features that can best predict the penguin species from the table bigquery-public_data.ml_datasets.penguins using BigQuery DataFrames."

Requêtes PySpark

  • "Create and evaluate a classification model on project_id:dataset.table using Managed Service for Apache Spark."
  • "Group similar customers together to create targeting market campaigns, but first do dimensionality reduction using a PCA model. Use PySpark to do this on table project_id:dataset.table."

Désactiver Gemini dans BigQuery

Pour désactiver Gemini dans BigQuery pour un Google Cloud projet, un administrateur doit désactiver l' API Gemini pour Google Cloud. Consultez Désactiver des services.

Pour désactiver Gemini dans BigQuery pour un utilisateur spécifique, un administrateur doit lui retirer le rôle Utilisateur Gemini pour Google Cloud (roles/cloudaicompanion.user). Consultez Révoquer un rôle IAM unique.

Tarifs

Les tarifs de l'agent Data Science sont basés sur vos données d'entrée et de sortie. Pour en savoir plus, consultez Tarifs des agents dans Fonctionnement des tarifs BigQuery.

Régions où le service est disponible

Pour afficher les régions où l'agent Data Science de Colab Enterprise est disponible, consultez la page Emplacements.