Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Utiliser l'agent Data Science Colab Enterprise avec BigQuery

Data Science Agent (DSA) pour Colab Enterprise et BigQuery vous permet d'automatiser l'analyse exploratoire des données, d'effectuer des tâches de machine learning et de fournir des insights, le tout dans un notebook Colab Enterprise.

Avant de commencer

Connectez-vous à votre compte Google Cloud . Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $de crédits sans frais pour exécuter, tester et déployer des charges de travail.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Activez les API BigQuery, Vertex AI, Dataform et Compute Engine.
Rôles requis pour activer les API
Pour activer les API, vous avez besoin du rôle IAM Administrateur Service Usage (roles/serviceusage.serviceUsageAdmin), qui contient l'autorisation serviceusage.services.enable. Découvrez comment attribuer des rôles.
Activer les API

Pour les nouveaux projets, l'API BigQuery est automatiquement activée.

Si vous ne connaissez pas encore Colab Enterprise dans BigQuery, consultez les étapes de configuration sur la page Créer des notebooks.

Limites

L'agent Data Science n'est disponible que dans l'environnement Colab Enterprise.
L'agent Data Science est compatible avec les sources de données suivantes :
- Fichiers CSV
- les tables BigQuery
Le code produit par l'agent data science ne s'exécute que dans l'environnement d'exécution de votre notebook.
L'agent Data Science n'est pas compatible avec les projets pour lesquels VPC Service Controls est activé.
La recherche de tables BigQuery à l'aide de la fonction @mention est limitée à votre projet actuel. Utilisez le sélecteur de tables pour effectuer des recherches dans les projets.
La fonction @mention ne recherche que les tables BigQuery. Pour rechercher les fichiers de données que vous pouvez importer, utilisez le symbole +.
PySpark dans l'agent Data Science ne génère que du code Managed Service pour Apache Spark 4.0. Le DSA peut vous aider à passer à Managed Service for Apache Spark 4.0, mais les utilisateurs qui ont besoin de versions antérieures ne doivent pas utiliser l'agent Data Science.

Quand utiliser l'agent Data Science ?

Data Science Agent vous aide à effectuer des tâches allant de l'analyse exploratoire des données à la génération de prédictions et de prévisions de machine learning. Vous pouvez utiliser la DSA pour :

Traitement de données à grande échelle : utilisez BigQuery ML, BigQuery DataFrames ou Managed Service for Apache Spark pour effectuer un traitement distribué des données sur de grands ensembles de données. Cela vous permet de nettoyer, de transformer et d'analyser efficacement des données trop volumineuses pour tenir dans la mémoire d'une seule machine.
Générer un plan : générez et modifiez un plan pour accomplir une tâche spécifique à l'aide d'outils courants tels que Python, SQL, Managed Service pour Apache Spark et BigQuery DataFrames.
Exploration des données : explorez un ensemble de données pour comprendre sa structure, identifier les problèmes potentiels tels que les valeurs manquantes et les valeurs aberrantes, et examiner la distribution des variables clés à l'aide de Python ou de SQL.
Nettoyage des données : nettoyez vos données. Par exemple, supprimez les points de données aberrants.
Nettoyage des données : convertissez les caractéristiques catégorielles en représentations numériques à l'aide de techniques telles que l'encodage one-hot ou l'encodage par libellé, ou en utilisant les outils de transformation des caractéristiques de BigQuery ML. Créez des fonctionnalités d'analyse.
Analyse des données : analysez les relations entre différentes variables. Calculez les corrélations entre les caractéristiques numériques et explorez les distributions des caractéristiques catégorielles. Recherchez des tendances et des modèles dans les données.
Visualisation des données : créez des visualisations telles que des histogrammes, des graphiques en boîte, des graphiques à nuage de points et des graphiques à barres qui représentent les distributions de variables individuelles et les relations entre elles. Vous pouvez également créer des visualisations en Python pour les tables stockées dans BigQuery.
Ingénierie des caractéristiques : concevez de nouvelles caractéristiques à partir d'un ensemble de données nettoyé.
Fractionnement des données : fractionnez un ensemble de données conçu en ensembles de données d'entraînement, de validation et de test.
Entraînement du modèle : entraînez un modèle en utilisant les données d'entraînement dans un DataFrame pandas (X_train, y_train), BigQuery DataFrames, un DataFrame PySpark ou en utilisant l'instruction BigQuery ML CREATE MODEL avec des tables BigQuery.
Optimisation du modèle : optimisez un modèle à l'aide de l'ensemble de validation. Explorez d'autres modèles tels que DecisionTreeRegressor et RandomForestRegressor, et comparez leurs performances.
Évaluation du modèle : évaluez les performances du modèle sur un ensemble de données de test à l'aide d'un DataFrame pandas, BigQuery DataFrames ou PySpark. Vous pouvez également évaluer la qualité des modèles et les comparer à l'aide des fonctions d'évaluation de modèle BigQuery ML pour les modèles entraînés à l'aide de BigQuery ML.
Inférence de modèle : effectuez l'inférence avec des modèles entraînés BigQuery ML, des modèles importés et des modèles distants à l'aide des fonctions d'inférence BigQuery ML. Vous pouvez également utiliser la méthode model.predict() BigFrames ou les transformateurs PySpark pour faire des prédictions.

Utiliser l'agent Data Science dans BigQuery

Les étapes suivantes vous expliquent comment utiliser l'agent Data Science dans BigQuery.

Créez ou ouvrez un notebook Colab Enterprise.
Facultatif : Référencez vos données de l'une des manières suivantes :
- Importez un fichier CSV ou utilisez le symbole + dans votre requête pour rechercher les fichiers disponibles.
- Choisissez une ou plusieurs tables BigQuery dans le sélecteur de tables, soit dans votre projet actuel, soit dans d'autres projets auxquels vous avez accès.
- Dans votre requête, référencez le nom d'une table BigQuery au format suivant : project_id:dataset.table.
- Saisissez le symbole @ pour rechercher le nom d'une table BigQuery à l'aide de la fonction @mention.
Saisissez un prompt décrivant l'analyse de données que vous souhaitez effectuer ou le prototype que vous souhaitez créer. Le comportement par défaut de l'agent Data Science consiste à générer du code Python à l'aide de bibliothèques Open Source telles que sklearn pour accomplir des tâches complexes de machine learning. Pour utiliser un outil spécifique, incluez les mots clés suivants dans votre requête :
- Si vous souhaitez utiliser BigQuery ML, incluez le mot clé "SQL".
- Si vous souhaitez utiliser "BigQuery DataFrames", spécifiez les mots clés "BigFrames" ou "BigQuery DataFrames".
- Si vous souhaitez utiliser PySpark, incluez les mots clés "Apache Spark" ou "PySpark".
Pour obtenir de l'aide, consultez les exemples de requêtes.
Parcourez les résultats.

Analyser un fichier CSV

Pour analyser un fichier CSV à l'aide de l'agent Data Science dans BigQuery, procédez comme suit.

Accédez à la page BigQuery.

Accéder à BigQuery
Sur la page d'accueil de BigQuery Studio, sous Créer, cliquez sur Notebook.

Vous pouvez également cliquer sur la flèche du menu déroulant à côté de l'icône + dans la barre d'onglets, puis sur Notebook > Notebook vide.
Cliquez sur le bouton Activer/Désactiver Gemini dans Colab pour ouvrir la boîte de dialogue de chat.

Remarque : Vous pouvez déplacer la boîte de dialogue de chat dans un panneau distinct en dehors du notebook en cliquant sur l'icône Déplacer vers le panneau.
Importez votre fichier CSV.
1. Dans la boîte de dialogue de chat, cliquez sur Ajouter à Gemini > Importer.
2. Si nécessaire, autorisez votre compte Google.
3. Accédez à l'emplacement du fichier CSV, puis cliquez sur Ouvrir.
Vous pouvez également saisir le symbole + dans votre requête pour rechercher les fichiers disponibles à importer.
Saisissez votre requête dans la fenêtre de chat. Par exemple : Identify trends and anomalies in this file.
Cliquez sur Envoyer. Les résultats s'affichent dans la fenêtre de chat.
Vous pouvez demander à l'agent de modifier le plan ou l'exécuter en cliquant sur Accepter et exécuter. À mesure que le plan s'exécute, le code et le texte générés apparaissent dans le notebook. Cliquez sur Annuler pour arrêter.

Analyser des tables BigQuery

Pour analyser une table BigQuery, sélectionnez une ou plusieurs tables dans le sélecteur de tables, fournissez une référence à la table dans votre requête ou recherchez une table à l'aide du symbole @.

Accédez à la page BigQuery.

Accéder à BigQuery
Sur la page d'accueil de BigQuery Studio, sous Créer, cliquez sur Notebook.

Vous pouvez également cliquer sur la flèche du menu déroulant à côté de l'icône + dans la barre d'onglets, puis sur Notebook > Notebook vide.
Cliquez sur le bouton Activer/Désactiver Gemini dans Colab pour ouvrir la boîte de dialogue de chat.

Remarque : Vous pouvez déplacer la boîte de dialogue de chat dans un panneau distinct en dehors du notebook en cliquant sur l'icône Déplacer vers le panneau.
Saisissez votre requête dans la fenêtre de chat.
Faites référence à vos données de l'une des manières suivantes :
1. Choisissez une ou plusieurs tables à l'aide du sélecteur de tables :
  1. Cliquez sur Ajouter à Gemini > Tables BigQuery.
  2. Dans la fenêtre Tables BigQuery, sélectionnez une ou plusieurs tables de votre projet. Vous pouvez rechercher des tables dans tous les projets et les filtrer à l'aide de la barre de recherche.
2. Incluez un nom de table BigQuery directement dans votre requête. Par exemple : "Aide-moi à effectuer une analyse exploratoire des données et à obtenir des insights sur les données de ce tableau : project_id:dataset.table."
  
  Remplacez les éléments suivants :
  - project_id : ID de votre projet
  - dataset : nom de l'ensemble de données contenant la table que vous analysez.
  - table : nom de la table que vous analysez.
3. Saisissez @ pour rechercher une table BigQuery dans votre projet actuel.
Cliquez sur Envoyer.

Les résultats s'affichent dans la fenêtre de chat.
Vous pouvez demander à l'agent de modifier le plan ou l'exécuter en cliquant sur Accepter et exécuter. À mesure que le plan s'exécute, le code et le texte générés apparaissent dans le notebook. Pour les étapes supplémentaires du plan, vous devrez peut-être cliquer à nouveau sur Accepter et exécuter. Cliquez sur Annuler pour arrêter.

Exemples de requêtes

Quelle que soit la complexité de la requête que vous utilisez, l'agent data science génère un plan que vous pouvez affiner pour répondre à vos besoins.

Les exemples suivants illustrent les types de requêtes que vous pouvez utiliser avec l'analyse de la couverture dynamique.

Requêtes Python

Le code Python est généré par défaut, sauf si vous utilisez un mot clé spécifique dans la requête, tel que "BigQuery ML" ou "SQL".

Étudiez et comblez les valeurs manquantes à l'aide de l'algorithme de machine learning des k plus proches voisins (KNN).
Créez un graphique des salaires par niveau d'expérience. Utilisez la colonne experience_level pour regrouper les salaires et créer un graphique en boîte pour chaque groupe, en affichant les valeurs de la colonne salary_in_usd.
Utilisez l'algorithme XGBoost pour créer un modèle permettant de déterminer la variable class d'un fruit donné. Divisez les données en ensembles de données d'entraînement et de test pour générer un modèle et déterminer sa précision. Créez une matrice de confusion pour afficher les prédictions pour chaque classe, y compris toutes les prédictions correctes et incorrectes.
Prévision target_variable de filename.csv pour les six prochains mois.

Requêtes SQL et BigQuery ML

Créez et évaluez un modèle de classification sur bigquery-public-data.ml_datasets.census_adult_income à l'aide de BigQuery SQL.
À l'aide de SQL, prévois le trafic futur de mon site Web pour le mois prochain en fonction de bigquery-public-data.google_analytics_sample.ga_sessions_*. Ensuite, représentez graphiquement les valeurs historiques et prévisionnelles.
Regroupez les clients similaires pour créer des campagnes de ciblage du marché à l'aide d'un modèle KMeans et des fonctions SQL BigQuery ML. Utilisez trois caractéristiques pour le clustering. Visualisez ensuite les résultats en créant une série de nuages de points 2D. Utilisez le tableau bigquery-public-data.ml_datasets.census_adult_income.
Générez des embeddings de texte dans BigQuery ML à l'aide du contenu des avis dans bigquery-public-data.imdb.reviews.

Pour obtenir la liste des modèles et des tâches de machine learning compatibles, consultez la documentation BigQuery ML.

Requêtes DataFrame

Créez un DataFrame pandas pour les données de project_id:dataset.table. Analysez les données pour identifier les valeurs nulles, puis représentez la distribution de chaque colonne à l'aide du type de graphique. Utilisez des graphiques en violon pour les valeurs mesurées et des graphiques à barres pour les catégories.
Lisez filename.csv et construisez un DataFrame. Exécutez une analyse sur le DataFrame pour déterminer ce qu'il faut faire avec les valeurs. Par exemple, y a-t-il des valeurs manquantes à remplacer ou à supprimer, ou des lignes en double à traiter ? Utilisez le fichier de données pour déterminer la répartition de l'argent investi en USD par ville. Représentez les 20 premiers résultats sous forme de graphique à barres qui les affiche par ordre décroissant, en comparant le lieu et le montant moyen investi (USD).
Créez et évaluez un modèle de classification sur project_id:dataset.table à l'aide de BigQuery DataFrames.
Créez un modèle de prévision de séries temporelles sur project_id:dataset.table à l'aide de BigQuery DataFrames, puis visualisez les évaluations du modèle.
Visualisez les chiffres de ventes de l'année écoulée dans le tableau BigQuery project_id:dataset.table à l'aide de BigQuery DataFrames.
Trouvez les caractéristiques qui permettent le mieux de prédire l'espèce de pingouin à partir du tableau bigquery-public_data.ml_datasets.penguins à l'aide de BigQuery DataFrames.

Requêtes PySpark

Créez et évaluez un modèle de classification sur project_id:dataset.table à l'aide de Managed Service pour Apache Spark.
Regroupez les clients similaires pour créer des campagnes de ciblage du marché, mais effectuez d'abord une réduction de la dimensionnalité à l'aide d'un modèle ACP. Utilisez PySpark pour effectuer cette opération sur la table project_id:dataset.table.

Désactiver Gemini dans BigQuery

Pour désactiver Gemini dans BigQuery pour un projet Google Cloud , un administrateur doit désactiver l'API Gemini pour Google Cloud. Consultez Désactiver des services.

Pour désactiver Gemini dans BigQuery pour un utilisateur spécifique, un administrateur doit lui retirer le rôle Utilisateur Gemini pour Google Cloud (roles/cloudaicompanion.user). Consultez Révoquer un rôle IAM unique.

Tarifs

Pendant la période d'aperçu, l'exécution de code dans l'environnement d'exécution du notebook et les emplacements BigQuery que vous avez utilisés vous sont facturés. Pour en savoir plus, consultez la page Tarifs de Colab Enterprise.

Régions où le service est disponible

Pour afficher les régions compatibles avec l'agent Data Science de Colab Enterprise, consultez Emplacements.