Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Utiliser Data Science Agent

Ce guide explique comment utiliser Data Science Agent dans Colab Enterprise pour vous aider à effectuer des tâches de data science dans vos notebooks.

Découvrez comment et quand Gemini pour Google Cloud utilise vos données.

Ce document est destiné aux analystes de données, aux data scientists et aux développeurs de données qui travaillent avec Colab Enterprise. Il suppose que vous savez écrire du code dans un environnement de notebook.

Capacités de Data Science Agent

Data Science Agent peut vous aider à effectuer des tâches allant de l'analyse exploratoire des données à la génération de prédictions et de prévisions de machine learning. Vous pouvez utiliser Data Science Agent pour :

Le traitement de données à grande échelle : utilisez BigQuery ML, BigQuery DataFrames ou Managed Service pour Apache Spark afin d'effectuer un traitement de données distribué sur de grands ensembles de données. Cela vous permet de nettoyer, de transformer et d'analyser efficacement des données trop volumineuses pour tenir dans la mémoire d'une seule machine.
La génération de plans : générez et modifiez un plan pour effectuer une tâche particulière à l'aide d'outils courants tels que Python, SQL, Apache Spark et BigQuery DataFrames.
Exploration des données : explorez un ensemble de données pour comprendre sa structure, identifiez les problèmes potentiels tels que les valeurs manquantes et les valeurs aberrantes, et examinez la distribution des variables clés.
Le nettoyage des données : nettoyez vos données. Par exemple, supprimez les points de données qui sont des valeurs aberrantes.
Le data wrangling : convertissez les caractéristiques catégorielles en représentations numériques à l'aide de techniques telles que l'encodage one-hot ou l'encodage de libellés. Créez de nouvelles caractéristiques pour l'analyse.
L'analyse des données : analysez les relations entre différentes variables. Calculez les corrélations entre les caractéristiques numériques et explorez les distributions des caractéristiques catégorielles. Recherchez des modèles et des tendances dans les données.
La visualisation des données : créez des visualisations telles que des histogrammes, des graphiques en boîte, des nuages de points et des graphiques à barres qui représentent les distributions des variables individuelles et les relations entre elles.
L'ingénierie des caractéristiques : créez de nouvelles caractéristiques à partir d'un ensemble de données nettoyé.
La division des données : divisez un ensemble de données conçu en ensembles de données d'entraînement, de validation, et de test.
Entraînement de modèle : entraînez un modèle à l'aide des données d'entraînement dans un DataFrame pandas, un BigQuery DataFrames, un PySpark DataFrame, ou à l'aide de l'instruction BigQuery ML CREATE MODEL avec des tables BigQuery.
L'optimisation du modèle : optimisez un modèle à l'aide de l'ensemble de validation. Explorez d'autres modèles tels que DecisionTreeRegressor et RandomForestRegressor, et comparez leurs performances.
L'évaluation du modèle : évaluez les performances du modèle sur un ensemble de données de test à l'aide d'un DataFrame pandas, de BigQuery DataFrames ou d'un PySpark DataFrame. Vous pouvez également évaluer la qualité du modèle et comparer les modèles à l'aide de BigQuery ML fonctions d'évaluation de modèle pour les modèles entraînés à l'aide de BigQuery ML.
L'inférence du modèle : effectuez une inférence avec des modèles entraînés BigQuery ML , des modèles importés et des modèles distants à l'aide des fonctions d'inférence BigQuery ML . Vous pouvez également utiliser la méthode BigQuery DataFrames model.predict() ou les transformateurs PySpark pour effectuer des prédictions.

Limites

Data Science Agent est compatible avec les sources de données suivantes :
- Fichiers CSV
- Tables BigQuery
Le code produit par Data Science Agent ne s'exécute que dans l'environnement d'exécution de votre notebook.
Votre notebook doit se trouver dans une région compatible avec Data Science Agent. Consultez la page Emplacements.
La première fois que vous exécutez Data Science Agent, vous pouvez rencontrer une latence d'environ cinq à dix minutes. Cela ne se produit qu'une seule fois par projet lors de la configuration initiale.
La recherche de tables BigQuery à l'aide de la fonction @mention est limitée à votre projet actuel. Utilisez le sélecteur de table pour effectuer une recherche dans tous les projets.
La fonction @mention ne recherche que les tables BigQuery. Pour rechercher des fichiers de données que vous pouvez importer, utilisez le symbole +.
PySpark dans Data Science Agent ne génère que du code Apache Spark 4.0. Data Science Agent peut vous aider à passer à Apache Spark 4.0, mais les utilisateurs qui ont besoin de versions antérieures d'Apache Spark ne doivent pas utiliser Data Science Agent.

Avant de commencer

Connectez-vous à votre Google Cloud compte. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits sans frais pour exécuter, tester et déployer des charges de travail.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Agent Platform, Dataform, and Compute Engine APIs.

Roles required to enable APIs

To enable APIs, you need the serviceusage.services.enable permission. If you created the project, then you likely already have this permission through the Owner role (roles/owner). Otherwise, you can get this permission through the Service Usage Admin role (roles/serviceusage.serviceUsageAdmin). Learn how to grant roles.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Agent Platform, Dataform, and Compute Engine APIs.

Roles required to enable APIs

Enable the APIs

Rôles requis

Pour obtenir les autorisations nécessaires pour utiliser Data Science Agent dans Colab Enterprise, demandez à votre administrateur de vous accorder le rôle IAM Utilisateur Colab Enterprise (roles/aiplatform.colabEnterpriseUser) sur le projet. Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.

Un ou plusieurs des rôles requis incluent l'autorisation dataform.repositories.list. Les utilisateurs disposant de l'autorisation dataform.repositories.list ou du rôle Créateur de code (roles/dataform.codeCreator) dans un projet peuvent lister les noms des composants de code de ce projet à l'aide de l'API Dataform ou de l'interface de ligne de commande (CLI) Dataform. Les utilisateurs sans droits d'administrateur qui utilisent BigQuery Studio ne peuvent voir que les composants de code qu'ils ont créés ou qui ont été partagés avec eux.

Référencer vos données

Pour permettre à Data Science Agent de Colab Enterprise d'accéder à vos données et de les utiliser, vous pouvez importer un fichier CSV ou référencer une table BigQuery.

Fichier CSV

Dans la Google Cloud console, accédez à la page Mes notebooks de Colab Enterprise.

Accéder à "Mes notebooks"
Dans le menu Région, sélectionnez la région qui contient votre notebook.
Cliquez sur le notebook que vous souhaitez ouvrir.
Cliquez sur le bouton Activer/Désactiver Gemini dans Colab pour ouvrir la boîte de dialogue de chat.

Remarque : Vous pouvez déplacer la boîte de dialogue de chat dans un panneau distinct en dehors du notebook en cliquant sur le Déplacer vers le panneau bouton.
Dans la boîte de dialogue de chat, cliquez sur Ajouter des fichiers > Importer.
Si nécessaire, autorisez votre compte Google.

Attendez quelques instants que Colab Enterprise démarre un environnement d'exécution et active la navigation dans les fichiers.
Accédez à l'emplacement du fichier, puis cliquez Ouvrir.
Cliquez sur OK pour confirmer que les fichiers de cet environnement d'exécution seront supprimés lorsque l'environnement d'exécution sera supprimé.

Le fichier est importé dans le volet Fichiers et s'affiche dans la fenêtre de chat.

Table BigQuery

Dans la Google Cloud console, accédez à la page Mes notebooks de Colab Enterprise.

Accéder à "Mes notebooks"
Dans le menu Région, sélectionnez la région qui contient votre notebook.
Cliquez sur le notebook que vous souhaitez ouvrir.
Cliquez sur le bouton Activer/Désactiver Gemini dans Colab pour ouvrir la boîte de dialogue de chat.

Remarque : Vous pouvez déplacer la boîte de dialogue de chat dans un panneau distinct en dehors du notebook en cliquant sur le Déplacer vers le panneau bouton.
Pour référencer vos données, effectuez l'une des opérations suivantes :
- Choisissez une ou plusieurs tables à l'aide du sélecteur de table :
  1. Cliquez sur Ajouter à Gemini > Tables BigQuery.
  2. Dans la fenêtre Tables BigQuery, sélectionnez une ou plusieurs tables de votre projet. Vous pouvez rechercher des tables dans tous les projets et les filtrer à l'aide de la barre de recherche.
- Incluez directement un nom de table BigQuery dans votre prompt. Par exemple : "Aidez-moi à effectuer une analyse exploratoire de données et à obtenir des insights sur les données de cette table : PROJECT_ID:DATASET.TABLE."
  
  Remplacez les éléments suivants :
  - PROJECT_ID : ID du projet.
  - DATASET : nom de l'ensemble de données contenant la table que vous analysez.
  - TABLE : nom de la table que vous analysez.
- Saisissez @ pour rechercher une table BigQuery dans votre projet actuel.
- Dans votre prompt, utilisez le langage naturel pour décrire la table que vous souhaitez utiliser. Data Science Agent référence la table qui correspond le mieux à votre description.

Utiliser Data Science Agent

Pour commencer à utiliser Data Science Agent de Colab Enterprise, procédez comme suit :

Dans la boîte de dialogue de chat Gemini , saisissez un prompt, puis cliquez sur Envoyer. Pour obtenir des idées de prompts, consultez les capacités de Data Science Agent et les exemples de prompts.

Par exemple, vous pouvez saisir "Fournissez une analyse des données que j'ai importées."

Si vous n'avez pas encore autorisé Data Science Agent, une brève boîte de dialogue s'affiche pendant que Colab Enterprise authentifie votre compte Google auprès de Data Science Agent.
Gemini répond à votre prompt. La réponse peut inclure des extraits de code à exécuter, des conseils généraux pour votre projet, les étapes suivantes pour atteindre vos objectifs ou des informations sur des problèmes spécifiques dans vos données ou votre code.

Après avoir évalué la réponse, vous pouvez effectuer les opérations suivantes :
- Si Gemini fournit du code dans sa réponse, vous pouvez cliquer sur :
  - Accepter pour ajouter le code à votre notebook.
  - Accepter et exécuter pour ajouter le code à votre notebook et l'exécuter.
  - Annuler pour supprimer le code suggéré.
- Posez des questions complémentaires et poursuivez la discussion selon vos besoins.
Pour fermer la boîte de dialogue Gemini, cliquez sur Close.

Désactiver Gemini dans Colab Enterprise

Pour désactiver Gemini dans Colab Enterprise pour un Google Cloud projet, un administrateur doit désactiver l' API Gemini for Google Cloud. Consultez Désactiver des services.

Pour désactiver Gemini dans Colab Enterprise pour un utilisateur spécifique, un administrateur doit lui retirer le rôle Utilisateur Gemini pour Google Cloud (roles/cloudaicompanion.user). Consultez Révoquer un rôle IAM unique.

Exemples de requêtes

Les sections suivantes présentent des exemples de types de requêtes que vous pouvez utiliser avec Data Science Agent.

Requêtes Python

Le code Python est généré par défaut, sauf si vous utilisez un mot clé spécifique dans le prompt, tel que "BigQuery ML" ou "SQL".

Étudiez et remplissez les valeurs manquantes à l'aide de l'algorithme de machine learning des k plus proches voisins (KNN).
Créez un graphique des salaires par niveau d'expérience. Utilisez la colonne experience_level pour regrouper les salaires et créez un graphique en boîte pour chaque groupe affichant les valeurs de la colonne salary_in_usd.
Utilisez l'algorithme XGBoost pour créer un modèle permettant de déterminer la variable class d'un fruit particulier. Divisez les données en ensembles de données d'entraînement et de test pour générer un modèle et déterminer sa précision. Créez une matrice de confusion pour afficher les prédictions dans chaque classe, y compris toutes les prédictions correctes et incorrectes.
Prévoyez target_variable à partir de filename.csv pour les six prochains mois.

Requêtes SQL et BigQuery ML

Créez et évaluez un modèle de classification sur bigquery-public-data.ml_datasets.census_adult_income à l'aide de BigQuery SQL.
À l'aide de SQL, prévoyez le trafic futur de mon site Web pour le mois prochain en fonction de bigquery-public-data.google_analytics_sample.ga_sessions_*. Tracez ensuite les valeurs historiques et prévues.
Regroupez les clients similaires pour créer des campagnes de ciblage à l'aide d'un modèle KMeans et des fonctions SQL BigQuery ML. Utilisez trois caractéristiques pour le clustering. Visualisez ensuite les résultats en créant une série de nuages de points 2D. Utilisez la table bigquery-public-data.ml_datasets.census_adult_income.
Générez des embeddings de texte dans BigQuery ML à l'aide du contenu des avis dans bigquery-public-data.imdb.reviews.

Pour obtenir la liste des modèles et des tâches de machine learning compatibles, consultez la documentation BigQuery ML.

Requêtes DataFrame

Créez un DataFrame pandas pour les données de project_id:dataset.table. Analysez les données pour détecter les valeurs nulles, puis représentez graphiquement la distribution de chaque colonne à l'aide du type de graphique. Utilisez des graphiques en violon pour les valeurs mesurées et des graphiques à barres pour les catégories.
Lisez filename.csv et construisez un DataFrame. Exécutez une analyse sur le DataFrame pour déterminer ce qui doit être fait avec les valeurs. Par exemple, y a-t-il des valeurs manquantes à remplacer ou à supprimer, ou des lignes en double à traiter ? Utilisez le fichier de données pour déterminer la répartition de l'argent investi en USD par ville. Représentez graphiquement les 20 premiers résultats à l'aide d'un graphique à barres qui affiche les résultats par ordre décroissant sous la forme "Lieu" par rapport au "Montant moyen investi (USD)".
Créez et évaluez un modèle de classification sur project_id:dataset.table à l'aide de BigQuery DataFrames.
Créez un modèle de prévision de séries temporelles sur project_id:dataset.table à l'aide de BigQuery DataFrames et visualisez les évaluations du modèle.
Visualisez les chiffres de ventes de l'année précédente dans la table BigQuery project_id:dataset.table à l'aide de BigQuery DataFrames.
Recherchez les caractéristiques qui permettent de prédire au mieux l'espèce de pingouin à partir de la table bigquery-public_data.ml_datasets.penguins à l'aide de BigQuery DataFrames.

Requêtes PySpark

Créez et évaluez un modèle de classification sur project_id:dataset.table à l'aide de Managed Service pour Apache Spark.
Regroupez les clients similaires pour créer des campagnes de ciblage, mais effectuez d'abord une réduction de la dimensionnalité à l'aide d'un modèle PCA. Utilisez PySpark pour effectuer cette opération sur la table project_id:dataset.table.

Régions où le service est disponible

Pour afficher les régions compatibles avec Data Science Agent de Colab Enterprise, consultez la page Emplacements.

Facturation

La tarification de Data Science Agent est basée sur vos données d'entrée et de sortie. Pour en savoir plus, consultez la section Tarifs des agents sur la page Tarifs de BigQuery.

VPC Service Controls

Data Science Agent est compatible avec VPC Service Controls. Si vous souhaitez utiliser le Data Science Agent dans un périmètre de service, consultez Utiliser VPC Service Controls avec Colab Enterprise.

Étape suivante

Pour en savoir plus sur l'utilisation de Data Science Agent avec BigQuery, consultez Utiliser Data Science Agent Colab Enterprise avec BigQuery.
Consultez la présentation de Gemini pour Google Cloud aperçu.
Pour découvrir d'autres façons d'écrire et de modifier du code avec l'assistance de Gemini, consultez les pages suivantes :
Découvrez comment Gemini pour Google Cloud utilise vos données.