Utiliser Data Science Agent
Ce guide explique comment utiliser l'agent data science dans Colab Enterprise pour vous aider à effectuer des tâches de data science dans vos notebooks.
Découvrez comment et quand Gemini pour Google Cloud utilise vos données.
Ce document est destiné aux analystes de données, aux data scientists et aux développeurs de données qui travaillent avec Colab Enterprise. Il suppose que vous savez écrire du code dans un environnement notebook.
Capacités de Data Science Agent
Data Science Agent peut vous aider à effectuer des tâches allant de l'analyse exploratoire des données à la génération de prédictions et de prévisions de machine learning. Vous pouvez utiliser l'agent Data Science pour :
- Traitement de données à grande échelle : utilisez BigQuery ML, BigQuery DataFrames ou Serverless pour Apache Spark afin d'effectuer un traitement distribué des données sur de grands ensembles de données. Cela vous permet de nettoyer, de transformer et d'analyser efficacement des données trop volumineuses pour tenir dans la mémoire d'une seule machine.
- Génération de plans : générez et modifiez un plan pour accomplir une tâche spécifique à l'aide d'outils courants tels que Python, SQL, Apache Spark et BigQuery DataFrames.
- Exploration des données : explorez un ensemble de données pour comprendre sa structure, identifier les problèmes potentiels tels que les valeurs manquantes et les valeurs aberrantes, et examiner la distribution des variables clés.
- Nettoyage des données : nettoyez vos données. Par exemple, supprimez les points de données aberrants.
- Nettoyage des données : convertissez les caractéristiques catégorielles en représentations numériques à l'aide de techniques telles que l'encodage one-hot ou l'encodage des libellés. Créez des fonctionnalités d'analyse.
- Analyse des données : analysez les relations entre différentes variables. Calculez les corrélations entre les caractéristiques numériques et explorez les distributions des caractéristiques catégorielles. Recherchez des tendances et des modèles dans les données.
- Visualisation des données : créez des visualisations telles que des histogrammes, des graphiques en boîte, des graphiques à nuage de points et des graphiques à barres qui représentent les distributions de variables individuelles et les relations entre elles.
- Ingénierie des caractéristiques : concevez de nouvelles caractéristiques à partir d'un ensemble de données nettoyé.
- Fractionnement des données : fractionnez un ensemble de données conçu en ensembles de données d'entraînement, de validation et de test.
- Entraînement du modèle : entraînez un modèle à l'aide des données d'entraînement dans un DataFrame pandas, un BigQuery DataFrames, un DataFrame PySpark ou à l'aide de l'instruction
CREATE MODELBigQuery ML avec des tables BigQuery. - Optimisation du modèle : optimisez un modèle à l'aide de l'ensemble de validation.
Explorez d'autres modèles tels que
DecisionTreeRegressoretRandomForestRegressor, et comparez leurs performances. - Évaluation du modèle : évaluez les performances du modèle sur un ensemble de données de test à l'aide d'un DataFrame pandas, BigQuery DataFrames ou PySpark. Vous pouvez également évaluer la qualité des modèles et les comparer à l'aide des fonctions d'évaluation de modèle BigQuery ML pour les modèles entraînés à l'aide de BigQuery ML.
- Inférence de modèle : effectuez l'inférence avec des modèles entraînés BigQuery ML, des modèles importés et des modèles distants à l'aide des fonctions d'inférence BigQuery ML. Vous pouvez également utiliser la méthode
model.predict()BigQuery DataFrames ou les transformateurs PySpark pour faire des prédictions.
Limites
- L'agent Data Science est compatible avec les sources de données suivantes :
- Fichiers CSV
- les tables BigQuery
- Le code produit par l'agent data science ne s'exécute que dans l'environnement d'exécution de votre notebook.
- Votre notebook doit se trouver dans une région compatible avec l'agent Data Science. Consultez Zones géographiques.
- L'agent Data Science n'est pas compatible avec les projets pour lesquels VPC Service Controls est activé.
- La première fois que vous exécutez l'agent Data Science, vous pouvez rencontrer une latence d'environ cinq à dix minutes. Cela ne se produit qu'une seule fois par projet lors de la configuration initiale.
- La recherche de tables BigQuery à l'aide de la fonction
@mentionest limitée à votre projet actuel. Utilisez le sélecteur de tables pour effectuer des recherches dans les projets. - La fonction
@mentionne recherche que les tables BigQuery. Pour rechercher les fichiers de données que vous pouvez importer, utilisez le symbole+. - PySpark dans l'agent data science ne génère que du code Apache Spark 4.0. L'agent DSA peut vous aider à passer à Apache Spark 4.0, mais les utilisateurs qui ont besoin de versions antérieures d'Apache Spark ne doivent pas utiliser l'agent Data Science.
Avant de commencer
- Connectez-vous à votre compte Google Cloud . Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $de crédits sans frais pour exécuter, tester et déployer des charges de travail.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
Rôles requis
Pour obtenir les autorisations nécessaires pour utiliser l'agent Data Science dans Colab Enterprise, demandez à votre administrateur de vous accorder le rôle IAM Utilisateur Colab Enterprise (roles/aiplatform.colabEnterpriseUser) sur le projet.
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.
Faire référence à vos données
Pour permettre à l'agent Data Science de Colab Enterprise d'accéder à vos données et de les traiter, vous pouvez importer un fichier CSV ou référencer une table BigQuery.
Fichier CSV
-
Dans la console Google Cloud , accédez à la page Mes notebooks de Colab Enterprise.
-
Dans le menu Région, sélectionnez la région qui contient votre notebook.
-
Cliquez sur le notebook que vous souhaitez ouvrir.
-
Cliquez sur le bouton Activer/Désactiver Gemini dans Colab pour ouvrir la boîte de dialogue du chat.
- Dans la boîte de dialogue du chat, cliquez sur Ajouter des fichiers > Importer.
-
Si nécessaire, autorisez votre compte Google.
Patientez quelques instants pendant que Colab Enterprise démarre un environnement d'exécution et active la navigation dans les fichiers.
- Accédez à l'emplacement du fichier, puis cliquez sur Ouvrir.
-
Cliquez sur OK pour confirmer que les fichiers de cet environnement d'exécution seront supprimés lorsqu'il sera effacé.
Le fichier est importé dans le volet Fichiers et s'affiche dans la fenêtre de chat.
Table BigQuery
-
Dans la console Google Cloud , accédez à la page Mes notebooks de Colab Enterprise.
-
Dans le menu Région, sélectionnez la région qui contient votre notebook.
-
Cliquez sur le notebook que vous souhaitez ouvrir.
-
Cliquez sur le bouton Activer/Désactiver Gemini dans Colab pour ouvrir la boîte de dialogue du chat.
-
Pour faire référence à vos données, procédez de l'une des manières suivantes :
-
Choisissez une ou plusieurs tables à l'aide du sélecteur de tables :
- Cliquez sur Ajouter à Gemini > Tables BigQuery.
- Dans la fenêtre Tables BigQuery, sélectionnez une ou plusieurs tables de votre projet. Vous pouvez rechercher des tables dans tous les projets et les filtrer à l'aide de la barre de recherche.
-
Incluez directement le nom d'une table BigQuery dans votre requête. Par exemple : "Aide-moi à effectuer une analyse exploratoire des données et à obtenir des insights sur les données de ce tableau :
PROJECT_ID:DATASET.TABLE."Remplacez les éléments suivants :
PROJECT_ID: ID de votre projet.DATASET: nom de l'ensemble de données contenant la table que vous analysez.TABLE: nom de la table que vous analysez.
-
Saisissez
@pour rechercher une table BigQuery dans votre projet actuel.
-
Utiliser Data Science Agent
Pour commencer à utiliser le Data Science Agent de Colab Enterprise, procédez comme suit :
-
Dans la boîte de dialogue du chat Gemini, saisissez un prompt, puis cliquez sur Envoyer. Pour trouver des idées de requêtes, consultez les fonctionnalités de l'agent Data Science et les exemples de requêtes.
Par exemple, vous pouvez saisir "Fournis une analyse des données que j'ai importées".
Si vous n'avez pas encore autorisé l'agent Data Science, une brève boîte de dialogue s'affiche pendant que Colab Enterprise authentifie votre compte Google auprès de l'agent Data Science.
-
Gemini répond à votre requête. La réponse peut inclure des extraits de code à exécuter, des conseils généraux pour votre projet, les prochaines étapes pour atteindre vos objectifs ou des informations sur des problèmes spécifiques dans vos données ou votre code.
Après avoir évalué la réponse, vous pouvez effectuer les actions suivantes :
- Si Gemini fournit du code dans sa réponse, vous pouvez cliquer sur :
- Cliquez sur Accepter pour ajouter le code à votre notebook.
- Cliquez sur Accepter et exécuter pour ajouter le code à votre notebook et l'exécuter.
- Appuyez sur Annuler pour supprimer le code suggéré.
- Posez des questions complémentaires et poursuivez la discussion si nécessaire.
- Si Gemini fournit du code dans sa réponse, vous pouvez cliquer sur :
-
Pour fermer la boîte de dialogue Gemini, cliquez sur Fermer.
Désactiver Gemini dans Colab Enterprise
Pour désactiver Gemini dans Colab Enterprise pour un projet Google Cloud , un administrateur doit désactiver l'API Gemini for Google Cloud. Consultez Désactiver des services.
Pour désactiver Gemini dans Colab Enterprise pour un utilisateur spécifique, un administrateur doit lui retirer le rôle Utilisateur Gemini pour Google Cloud (roles/cloudaicompanion.user). Consultez Révoquer un rôle IAM unique.
Exemples de requêtes
Les sections suivantes présentent des exemples de types de requêtes que vous pouvez utiliser avec l'agent Data Science.
Requêtes Python
Le code Python est généré par défaut, sauf si vous utilisez un mot clé spécifique dans la requête, tel que "BigQuery ML" ou "SQL".
- Étudiez et comblez les valeurs manquantes à l'aide de l'algorithme de machine learning des k plus proches voisins (KNN).
- Créez un graphique des salaires par niveau d'expérience. Utilisez la colonne
experience_levelpour regrouper les salaires et créer un graphique en boîte pour chaque groupe, en affichant les valeurs de la colonnesalary_in_usd. - Utilisez l'algorithme XGBoost pour créer un modèle permettant de déterminer la variable
classd'un fruit donné. Divisez les données en ensembles de données d'entraînement et de test pour générer un modèle et déterminer sa précision. Créez une matrice de confusion pour afficher les prédictions pour chaque classe, y compris toutes les prédictions correctes et incorrectes. - Prévision
target_variabledefilename.csvpour les six prochains mois.
Requêtes SQL et BigQuery ML
- Créez et évaluez un modèle de classification sur
bigquery-public-data.ml_datasets.census_adult_incomeà l'aide de BigQuery SQL. - À l'aide de SQL, prévois le trafic futur de mon site Web pour le mois prochain en fonction de
bigquery-public-data.google_analytics_sample.ga_sessions_*. Tracez ensuite les valeurs historiques et prévues. - Regroupez les clients similaires pour créer des campagnes de ciblage du marché à l'aide d'un modèle KMeans et des fonctions SQL BigQuery ML. Utilisez trois caractéristiques pour le clustering. Visualisez ensuite les résultats en créant une série de nuages de points 2D. Utilisez le tableau
bigquery-public-data.ml_datasets.census_adult_income. - Générez des embeddings de texte dans BigQuery ML à l'aide du contenu des avis dans
bigquery-public-data.imdb.reviews.
Pour obtenir la liste des modèles et des tâches de machine learning compatibles, consultez la documentation BigQuery ML.
Requêtes DataFrame
- Créez un DataFrame pandas pour les données de
project_id:dataset.table. Analysez les données pour identifier les valeurs nulles, puis représentez la distribution de chaque colonne à l'aide du type de graphique. Utilisez des graphiques en violon pour les valeurs mesurées et des graphiques à barres pour les catégories. - Lisez
filename.csvet construisez un DataFrame. Exécutez une analyse sur le DataFrame pour déterminer ce qu'il faut faire avec les valeurs. Par exemple, y a-t-il des valeurs manquantes à remplacer ou à supprimer, ou des lignes en double à traiter ? Utilisez le fichier de données pour déterminer la répartition de l'argent investi en USD par ville. Représentez les 20 premiers résultats sous forme de graphique à barres qui les affiche par ordre décroissant, en comparant le lieu et le montant moyen investi (USD). - Créez et évaluez un modèle de classification sur
project_id:dataset.tableà l'aide de BigQuery DataFrames. - Créez un modèle de prévision de séries temporelles sur
project_id:dataset.tableà l'aide de BigQuery DataFrames, puis visualisez les évaluations du modèle. - Visualisez les chiffres de ventes de l'année écoulée dans le tableau BigQuery
project_id:dataset.tableà l'aide de BigQuery DataFrames. - Trouvez les caractéristiques qui permettent le mieux de prédire l'espèce de pingouin à partir du tableau
bigquery-public_data.ml_datasets.penguinsà l'aide de BigQuery DataFrames.
Requêtes PySpark
- Créez et évaluez un modèle de classification sur
project_id:dataset.tableà l'aide de Serverless pour Apache Spark. - Regroupez les clients similaires pour créer des campagnes de ciblage du marché, mais effectuez d'abord une réduction de la dimensionnalité à l'aide d'un modèle ACP. Utilisez PySpark pour effectuer cette opération sur la table
project_id:dataset.table.
Régions où le service est disponible
Pour afficher les régions compatibles avec Data Science Agent de Colab Enterprise, consultez Emplacements.
Facturation
Pendant la version preview, vous n'êtes facturé que pour l'exécution du code dans l'environnement d'exécution du notebook. Pour en savoir plus, consultez la page Tarifs de Colab Enterprise.
Étapes suivantes
Pour savoir comment utiliser le Data Science Agent avec BigQuery, consultez Utiliser le Data Science Agent Colab Enterprise avec BigQuery.
Consultez la présentation de Gemini pour Google Cloud.
Pour découvrir d'autres façons d'écrire et de modifier du code avec l'assistance de Gemini, consultez les ressources suivantes :
Découvrez comment Gemini pour Google Cloud utilise vos données.