L'extension Google Cloud Data Agent Kit pour Visual Studio Code vous permet d'utiliser des notebooks pour le nettoyage des données, l'extraction de caractéristiques et l'analyse approfondie.Vous avez le choix entre trois types de notebooks.
- Notebooks BigQuery DataFrames Il s'agit de notebooks Python qui vous permettent de traiter des ensembles de données volumineux dans BigQuery à l'aide des API Pandas et scikit-learn que vous connaissez. Ils permettent d'écrire du code en GoogleSQL pour BigQuery, en plus de Python.
Notebooks Apache Spark gérés avec un noyau local. Il s'agit de notebooks Python qui vous permettent de créer et d'exécuter des jobs sur Managed Service pour Apache Spark à l'aide de sa bibliothèque Spark Connect.
Notebooks Apache Spark gérés avec un noyau distant. Ces notebooks vous permettent d'exécuter votre notebook sur un noyau distant qui s'exécute entièrement sur Managed Service pour Apache Spark. Aucune partie de votre code n'est exécutée localement sur votre ordinateur. En plus de PySpark, vous pouvez écrire votre code en Spark SQL à l'aide de la commande magique de cellule
%%sparksql.
Avant de commencer
Pour les notebooks BigQuery, la bibliothèque bigframes doit être installée dans le même environnement virtuel Python dans lequel vous exécutez votre notebook. Lorsque vous créez un notebook, la cellule d'initialisation contient la ligne suivante, qui est commentée :
#%pip install --upgrade bigframes
Facultatif : si la bibliothèque
bigframesn'est pas installée dans votre environnement virtuel Python, supprimez le commentaire.Facultatif : si vous prévoyez d'écrire du code SQL dans votre notebook, installez
bigquery-magics:
pip install --upgrade bigquery-magics
Rôles requis
Pour obtenir les autorisations nécessaires pour exécuter des notebooks BigQuery, demandez à votre administrateur de vous accorder le rôle Utilisateur BigQuery Studio (roles/bigquery.studioUser) sur le projet que vous avez sélectionné dans l'extension.
Pour obtenir les autorisations nécessaires pour les notebooks Managed Service for Apache Spark, demandez à votre administrateur de vous accorder les rôles suivants sur le projet :
- Éditeur Dataproc
(
roles/dataproc.editor) - Éditeur Dataproc sans serveur
(
roles/dataproc.serverlessEditor)
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations. Vous pouvez également obtenir les autorisations requises grâce aux rôles personnalisés ou à d'autres rôles prédéfinis.
Transformez vos données
Pour les données d'une table BigLake ou BigQuery, l'extension fournit des modèles de notebooks pour vous aider à vous lancer.
Accéder à la table
Accédez à une table BigQuery ou BigLake :
- Ouvrez la palette de commandes en appuyant sur
Ctrl/Cmd-Shift-P. - Développez l'explorateur de catalogue et recherchez votre table BigQuery ou BigLake.
- Effectuez un clic droit sur l'ID du tableau.
Dans le menu flottant, sélectionnez Charger dans un DataFrame Spark ou Charger dans un DataFrame BigQuery. Un nouvel éditeur affiche des informations sur le tableau.
Vous pouvez également trouver le tableau à l'aide de la recherche universelle. Cliquez sur l'ID de la table pour ouvrir un nouvel éditeur, cliquez sur l'onglet Données, puis sélectionnez Charger dans un DataFrame Spark ou Charger dans un DataFrame BigQuery.
Initialiser un notebook
Une fois le tableau chargé, un notebook Jupyter s'ouvre dans un onglet d'éditeur. Il contient le code nécessaire pour charger votre tableau dans le type de DataFrame de votre choix.
Si la bibliothèque requise n'est pas installée dans votre environnement virtuel Python, supprimez la mise en commentaire de la ligne pip install.
Cliquez sur Sélectionner le noyau, puis choisissez un noyau Python.
Pour les notebooks Spark gérés avec des noyaux distants, vous devez choisir un noyau Spark distant.
Exécutez la cellule en cliquant sur ▷ Exécuter tout ou en appuyant sur
Shift+Enteren bas de la cellule.Si vous êtes invité à installer un logiciel manquant, cliquez sur Installer.
La cellule crée un DataFrame contenant les données du tableau sélectionné.
Appliquer des transformations de données au DataFrame
Ajoutez des cellules au notebook et écrivez le code pour transformer vos données. Pour BigQuery DataFrames, vous pouvez transformer le DataFrame à l'aide de l'API compatible avec pandas fournie par BigQuery DataFrames.
Vous pouvez également utiliser la commande magique fournie par BigQuery DataFrames pour transformer un DataFrame à l'aide de SQL dans un notebook Jupyter. Pour transformer vos données à l'aide de SQL, procédez comme suit :
Créez et exécutez une cellule pour activer les commandes magiques Jupyter.
%load_ext bigframesCréez une cellule SQL à l'aide des commandes magiques
%%bqsql.
Enregistrer les résultats
Utilisez l'une des nombreuses méthodes de sortie fournies par votre type DataFrames pour enregistrer les données transformées dans BigQuery ou Cloud Storage. Pour BigQuery DataFrames, les méthodes de sortie incluent les suivantes :
Pour les petits ensembles de données, vous pouvez les exporter vers Arrow ou Pandas pour les manipuler et les visualiser localement.
Effectuer un nettoyage
Pour éviter que des frais ne soient facturés sur votre compte Google Cloud , supprimez les ressources que vous avez créées, mais dont vous n'avez plus besoin.