Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Transformer les données

L'extension Google Cloud Data Agent Kit pour Visual Studio Code vous permet d'utiliser des notebooks pour le nettoyage des données, l'extraction de caractéristiques et l'analyse approfondie.Vous avez le choix entre trois types de notebooks.

Notebooks BigQuery DataFrames. Il s'agit de notebooks Python qui vous permettent de traiter des ensembles de données volumineux dans BigQuery à l'aide des API Pandas et scikit-learn. Ils sont compatibles avec l'écriture de code en GoogleSQL pour BigQuery en plus de Python.
Notebooks Apache Spark gérés avec noyau local. Il s'agit de notebooks Python qui vous permettent de créer et d'exécuter des jobs sur Managed Service pour Apache Spark à l'aide de sa bibliothèque Spark Connect.
Notebooks Apache Spark gérés avec noyau distant. Ces notebooks vous permettent d'exécuter votre notebook sur un noyau distant qui s'exécute entièrement sur Managed Service pour Apache Spark. Aucune partie de votre code n'est exécutée localement sur votre ordinateur. En plus de PySpark, vous pouvez écrire votre code en Spark SQL à l'aide de la commande magic %%sparksql.

Avant de commencer

Pour les notebooks BigQuery, la bibliothèque bigframes doit être installée dans le même environnement virtuel Python que celui dans lequel vous exécutez votre notebook. Lorsque vous créez un notebook, la cellule d'initialisation contient la ligne suivante, qui est commentée :

#%pip install --upgrade bigframes

Facultatif : si la bibliothèque bigframes n'est pas installée dans votre environnement virtuel Python, supprimez le commentaire.
Facultatif : si vous prévoyez d'écrire du code SQL dans votre notebook, installez bigquery-magics :

pip install --upgrade bigquery-magics

Rôles requis

Pour obtenir les autorisations nécessaires à l'exécution des notebooks BigQuery, demandez à votre administrateur de vous accorder le rôle d'utilisateur BigQuery Studio (roles/bigquery.studioUser) sur le projet que vous avez sélectionné dans l'extension.

Pour obtenir les autorisations nécessaires pour les notebooks Managed Service pour Apache Spark, demandez à votre administrateur de vous accorder les rôles suivants sur le projet :

Éditeur Dataproc (roles/dataproc.editor)
Éditeur Dataproc sans serveur (roles/dataproc.serverlessEditor)

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, dossiers et aux organisations. Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.

Transformez vos données

Pour les données d'une table BigLake ou BigQuery, l'extension fournit des modèles de notebook pour vous aider à démarrer.

Accéder à la table

Accédez à une table BigQuery ou BigLake :

Ouvrez la palette de commandes en appuyant sur Ctrl/Cmd-Shift-P.
Développez l'explorateur de catalogue et recherchez votre BigQuery ou BigLake.
Effectuez un clic droit sur l'ID de la table.
Dans le menu flottant, sélectionnez Load in Spark DataFrame (Charger dans Spark DataFrame) ou Load in BigQuery DataFrame (Charger dans BigQuery DataFrame). Un nouvel éditeur affiche des informations sur la table.

Vous pouvez également trouver la table à l'aide de la recherche universelle. Cliquez sur l'ID de la table pour ouvrir un nouvel éditeur, cliquez sur l'onglet Data (Données), puis sélectionnez Load in Spark DataFrame (Charger dans Spark DataFrame) ou Load in BigQuery DataFrame (Charger dans BigQuery DataFrame).

Initialiser un notebook

Une fois la table chargée, un nouveau notebook Jupyter s'ouvre dans un onglet d'éditeur contenant le code nécessaire pour charger votre table dans le type de DataFrame de votre choix.

Si la bibliothèque requise n'est pas installée dans votre environnement virtuel Python, supprimez le commentaire de la ligne pip install.
Cliquez sur Select Kernel (Sélectionner le noyau), puis choisissez un noyau Python.

Pour les notebooks Managed Spark avec des noyaux distants, vous devez choisir un noyau Spark distant.
Exécutez la cellule en cliquant sur ▷ Run All ou en appuyant sur Shift+Enter en bas de la cellule.
Si vous êtes invité à installer un logiciel manquant, cliquez sur Install (Installer).

La cellule crée un DataFrame contenant les données de la table sélectionnée.

Appliquer des transformations de données au DataFrame

Ajoutez des cellules supplémentaires au notebook et écrivez le code pour transformer vos données. Pour BigQuery DataFrames, vous pouvez transformer le DataFrame à l'aide de l' API compatible avec Pandas fournie par BigQuery DataFrames.

Vous pouvez également utiliser une commande magic fournie par BigQuery DataFrames pour transformer un DataFrame à l'aide de SQL dans un notebook Jupyter. Pour transformer vos données à l'aide de SQL, procédez comme suit :

Créez et exécutez une cellule pour activer les commandes magic Jupyter.

%load_ext bigframes
Créez une cellule SQL à l'aide de la commande magic %%bqsql.

Enregistrer les résultats

Utilisez l'une des nombreuses méthodes de sortie fournies par votre type de DataFrame pour enregistrer les données transformées dans BigQuery ou Cloud Storage. Pour BigQuery DataFrames, les méthodes de sortie incluent les suivantes :

Pour les petites quantités de données, vous pouvez exporter vers Arrow ou Pandas pour une manipulation et une visualisation locales plus poussées.

Libérer de l'espace

Pour éviter que des frais ne soient facturés sur votre Google Cloud compte, supprimez toutes les ressources que vous avez créées, mais dont vous n'avez plus besoin.