La extensión de Google Cloud Data Agent Kit para Visual Studio Code te permite usar notebooks para la limpieza de datos, la ingeniería de atributos y el análisis profundo.Hay tres tipos de notebooks para elegir.
- Notebooks de BigQuery DataFrames Estos son notebooks de Python que te permiten procesar conjuntos de datos masivos en BigQuery con las APIs conocidas de Pandas y scikit-learn. Admiten la escritura de código en GoogleSQL para BigQuery, además de Python.
Notebooks de Apache Spark administrados con kernel local. Estos son notebooks de Python que te permiten crear y ejecutar trabajos en Managed Service para Apache Spark con su biblioteca de Spark Connect.
Notebooks de Apache Spark administrados con kernel remoto. Estos notebooks te permiten ejecutar tu notebook en un kernel remoto que se ejecuta por completo en Managed Service para Apache Spark. Ninguna parte de tu código se ejecuta de forma local en tu computadora. Además de PySpark, puedes escribir tu código en Spark SQL con la ayuda de la función mágica de celda
%%sparksql.
Antes de comenzar
En el caso de los notebooks de BigQuery, la biblioteca bigframes debe instalarse en el mismo entorno virtual de Python en el que ejecutas tu notebook. Cuando creas un notebook nuevo, la celda de inicialización contiene la siguiente línea, que está comentada:
#%pip install --upgrade bigframes
Opcional: Si no tienes instalada la biblioteca
bigframesen tu entorno virtual de Python, quita el comentario.Opcional: Si planeas escribir código SQL en tu notebook, instala
bigquery-magics:
pip install --upgrade bigquery-magics
Roles obligatorios
Para obtener los permisos que necesitas para ejecutar notebooks de BigQuery, pídele a tu administrador que te otorgue el rol de Usuario de BigQuery Studio (roles/bigquery.studioUser) en el proyecto que seleccionaste en la extensión.
Para obtener los permisos que necesitas para los notebooks de Managed Service para Apache Spark, pídele a tu administrador que te otorgue los siguientes roles en el proyecto:
- Editor de Dataproc
(
roles/dataproc.editor) - Editor de Dataproc sin servidores
(
roles/dataproc.serverlessEditor)
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones. También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.
Transforma tus datos
En el caso de los datos en una tabla de BigLake o BigQuery, la extensión proporciona plantillas de notebook para que comiences.
Navega a la tabla
Navega a una tabla de BigQuery o BigLake:
- Para abrir la paleta de comandos, presiona
Ctrl/Cmd-Shift-P. - Expande el explorador de Catalog y busca tu BigQuery o BigLake.
- Haz clic con el botón derecho en el ID de la tabla.
En el menú flotante, elige Load in Spark DataFrame o Load in BigQuery DataFrame. Aparecerá un nuevo editor con información sobre la tabla.
También puedes encontrar la tabla con la Búsqueda universal. Haz clic en el ID de la tabla para abrir un nuevo editor, haz clic en la pestaña Datos y, luego, elige Cargar en DataFrame de Spark o Cargar en DataFrame de BigQuery.
Inicializa un notebook
Después de cargar la tabla, se abrirá un nuevo notebook de Jupyter en una pestaña del editor que contiene el código necesario para cargar la tabla en el tipo de DataFrame que elijas.
Si no tienes instalada la biblioteca requerida en tu entorno virtual de Python, quita el comentario de la línea pip install.
Haz clic en Seleccionar kernel y elige un kernel de Python.
En el caso de los notebooks de Spark administrados con kernels remotos, debes elegir un kernel de Spark remoto.
Para ejecutar la celda, haz clic en ▷ Ejecutar todo o presiona
Shift+Enteren la parte inferior de la celda.Si se te solicita que instales software faltante, haz clic en Instalar.
La celda crea un DataFrame que contiene los datos de la tabla seleccionada.
Aplica transformaciones de datos al DataFrame
Agrega celdas adicionales al notebook y escribe el código para transformar tus datos. En el caso de BigQuery DataFrames, puedes transformar el DataFrame con la API compatible con Pandas que proporciona BigQuery DataFrames.
Como alternativa, los BigQuery DataFrames proporcionan un comando mágico que puedes usar para transformar un DataFrame con SQL en un notebook de Jupyter. Para transformar tus datos con SQL, completa los siguientes pasos:
Crea y ejecuta una celda para activar los comandos mágicos de Jupyter.
%load_ext bigframesCrea una celda de SQL con los comandos mágicos de
%%bqsql.
Cómo guardar los resultados
Usa uno de los muchos métodos de salida que proporciona tu tipo de DataFrame para guardar los datos transformados en BigQuery o Cloud Storage. En el caso de BigQuery DataFrames, los métodos de salida incluyen los siguientes:
En el caso de los datos pequeños, puedes exportarlos a Arrow o Pandas para manipularlos y visualizarlos localmente.
Realiza una limpieza
Para evitar que se apliquen cargos a tu cuenta de Google Cloud , borra los recursos que creaste y que ya no necesitas.