La extensión Google Cloud Data Agent Kit para Antigravity te permite usar notebooks para la limpieza de datos, la ingeniería de atributos y el análisis profundo.Hay tres tipos de notebooks para elegir.
- Notebooks de BigQuery DataFrames. Son notebooks de Python que te permiten procesar conjuntos de datos masivos en BigQuery con las APIs conocidas de Pandas y scikit-learn. Admiten la escritura de código en GoogleSQL para BigQuery, además de Python.
Notebooks de Apache Spark administrados con kernel local. Son notebooks de Python que te permiten crear y ejecutar trabajos en Managed Service para Apache Spark con su biblioteca Spark Connect.
Notebooks de Apache Spark administrados con kernel remoto. Estos notebooks te permiten ejecutar tu notebook en un kernel remoto que se ejecuta por completo en Managed Service para Apache Spark. Ninguna parte de tu código se ejecuta de forma local en tu computadora. Además de PySpark, puedes escribir tu código en Spark SQL con la ayuda de la magia de celda
%%sparksql.
Antes de comenzar
En el caso de los notebooks de BigQuery, la biblioteca bigframes debe estar instalada en el mismo entorno virtual de Python en el que ejecutas el notebook. Cuando creas un notebook nuevo, la celda de inicialización contiene la siguiente línea, que está comentada:
#%pip install --upgrade bigframes
Opcional: Si no tienes instalada la biblioteca
bigframesen tu entorno virtual de Python, quita el comentario.Opcional: Si planeas escribir código SQL en tu notebook, instala
bigquery-magics:
pip install --upgrade bigquery-magics
Roles obligatorios
Para obtener los permisos que necesitas para ejecutar notebooks de BigQuery, pídele a tu administrador que te otorgue el rol Usuario de BigQuery Studio
(roles/bigquery.studioUser) en el proyecto que seleccionaste en la extensión.
Para obtener los permisos que necesitas para los notebooks de Managed Service para Apache Spark, pídele a tu administrador que te otorgue los siguientes roles en el proyecto:
- Editor de Dataproc
(
roles/dataproc.editor) - Editor
de Dataproc sin servidores
(
roles/dataproc.serverlessEditor)
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones. También puedes obtener los permisos necesarios mediante roles personalizados o cualquier otro rol predefinido.
Transforma tus datos
Para los datos de una tabla de BigLake o BigQuery, la extensión proporciona plantillas de notebook para que comiences.
Navegar a la tabla
Navega a una tabla de BigQuery o BigLake:
- Para abrir la paleta de comandos, presiona
Ctrl/Cmd-Shift-P. - Expande el explorador de catálogo y busca tu BigQuery o BigLake.
- Haz clic con el botón derecho en el ID de la tabla.
En el menú flotante, elige Load in Spark DataFrame o Load in BigQuery DataFrame. Un editor nuevo muestra información sobre la tabla.
También puedes encontrar la tabla con la Búsqueda universal. Haz clic en el ID de la tabla para abrir un editor nuevo, haz clic en la pestaña Datos y, luego, elige Load in Spark DataFrame o Load in BigQuery DataFrame.
Inicializa un notebook
Después de cargar la tabla, se abrirá un notebook de Jupyter nuevo en una pestaña del editor que contiene el código necesario para cargar la tabla en el tipo de DataFrame elegido.
Si no tienes instalada la biblioteca requerida en tu entorno virtual de Python, quita la marca de comentario de la línea de instalación de pip.
Haz clic en Seleccionar kernel y elige un kernel de Python.
En el caso de los notebooks de Spark administrados con kernels remotos, debes elegir un kernel de Spark remoto.
Para ejecutar la celda, haz clic en ▷ Ejecutar todo o presiona
Shift+Enteren la parte inferior de la celda.Si se te solicita que instales el software faltante, haz clic en Instalar.
La celda crea un DataFrame que contiene los datos de la tabla seleccionada.
Aplica transformaciones de datos al DataFrame
Agrega celdas adicionales al notebook y escribe el código para transformar tus datos. En el caso de BigQuery DataFrames, puedes transformar el DataFrame con la API compatible con Pandas que proporciona BigQuery DataFrames.
Como alternativa, BigQuery DataFrames proporciona un comando mágico que puedes usar para transformar un DataFrame con SQL en un notebook de Jupyter. Para transformar tus datos con SQL, completa los siguientes pasos:
Crea y ejecuta una celda para activar la magia de Jupyter.
%load_ext bigframesCrea una celda de SQL con la magia
%%bqsql.
Guarda los resultados
Usa uno de los muchos métodos de resultado que proporciona tu tipo de DataFrames para guardar los datos transformados en BigQuery o Cloud Storage. En el caso de BigQuery DataFrames, los métodos de salida incluyen los siguientes:
En el caso de datos pequeños, puedes exportarlos a Arrow o Pandas para una mayor manipulación y visualización locales.
Limpia
Para evitar que se apliquen cargos a tu Google Cloud cuenta, borra los recursos que creaste, pero que ya no necesitas.