Explora y visualiza datos en BigQuery desde JupyterLab
En esta página, se muestran algunos ejemplos de cómo explorar y visualizar datos almacenados en BigQuery desde la interfaz de JupyterLab de tu instancia de notebooks administrados de Vertex AI Workbench.
Abre JupyterLab
En la consola de Google Cloud , ve a la página Notebooks administrados.
Junto al nombre de la instancia de notebooks administrados, haz clic en Abrir JupyterLab.
Tu instancia de notebooks administrados abre JupyterLab.
Leer datos desde BigQuery
En las siguientes dos secciones, leerás datos de BigQuery que usarás para visualizar más adelante. Estos pasos son idénticos a los de Consulta datos en BigQuery desde JupyterLab, por lo que, si ya los completaste, puedes pasar a Obtén un resumen de los datos de una tabla de BigQuery.
Consulta datos con el comando mágico %%bigquery
En esta sección, escribirás SQL directamente en las celdas de notebook y leerás datos de BigQuery en el notebook de Python.
Los comandos automáticos que usan un carácter de porcentaje único o doble (%
o %%
) te permiten usar una sintaxis mínima para interactuar con BigQuery dentro del notebook. La biblioteca cliente de BigQuery para Python se instala automáticamente en una instancia de notebooks administrados. En segundo plano, el comando mágico %%bigquery
usa la biblioteca cliente de BigQuery para Python a fin de ejecutar la consulta determinada, convertir los resultados en un DataFrame de Pandas, guardar los resultados en una variable y, de forma opcional, guardarlos. y, luego, mostrar los resultados.
Nota: A partir de la versión 1.26.0 del paquete google-cloud-bigquery
de Python,
se usa la API de BigQuery Storage
de forma predeterminada para descargar los resultados de los comandos mágicos %%bigquery
.
Para abrir un archivo de notebook, selecciona Archivo > Nuevo > Notebook.
En el cuadro de diálogo Seleccionar Kernel, selecciona Python (Local) y haz clic en Seleccionar.
Se abrirá tu archivo IPYNB nuevo.
Para obtener la cantidad de regiones por país en el conjunto de datos
international_top_terms
, ingresa la siguiente sentencia:%%bigquery SELECT country_code, country_name, COUNT(DISTINCT region_code) AS num_regions FROM `bigquery-public-data.google_trends.international_top_terms` WHERE refresh_date = DATE_SUB(CURRENT_DATE, INTERVAL 1 DAY) GROUP BY country_code, country_name ORDER BY num_regions DESC;
Haz clic en
Ejecutar celda.El resultado es similar a este:
Query complete after 0.07s: 100%|██████████| 4/4 [00:00<00:00, 1440.60query/s] Downloading: 100%|██████████| 41/41 [00:02<00:00, 20.21rows/s] country_code country_name num_regions 0 TR Turkey 81 1 TH Thailand 77 2 VN Vietnam 63 3 JP Japan 47 4 RO Romania 42 5 NG Nigeria 37 6 IN India 36 7 ID Indonesia 34 8 CO Colombia 33 9 MX Mexico 32 10 BR Brazil 27 11 EG Egypt 27 12 UA Ukraine 27 13 CH Switzerland 26 14 AR Argentina 24 15 FR France 22 16 SE Sweden 21 17 HU Hungary 20 18 IT Italy 20 19 PT Portugal 20 20 NO Norway 19 21 FI Finland 18 22 NZ New Zealand 17 23 PH Philippines 17 ...
En la celda a continuación (que se encuentra debajo del resultado de la celda anterior), ingresa el siguiente comando para ejecutar la misma consulta, pero esta vez guarda los resultados en un DataFrame de Pandas nuevo llamado
regions_by_country
. Debes proporcionar ese nombre mediante un argumento con el comando automático%%bigquery
.%%bigquery regions_by_country SELECT country_code, country_name, COUNT(DISTINCT region_code) AS num_regions FROM `bigquery-public-data.google_trends.international_top_terms` WHERE refresh_date = DATE_SUB(CURRENT_DATE, INTERVAL 1 DAY) GROUP BY country_code, country_name ORDER BY num_regions DESC;
Nota: Si deseas obtener más información sobre los argumentos disponibles para el comando
%%bigquery
, consulta la documentación de comandos mágicos de la biblioteca cliente.Haz clic en
Ejecutar celda.En la siguiente celda, ingresa el siguiente comando para ver las primeras filas de los resultados de la consulta que acabas de leer:
regions_by_country.head()
Haz clic en
Ejecutar celda.El DataFrame de Pandas
regions_by_country
está listo para trazar.
Consulta datos mediante la biblioteca cliente de BigQuery directamente
<
Obtén un resumen de los datos de una tabla de BigQuery
En esta sección, usarás un acceso directo de notebook para obtener estadísticas y visualizaciones de resumen de todos los campos de una tabla de BigQuery. Esta puede ser una forma rápida de generar perfiles de tus datos antes de seguir explorando.
La biblioteca cliente de BigQuery proporciona un comando automático, %bigquery_stats
, que puedes llamar con un nombre de tabla específico para proporcionar una descripción general de la tabla y estadísticas detalladas en cada una de las columnas de la tabla.
En la siguiente celda, ingresa el siguiente código para ejecutar ese análisis en la tabla
top_terms
de EE.UU.:%bigquery_stats bigquery-public-data.google_trends.top_terms
Haz clic en
Ejecutar celda.Después de ejecutarse durante un tiempo, aparece una imagen con varias estadísticas en cada una de las 7 variables en la tabla
top_terms
. En la siguiente imagen, se muestra una parte de un resultado de ejemplo:
Visualiza datos de BigQuery
En esta sección, usarás funciones de trazado para visualizar los resultados de las consultas que ejecutaste antes en tu notebook de Jupyter.
En la celda a continuación, ingresa el siguiente código para usar el método
DataFrame.plot()
de Pandas y crear un gráfico de barras que muestre los resultados de la consulta que muestra la cantidad de regiones por país:regions_by_country.plot(kind="bar", x="country_name", y="num_regions", figsize=(15, 10))
Haz clic en
Ejecutar celda.La respuesta es similar al ejemplo a continuación:
En la celda a continuación, ingresa el siguiente código para usar el método
DataFrame.plot()
de Pandas y crear un gráfico de dispersión que muestre los resultados de la consulta en función del porcentaje de superposición en los términos de búsqueda principales según los días de diferencia:pct_overlap_terms_by_days_apart.plot( kind="scatter", x="days_apart", y="pct_overlap_terms", s=len(pct_overlap_terms_by_days_apart["num_date_pairs"]) * 20, figsize=(15, 10) )
Haz clic en
Ejecutar celda.El gráfico es similar al ejemplo a continuación: El tamaño de cada punto refleja la cantidad de pares de fechas que tienen esa cantidad de días de diferencia en los datos. Por ejemplo, hay más pares que tienen 1 día de diferencia y 30 días de diferencia porque los principales términos de búsqueda se muestran a diario durante un mes.
Para obtener más información sobre la visualización de datos, consulta la documentación de Pandas.