Explorar los resultados de las consultas en cuadernos

Puedes explorar los resultados de las consultas de BigQuery con cuadernos de Colab Enterprise en BigQuery.

En este tutorial, consultarás datos de un conjunto de datos público de BigQuery y explorarás los resultados de la consulta en un cuaderno.

Permisos obligatorios

Para crear y ejecutar cuadernos, necesitas los siguientes roles de Gestión de Identidades y Accesos (IAM):

Abrir los resultados de una consulta en un cuaderno

Puedes ejecutar una consulta de SQL y, a continuación, usar un cuaderno para explorar los datos. Este método es útil si quieres modificar los datos de BigQuery antes de trabajar con ellos o si solo necesitas un subconjunto de los campos de la tabla.

  1. En la Google Cloud consola, ve a la página BigQuery.

    Ir a BigQuery

  2. En el campo Escribe para buscar, introduce bigquery-public-data.

    Si no aparece el proyecto, introduce bigquery en el campo de búsqueda y, a continuación, haz clic en Buscar en todos los proyectos para buscar la cadena en los proyectos.

  3. Selecciona bigquery-public-data > ml_datasets > penguins.

  4. En la tabla penguins (pingüinos), haga clic en Ver acciones y, a continuación, en Consulta.

  5. Añade un asterisco (*) para seleccionar el campo en la consulta generada, de modo que quede como en el ejemplo siguiente:

    SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
  6. Haz clic en Ejecutar.

  7. En la sección Resultados de la consulta, haga clic en Explorar datos y, a continuación, en Explorar con cuaderno de Python.

Preparar el cuaderno para usarlo

Prepara el cuaderno para usarlo conectándote a un tiempo de ejecución y definiendo los valores predeterminados de la aplicación.

  1. En el encabezado del cuaderno, haz clic en Conectar para conectarte al tiempo de ejecución predeterminado.
  2. En el bloque de código Configuración, haz clic en Ejecutar celda.

Explora los datos disponibles

  1. Para cargar los datos de penguins en un DataFrame de BigQuery y mostrar los resultados, haz clic en Ejecutar celda en el bloque de código de la sección Conjunto de resultados cargado de la tarea de BigQuery como DataFrame.
  2. Para obtener métricas descriptivas de los datos, haz clic en Ejecutar celda en el bloque de código de la sección Mostrar estadísticas descriptivas con describe().
  3. Opcional: Usa otras funciones o paquetes de Python para explorar y analizar los datos.

En el siguiente ejemplo de código se muestra cómo usar bigframes.pandas para analizar datos y bigframes.ml para crear un modelo de regresión lineal a partir de los datos de pingüinos de un DataFrame de BigQuery:

import bigframes.pandas as bpd

# Load data from BigQuery
query_or_table = "bigquery-public-data.ml_datasets.penguins"
bq_df = bpd.read_gbq(query_or_table)

# Inspect one of the columns (or series) of the DataFrame:
bq_df["body_mass_g"]

# Compute the mean of this series:
average_body_mass = bq_df["body_mass_g"].mean()
print(f"average_body_mass: {average_body_mass}")

# Find the heaviest species using the groupby operation to calculate the
# mean body_mass_g:
(
    bq_df["body_mass_g"]
    .groupby(by=bq_df["species"])
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

# Create the Linear Regression model
from bigframes.ml.linear_model import LinearRegression

# Filter down to the data we want to analyze
adelie_data = bq_df[bq_df.species == "Adelie Penguin (Pygoscelis adeliae)"]

# Drop the columns we don't care about
adelie_data = adelie_data.drop(columns=["species"])

# Drop rows with nulls to get our training data
training_data = adelie_data.dropna()

# Pick feature columns and label column
X = training_data[
    [
        "island",
        "culmen_length_mm",
        "culmen_depth_mm",
        "flipper_length_mm",
        "sex",
    ]
]
y = training_data[["body_mass_g"]]

model = LinearRegression(fit_intercept=False)
model.fit(X, y)
model.score(X, y)