Google usa tecnología de IA para traducir contenido al idioma que prefieras. Las traducciones generadas por IA pueden contener errores.

Explorar los resultados de las consultas en cuadernos

Puedes explorar los resultados de las consultas de BigQuery con cuadernos de Colab Enterprise en BigQuery.

En este tutorial, consultarás datos de un conjunto de datos público de BigQuery y explorarás los resultados de la consulta en un cuaderno.

Objetivos

Crea y ejecuta una consulta en BigQuery.
Explorar los resultados de una consulta en un cuaderno.

Costes

En este tutorial se usa un conjunto de datos disponible a través del Google Cloud programa de conjuntos de datos públicos. Google paga por el almacenamiento de estos conjuntos de datos y ofrece acceso público a los datos. Se te cobrará por las consultas que realices en los datos. Para obtener más información, consulta los precios de BigQuery.

Antes de empezar

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the BigQuery API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the API

En los proyectos nuevos, BigQuery se habilita automáticamente.

Definir la región predeterminada de los recursos de código

Si es la primera vez que creas un recurso de código, debes definir la región predeterminada para los recursos de código. No puedes cambiar la región de un recurso de código después de crearlo.

Todos los recursos de código de BigQuery Studio usan la misma región predeterminada. Para definir la región predeterminada de los recursos de código, sigue estos pasos:

Ve a la página BigQuery.

Ir a BigQuery
En el panel Explorador, busca el proyecto en el que hayas habilitado los recursos de código.
Haz clic en Ver acciones junto al proyecto y, a continuación, en Cambiar mi región de código predeterminada.
En Región, seleccione la región que quiera usar para los recursos de código.
Haz clic en Seleccionar.

Para ver una lista de las regiones admitidas, consulta Ubicaciones de BigQuery Studio.

Permisos obligatorios

Para crear y ejecutar cuadernos, necesitas los siguientes roles de Gestión de Identidades y Accesos (IAM):

Abrir los resultados de una consulta en un cuaderno

Puedes ejecutar una consulta de SQL y, a continuación, usar un cuaderno para explorar los datos. Este método es útil si quieres modificar los datos de BigQuery antes de trabajar con ellos o si solo necesitas un subconjunto de los campos de la tabla.

En la Google Cloud consola, ve a la página BigQuery.

Ir a BigQuery
En el campo Escribe para buscar, introduce bigquery-public-data.

Si no aparece el proyecto, introduce bigquery en el campo de búsqueda y, a continuación, haz clic en Buscar en todos los proyectos para buscar la cadena en los proyectos existentes.
Selecciona bigquery-public-data > ml_datasets > penguins.
En la tabla penguins (pingüinos), haga clic en Ver acciones y, a continuación, en Consulta.
Añade un asterisco (*) para seleccionar el campo en la consulta generada, de modo que quede como en el ejemplo siguiente:
```
SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
```
Haz clic en Ejecutar.
En la sección Resultados de la consulta, haz clic en Abrir en y, a continuación, en Notebook.

Preparar el cuaderno para usarlo

Prepara el cuaderno para usarlo conectándote a un tiempo de ejecución y definiendo los valores predeterminados de la aplicación.

En el encabezado del cuaderno, haz clic en Conectar para conectarte al tiempo de ejecución predeterminado.
En el bloque de código Configuración, haz clic en Ejecutar celda.

Explora los datos disponibles

Para cargar los datos de penguins en un DataFrame de BigQuery y mostrar los resultados, haz clic en Ejecutar celda en el bloque de código de la sección Conjunto de resultados cargado de la tarea de BigQuery como DataFrame.
Para obtener métricas descriptivas de los datos, haz clic en Ejecutar celda en el bloque de código de la sección Mostrar estadísticas descriptivas con describe().
Opcional: Usa otras funciones o paquetes de Python para explorar y analizar los datos.

En el siguiente ejemplo de código se muestra cómo usar bigframes.pandas para analizar datos y bigframes.ml para crear un modelo de regresión lineal a partir de los datos de pingüinos de un DataFrame de BigQuery:

import bigframes.pandas as bpd

# Load data from BigQuery
query_or_table = "bigquery-public-data.ml_datasets.penguins"
bq_df = bpd.read_gbq(query_or_table)

# Inspect one of the columns (or series) of the DataFrame:
bq_df["body_mass_g"]

# Compute the mean of this series:
average_body_mass = bq_df["body_mass_g"].mean()
print(f"average_body_mass: {average_body_mass}")

# Find the heaviest species using the groupby operation to calculate the
# mean body_mass_g:
(
    bq_df["body_mass_g"]
    .groupby(by=bq_df["species"])
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

# Create the Linear Regression model
from bigframes.ml.linear_model import LinearRegression

# Filter down to the data we want to analyze
adelie_data = bq_df[bq_df.species == "Adelie Penguin (Pygoscelis adeliae)"]

# Drop the columns we don't care about
adelie_data = adelie_data.drop(columns=["species"])

# Drop rows with nulls to get our training data
training_data = adelie_data.dropna()

# Pick feature columns and label column
X = training_data[
    [
        "island",
        "culmen_length_mm",
        "culmen_depth_mm",
        "flipper_length_mm",
        "sex",
    ]
]
y = training_data[["body_mass_g"]]

model = LinearRegression(fit_intercept=False)
model.fit(X, y)
model.score(X, y)

Limpieza

Para evitar que los recursos utilizados en este tutorial se cobren en tu cuenta de Google Cloud, elimina el proyecto que contiene los recursos o conserva el proyecto y elimina los recursos.

La forma más fácil de evitar que te cobren es eliminar el Google Cloud proyecto que has creado para este tutorial.

Precaución: Eliminar un proyecto tiene los siguientes efectos:

Se elimina todo el contenido del proyecto. Si has usado un proyecto que ya existía para las tareas de este documento, cuando lo elimines, también se eliminará cualquier otro trabajo que hayas realizado en él.
Se pierden los IDs de proyecto personalizados. Cuando creaste este proyecto, es posible que hayas creado un ID de proyecto personalizado que quieras usar en el futuro. Para conservar las URLs que usan el ID del proyecto, como una URL appspot.com, elimina los recursos seleccionados dentro del proyecto en lugar de eliminar todo el proyecto.

Si tienes previsto consultar varias arquitecturas, tutoriales o guías de inicio rápido, reutilizar los proyectos puede ayudarte a no superar los límites de cuota de proyectos.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.