Questa pagina è stata tradotta dall'API Cloud Translation.

Esplorare i risultati delle query nei notebook

Puoi esplorare i risultati delle query BigQuery utilizzando i notebook Colab Enterprise in BigQuery.

In questo tutorial, esegui query sui dati da un set di dati pubblico BigQuery ed esplori i risultati della query in un notebook.

Obiettivi

Crea ed esegui una query in BigQuery.
Esplora i risultati delle query in un notebook.

Costi

Questo tutorial utilizza un set di dati disponibile tramite il Google Cloud programma per i set di dati pubblici. Google sostiene le spese per lo spazio in cui sono archiviati questi set di dati e ti consente di accedervi pubblicamente. Ti vengono addebitati i costi per le query eseguite sui dati. Per maggiori informazioni, vedi Prezzi di BigQuery.

Prima di iniziare

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the BigQuery API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the API

Per i nuovi progetti, BigQuery viene abilitato automaticamente.

Impostare la regione predefinita per gli asset di codice

Se è la prima volta che crei un asset di codice, devi impostare la regione predefinita per gli asset di codice. Non puoi modificare la regione di un asset di codice dopo la creazione.

Tutti gli asset di codice in BigQuery Studio utilizzano la stessa regione predefinita. Per impostare la regione predefinita per gli asset di codice:

Vai alla pagina BigQuery.

Vai a BigQuery
Nel riquadro Explorer, individua il progetto in cui hai attivato gli asset di codice.
Fai clic su Visualizza azioni accanto al progetto, quindi fai clic su Modifica la mia regione di codice predefinita.
Per Regione, seleziona la regione che vuoi utilizzare per gli asset di codice.
Fai clic su Seleziona.

Per un elenco delle regioni supportate, vedi Località BigQuery Studio.

Autorizzazioni obbligatorie

Per creare ed eseguire blocchi note, devi disporre dei seguenti ruoli IAM (Identity and Access Management):

Aprire i risultati della query in un notebook

Puoi eseguire una query SQL e poi utilizzare un blocco note per esplorare i dati. Questo approccio è utile se vuoi modificare i dati in BigQuery prima di utilizzarli o se hai bisogno solo di un sottoinsieme dei campi della tabella.

Nella console Google Cloud , vai alla pagina BigQuery.

Vai a BigQuery
Nel campo Digita per effettuare la ricerca, inserisci bigquery-public-data.

Se il progetto non viene visualizzato, inserisci bigquery nel campo di ricerca, quindi fai clic su Cerca in tutti i progetti in modo da confrontare la stringa di ricerca con i progetti esistenti.
Seleziona bigquery-public-data > ml_datasets > penguins.
Per la tabella penguins, fai clic su Visualizza azioni, quindi fai clic su Query.
Aggiungi un asterisco (*) per la selezione dei campi alla query generata, in modo che sia simile al seguente esempio:
```
SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
```
Fai clic su Esegui.
Nella sezione Risultati delle query, fai clic su Apri in e poi su Notebook.

Preparare il notebook per l'uso

Prepara il notebook per l'uso connettendoti a un runtime e impostando i valori predefiniti dell'applicazione.

Nell'intestazione del blocco note, fai clic su Connetti per connetterti al runtime predefinito.
Nel blocco di codice Setup, fai clic su Esegui cella.

esplora i dati

Per caricare i dati penguins in un BigQuery DataFrame e mostrare i risultati, fai clic su Esegui cella nel blocco di codice nella sezione Set di risultati caricato dal job BigQuery come DataFrame.
Per ottenere metriche descrittive per i dati, fai clic su Esegui cella nel blocco di codice nella sezione Mostra statistiche descrittive utilizzando describe().
(Facoltativo) Utilizza altre funzioni o pacchetti Python per esplorare e analizzare i dati.

Il seguente esempio di codice mostra l'utilizzo di bigframes.pandas per analizzare i dati e di bigframes.ml per creare un modello di regressione lineare dai dati penguins in un DataFrame BigQuery:

import bigframes.pandas as bpd

# Load data from BigQuery
query_or_table = "bigquery-public-data.ml_datasets.penguins"
bq_df = bpd.read_gbq(query_or_table)

# Inspect one of the columns (or series) of the DataFrame:
bq_df["body_mass_g"]

# Compute the mean of this series:
average_body_mass = bq_df["body_mass_g"].mean()
print(f"average_body_mass: {average_body_mass}")

# Find the heaviest species using the groupby operation to calculate the
# mean body_mass_g:
(
    bq_df["body_mass_g"]
    .groupby(by=bq_df["species"])
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

# Create the Linear Regression model
from bigframes.ml.linear_model import LinearRegression

# Filter down to the data we want to analyze
adelie_data = bq_df[bq_df.species == "Adelie Penguin (Pygoscelis adeliae)"]

# Drop the columns we don't care about
adelie_data = adelie_data.drop(columns=["species"])

# Drop rows with nulls to get our training data
training_data = adelie_data.dropna()

# Pick feature columns and label column
X = training_data[
    [
        "island",
        "culmen_length_mm",
        "culmen_depth_mm",
        "flipper_length_mm",
        "sex",
    ]
]
y = training_data[["body_mass_g"]]

model = LinearRegression(fit_intercept=False)
model.fit(X, y)
model.score(X, y)

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.

Il modo più semplice per eliminare la fatturazione è eliminare il Google Cloud progetto che hai creato per questo tutorial.

Attenzione: l'eliminazione di un progetto ha i seguenti effetti:

L'intero contenuto del progetto viene eliminato. Se hai utilizzato un progetto esistente per le attività descritte in questo documento, eliminerai anche tutto il lavoro che hai svolto nel progetto.
Gli ID progetto personalizzati non sono più disponibili. Quando hai creato questo progetto, potresti aver creato un ID progetto personalizzato che vuoi utilizzare in futuro. Per conservare gli URL che utilizzano l'ID progetto, ad esempio un URL appspot.com, elimina le risorse selezionate all'interno del progetto anziché eliminare l'intero progetto.

Se intendi esplorare più architetture, tutorial o guide rapide, puoi riutilizzare i progetti ed evitare così di superare i limiti di quota.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Passaggi successivi

Scopri di più sulla creazione di blocchi note in BigQuery.
Scopri di più sull'esplorazione dei dati con BigQuery DataFrames.