Explore os resultados das consultas em blocos de notas

Pode explorar os resultados das consultas do BigQuery através dos blocos de notas do Colab Enterprise no BigQuery.

Neste tutorial, consulta dados de um conjunto de dados públicos do BigQuery e explora os resultados da consulta num bloco de notas.

Autorizações necessárias

Para criar e executar blocos de notas, precisa das seguintes funções de gestão de identidade e de acesso (IAM):

Abra os resultados da consulta num bloco de notas

Pode executar uma consulta SQL e, em seguida, usar um bloco de notas para explorar os dados. Esta abordagem é útil se quiser modificar os dados no BigQuery antes de trabalhar com eles ou se precisar apenas de um subconjunto dos campos na tabela.

  1. Na Google Cloud consola, aceda à página BigQuery.

    Aceda ao BigQuery

  2. No campo Escreva para pesquisar, introduza bigquery-public-data.

    Se o projeto não for apresentado, introduza bigquery no campo de pesquisa e, de seguida, clique em Pesquisar em todos os projetos para fazer corresponder a string de pesquisa aos projetos existentes.

  3. Selecione bigquery-public-data > ml_datasets > penguins.

  4. Para a tabela penguins, clique em Ver ações e, de seguida, em Consultar.

  5. Adicione um asterisco (*) para a seleção de campos à consulta gerada, de modo que seja lida como no exemplo seguinte:

    SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
  6. Clique em Executar.

  7. Na secção Resultados da consulta, clique em Explorar dados e, de seguida, clique em Explorar com o bloco de notas do Python.

Prepare o notebook para utilização

Prepare o bloco de notas para utilização associando-o a um tempo de execução e definindo os valores predefinidos da aplicação.

  1. No cabeçalho do bloco de notas, clique em Associar para associar ao tempo de execução predefinido.
  2. No bloco de código Setup, clique em Executar célula.

Explore os dados

  1. Para carregar os dados de pinguins para um BigQuery DataFrame e mostrar os resultados, clique em Executar célula no bloco de código na secção Conjunto de resultados carregado da tarefa do BigQuery como um DataFrame.
  2. Para obter métricas descritivas para os dados, clique em Executar célula no bloco de código na secção Mostrar estatísticas descritivas com describe().
  3. Opcional: use outras funções ou pacotes do Python para explorar e analisar os dados.

O exemplo de código seguinte mostra a utilização de bigframes.pandas para analisar dados e bigframes.ml para criar um modelo de regressão linear a partir de dados de pinguins num DataFrame do BigQuery:

import bigframes.pandas as bpd

# Load data from BigQuery
query_or_table = "bigquery-public-data.ml_datasets.penguins"
bq_df = bpd.read_gbq(query_or_table)

# Inspect one of the columns (or series) of the DataFrame:
bq_df["body_mass_g"]

# Compute the mean of this series:
average_body_mass = bq_df["body_mass_g"].mean()
print(f"average_body_mass: {average_body_mass}")

# Find the heaviest species using the groupby operation to calculate the
# mean body_mass_g:
(
    bq_df["body_mass_g"]
    .groupby(by=bq_df["species"])
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

# Create the Linear Regression model
from bigframes.ml.linear_model import LinearRegression

# Filter down to the data we want to analyze
adelie_data = bq_df[bq_df.species == "Adelie Penguin (Pygoscelis adeliae)"]

# Drop the columns we don't care about
adelie_data = adelie_data.drop(columns=["species"])

# Drop rows with nulls to get our training data
training_data = adelie_data.dropna()

# Pick feature columns and label column
X = training_data[
    [
        "island",
        "culmen_length_mm",
        "culmen_depth_mm",
        "flipper_length_mm",
        "sex",
    ]
]
y = training_data[["body_mass_g"]]

model = LinearRegression(fit_intercept=False)
model.fit(X, y)
model.score(X, y)