Menjelajahi hasil kueri di notebook

Anda dapat menjelajahi hasil kueri BigQuery menggunakan notebook Colab Enterprise di BigQuery.

Dalam tutorial ini, Anda akan membuat kueri data dari set data publik BigQuery dan menjelajahi hasil kueri di notebook.

Izin yang diperlukan

Untuk membuat dan menjalankan notebook, Anda memerlukan peran Identity and Access Management (IAM) berikut:

Membuka hasil kueri di notebook

Anda dapat menjalankan kueri SQL, lalu menggunakan notebook untuk menjelajahi data. Pendekatan ini berguna jika Anda ingin mengubah data di BigQuery sebelum menanganinya, atau jika Anda hanya memerlukan subset kolom dalam tabel.

  1. Di konsol Google Cloud , buka halaman BigQuery.

    Buka BigQuery

  2. Di kolom Ketik untuk menelusuri, masukkan bigquery-public-data.

    Jika project tidak ditampilkan, masukkan bigquery di kolom penelusuran, lalu klik Telusuri semua project untuk mencocokkan string penelusuran dengan project yang ada.

  3. Pilih bigquery-public-data > ml_datasets > penguins.

  4. Untuk tabel penguins, klik Lihat tindakan, lalu klik Kueri.

  5. Tambahkan tanda bintang (*) untuk pemilihan kolom ke kueri yang dihasilkan, sehingga terbaca seperti contoh berikut:

    SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
  6. Klik Run.

  7. Di bagian Hasil kueri, klik Jelajahi data, lalu klik Jelajahi dengan notebook Python.

Menyiapkan notebook untuk digunakan

Siapkan notebook untuk digunakan dengan menghubungkan ke runtime dan menetapkan nilai default aplikasi.

  1. Di header notebook, klik Connect untuk terhubung ke runtime default.
  2. Di blok kode Penyiapan, klik Jalankan sel.

Menjelajahi data

  1. Untuk memuat data penguins ke dalam BigQuery DataFrame dan menampilkan hasilnya, klik Run cell di blok kode di bagian Result set loaded from BigQuery job as a DataFrame.
  2. Untuk mendapatkan metrik deskriptif untuk data, klik Run cell di blok kode di bagian Show descriptive statistics using describe().
  3. Opsional: Gunakan fungsi atau paket Python lainnya untuk menjelajahi dan menganalisis data.

Contoh kode berikut menunjukkan penggunaan bigframes.pandas untuk menganalisis data, dan bigframes.ml untuk membuat model regresi linear dari data penguins dalam DataFrame BigQuery:

import bigframes.pandas as bpd

# Load data from BigQuery
query_or_table = "bigquery-public-data.ml_datasets.penguins"
bq_df = bpd.read_gbq(query_or_table)

# Inspect one of the columns (or series) of the DataFrame:
bq_df["body_mass_g"]

# Compute the mean of this series:
average_body_mass = bq_df["body_mass_g"].mean()
print(f"average_body_mass: {average_body_mass}")

# Find the heaviest species using the groupby operation to calculate the
# mean body_mass_g:
(
    bq_df["body_mass_g"]
    .groupby(by=bq_df["species"])
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

# Create the Linear Regression model
from bigframes.ml.linear_model import LinearRegression

# Filter down to the data we want to analyze
adelie_data = bq_df[bq_df.species == "Adelie Penguin (Pygoscelis adeliae)"]

# Drop the columns we don't care about
adelie_data = adelie_data.drop(columns=["species"])

# Drop rows with nulls to get our training data
training_data = adelie_data.dropna()

# Pick feature columns and label column
X = training_data[
    [
        "island",
        "culmen_length_mm",
        "culmen_depth_mm",
        "flipper_length_mm",
        "sex",
    ]
]
y = training_data[["body_mass_g"]]

model = LinearRegression(fit_intercept=False)
model.fit(X, y)
model.score(X, y)