Google menggunakan teknologi AI untuk menerjemahkan konten ke dalam bahasa pilihan Anda. Terjemahan AI mungkin mengandung kesalahan.

Menjelajahi hasil kueri di notebook

Anda dapat menjelajahi hasil kueri menggunakan sel SQL atau sel kode di notebook BigQuery Colab Enterprise.

Dalam tutorial ini, Anda akan membuat kueri data dari set data publik BigQuery dan menjelajahi hasil kueri di notebook.

Tujuan

Membuat dan menjalankan kueri di BigQuery.
Jelajahi hasil kueri di notebook menggunakan sel SQL dan sel kode.

Biaya

Tutorial ini menggunakan set data yang tersedia melalui Google Cloud Program Set Data Publik. Google membayar penyimpanan set data ini dan memberikan akses publik ke data tersebut. Anda dikenai biaya untuk kueri yang Anda lakukan pada data. Untuk mengetahui informasi selengkapnya, lihat harga BigQuery.

Sebelum memulai

Di konsol Google Cloud , pada halaman pemilih project, pilih atau buat project Google Cloud .
Peran yang diperlukan untuk memilih atau membuat project
- Pilih project: Memilih project tidak memerlukan peran IAM tertentu—Anda dapat memilih project mana pun yang telah diberi peran.
- Membuat project: Untuk membuat project, Anda memerlukan peran Pembuat Project (roles/resourcemanager.projectCreator), yang berisi izin resourcemanager.projects.create. Pelajari cara memberikan peran.
Catatan: Jika tidak berencana untuk menyimpan resource yang Anda buat dalam prosedur ini, buatlah project, bukan memilih project yang ada. Setelah menyelesaikan langkah ini, Anda dapat menghapus project, yang menghapus semua resource yang terkait dengan project ini.

Buka pemilih project
Verifikasi bahwa penagihan diaktifkan untuk project Google Cloud Anda.
Aktifkan BigQuery API.
Peran yang diperlukan untuk mengaktifkan API
Untuk mengaktifkan API, Anda memerlukan peran IAM Service Usage Admin (roles/serviceusage.serviceUsageAdmin), yang berisi izin serviceusage.services.enable. Pelajari cara memberikan peran.
Mengaktifkan API

Untuk project baru, BigQuery diaktifkan secara otomatis.

Menetapkan region default untuk aset kode

Semua aset kode baru di project Google Cloud Anda menggunakan region default. Setelah aset dibuat, Anda tidak dapat mengubah regionnya.

Untuk menetapkan region default untuk aset kode baru, lakukan hal berikut:

Buka halaman BigQuery.

Buka BigQuery
Di panel kiri, klik File untuk membuka browser file:
Di samping nama project, klik View files panel actions > Switch code region.
Pilih region kode yang ingin Anda gunakan sebagai default.
Klik Simpan.

Untuk mengetahui daftar wilayah yang didukung, lihat Lokasi BigQuery Studio.

Izin yang diperlukan

Untuk membuat dan menjalankan notebook, Anda memerlukan peran Identity and Access Management (IAM) berikut:

Membuka hasil kueri di notebook

Anda dapat menjalankan kueri SQL, lalu menggunakan notebook untuk menjelajahi data. Pendekatan ini berguna jika Anda ingin mengubah data di BigQuery sebelum menanganinya, atau jika Anda hanya memerlukan subset kolom dalam tabel.

Di konsol Google Cloud , buka halaman BigQuery.

Buka BigQuery
Di panel kiri, klik Explorer.
Buka project bigquery-public-data, klik Aktifkan node untuk meluaskannya, lalu klik Set data. Tab baru akan terbuka di panel detail yang menampilkan daftar semua set data dalam project.
Di kotak Filter, pilih Dataset ID dan masukkan ml_datasets.
Di halaman Datasets, klik ml_datasets > penguins.
Klik Query.
Tambahkan tanda bintang (*) untuk pemilihan kolom ke kueri yang dihasilkan, sehingga akan terlihat seperti contoh berikut:
```
SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
```
Klik Run.
Di bagian Hasil kueri, klik Buka di, lalu klik Notebook.

Menyiapkan notebook untuk digunakan

Siapkan notebook untuk digunakan dengan menghubungkan ke runtime dan menetapkan nilai default aplikasi.

Di header notebook, klik Connect untuk terhubung ke runtime default.
Di blok kode Setup, klik Run cell.

Menjelajahi data

Klik Insert code cell options > Add SQL cell.

Masukkan kueri berikut di sel SQL:

SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;

Klik Run cell.

Hasil kueri ditampilkan dalam DataFrame BigQuery.
Atau, untuk memuat hasil kueri ke DataFrame BigQuery menggunakan tugas kueri yang sebelumnya Anda jalankan di editor kueri, ikuti langkah-langkah berikut:
1. Buka bagian Kumpulan hasil dimuat dari tugas BigQuery sebagai DataFrame.
2. Di blok kode, klik Run cell.
  
  Hasil kueri ditampilkan dalam DataFrame BigQuery.
Untuk mendapatkan metrik deskriptif untuk data, ikuti langkah-langkah berikut:
1. Buka bagian Tampilkan statistik deskriptif menggunakan describe().
2. Di blok kode, klik Run cell.
  
  Hasilnya ditampilkan dalam DataFrame BigQuery.
Opsional: Gunakan fungsi atau paket Python lainnya untuk menjelajahi dan menganalisis data.

Contoh kode berikut menunjukkan penggunaan bigframes.pandas untuk menganalisis data, dan bigframes.ml untuk membuat model regresi linear dari data penguins dalam DataFrame BigQuery:

import bigframes.pandas as bpd

# Load data from BigQuery
query_or_table = "bigquery-public-data.ml_datasets.penguins"
bq_df = bpd.read_gbq(query_or_table)

# Inspect one of the columns (or series) of the DataFrame:
bq_df["body_mass_g"]

# Compute the mean of this series:
average_body_mass = bq_df["body_mass_g"].mean()
print(f"average_body_mass: {average_body_mass}")

# Find the heaviest species using the groupby operation to calculate the
# mean body_mass_g:
(
    bq_df["body_mass_g"]
    .groupby(by=bq_df["species"])
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

# Create the Linear Regression model
from bigframes.ml.linear_model import LinearRegression

# Filter down to the data we want to analyze
adelie_data = bq_df[bq_df.species == "Adelie Penguin (Pygoscelis adeliae)"]

# Drop the columns we don't care about
adelie_data = adelie_data.drop(columns=["species"])

# Drop rows with nulls to get our training data
training_data = adelie_data.dropna()

# Pick feature columns and label column
X = training_data[
    [
        "island",
        "culmen_length_mm",
        "culmen_depth_mm",
        "flipper_length_mm",
        "sex",
    ]
]
y = training_data[["body_mass_g"]]

model = LinearRegression(fit_intercept=False)
model.fit(X, y)
model.score(X, y)

Pembersihan

Agar tidak perlu membayar biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource.

Cara termudah untuk menghilangkan penagihan adalah dengan menghapus Google Cloud project yang Anda buat untuk tutorial ini.

Perhatian: Penghapusan project memiliki efek berikut:

Semua hal dalam project akan dihapus. Jika Anda menggunakan project yang ada untuk mengerjakan tugas di dokumen ini, saat Anda menghapusnya, pekerjaan lain dalam project tersebut juga akan dihapus.
Project ID kustom akan hilang. Saat membuat project ini, Anda mungkin juga membuat project ID kustom yang masih ingin digunakan pada masa mendatang. Agar tidak kehilangan URL yang menggunakan project ID tersebut, seperti URL appspot.com, hapus resource yang dipilih di dalam project, bukan menghapus seluruh project.

Jika Anda berencana mempelajari beberapa arsitektur, tutorial atau panduan memulai, dengan menggunakan kembali project dapat membantu Anda agar tidak melampaui batas kuota project.

Di Konsol Google Cloud , buka halaman Manage resources.
Buka Kelola resource
Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Langkah berikutnya

Pelajari lebih lanjut cara membuat notebook di BigQuery.
Pelajari lebih lanjut cara menjelajahi data dengan DataFrame BigQuery.