Menggunakan Agen Data Science Colab Enterprise dengan BigQuery
Agen Data Science (DSA) untuk Colab Enterprise dan BigQuery memungkinkan Anda mengotomatiskan analisis data eksploratori, menjalankan tugas machine learning, dan memberikan insight, semuanya dalam notebook Colab Enterprise.
Sebelum memulai
- Login keakun Anda. Google Cloud Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Aktifkan BigQuery, Gemini for Google Cloud, Dataform, dan Compute Engine API.
Peran yang diperlukan untuk mengaktifkan API
Untuk mengaktifkan API, Anda memerlukan peran IAM Service Usage Admin (
roles/serviceusage.serviceUsageAdmin), yang berisi izinserviceusage.services.enable. Pelajari cara memberikan peran.Untuk project baru, BigQuery API diaktifkan secara otomatis.
Jika Anda baru menggunakan Colab Enterprise di BigQuery, lihat langkah-langkah penyiapan di halaman Membuat notebook.
Batasan
- Agen Data Science hanya tersedia dalam lingkungan Colab Enterprise.
- Agen Data Science mendukung sumber data berikut:
- File CSV
- Tabel BigQuery
- Kode yang dihasilkan oleh Agen Data Science hanya berjalan di runtime notebook Anda.
- Penelusuran tabel BigQuery menggunakan fungsi
@mentionhanya terbatas pada project Anda saat ini. Gunakan pemilih tabel untuk menelusuri project. - Fungsi
@mentionhanya menelusuri tabel BigQuery. Untuk menelusuri file data yang dapat Anda upload, gunakan simbol+. - PySpark di Agen Data Science hanya menghasilkan kode Managed Service untuk Apache Spark 4.0. DSA dapat membantu Anda mengupgrade ke Managed Service untuk Apache Spark 4.0, tetapi pengguna yang memerlukan versi sebelumnya tidak boleh menggunakan Agen Data Science.
- Kunci enkripsi yang dikelola pelanggan (CMEK) tidak didukung.
Kapan harus menggunakan Agen Data Science
Agen Data Science membantu Anda dalam tugas yang berkisar dari analisis data eksploratori hingga menghasilkan prediksi dan perkiraan machine learning. Anda dapat menggunakan DSA untuk:
- Pemrosesan data skala besar: Gunakan BigQuery ML, BigQuery DataFrames, atau Managed Service untuk Apache Spark guna melakukan pemrosesan data terdistribusi pada set data besar. Hal ini memungkinkan Anda membersihkan, mentransformasi, dan menganalisis data secara efisien yang terlalu besar untuk dimuat ke dalam memori di satu mesin.
- Membuat rencana: Buat dan ubah rencana untuk menyelesaikan tugas tertentu menggunakan alat umum seperti Python, SQL, Managed Service untuk Apache Spark, dan BigQuery DataFrames.
- Eksplorasi data: Jelajahi set data untuk memahami strukturnya, mengidentifikasi potensi masalah seperti nilai yang tidak ada dan anomali, serta memeriksa distribusi variabel utama menggunakan Python atau SQL.
- Pembersihan data: Bersihkan data Anda. Misalnya, hapus titik data yang merupakan anomali.
- Data wrangling: Konversi fitur kategoris menjadi representasi numerik menggunakan teknik seperti one-hot encoding atau label encoding atau dengan menggunakan alat transformasi fitur BigQuery ML. Buat fitur baru untuk analisis.
- Analisis data: Analisis hubungan antara variabel yang berbeda. Hitung korelasi antara fitur numerik dan jelajahi distribusi fitur kategoris. Cari pola dan tren dalam data.
- Visualisasi data: Buat visualisasi seperti histogram, diagram kotak, diagram pencar, dan diagram batang yang mewakili distribusi variabel individual dan hubungan di antara variabel tersebut. Anda juga dapat membuat visualisasi di Python untuk tabel yang disimpan di BigQuery.
- Rekayasa fitur: Rekayasa fitur baru dari set data yang dibersihkan.
- Pemisahan data: Pisahkan set data yang direkayasa menjadi set data pelatihan, validasi, dan pengujian.
- Pelatihan model: Latih model menggunakan data pelatihan dalam pandas
DataFrame (
X_train,y_train), BigQuery DataFrames, PySpark DataFrame, atau menggunakanCREATE MODELpernyataan BigQuery ML dengan tabel BigQuery. - Pengoptimalan model: Optimalkan model menggunakan set validasi.
Jelajahi model alternatif seperti
DecisionTreeRegressordanRandomForestRegressor, lalu bandingkan performanya. - Evaluasi model: Evaluasi performa model pada set data pengujian menggunakan pandas DataFrame, BigQuery DataFrames, atau PySpark DataFrame. Anda juga dapat menilai kualitas model dan membandingkan model menggunakan BigQuery ML fungsi evaluasi model untuk model yang dilatih menggunakan BigQuery ML.
- Inferensi model: Lakukan inferensi dengan model terlatih BigQuery ML, model yang diimpor, dan model jarak jauh menggunakan fungsi inferensi BigQuery ML
. Anda juga dapat menggunakan
metode
model.predict()BigFrames atau transformerPySpark untuk membuat prediksi.
Menggunakan Agen Data Science di BigQuery
Langkah-langkah berikut menunjukkan cara menggunakan Agen Data Science di BigQuery.
Buat atau buka notebook Colab Enterprise.
Opsional: Referensikan data Anda dengan salah satu cara berikut:
- Upload file CSV atau gunakan simbol
+dalam perintah Anda untuk menelusuri file yang tersedia. - Pilih satu atau beberapa tabel BigQuery di pemilih tabel dari project Anda saat ini atau dari project lain yang dapat Anda akses.
- Referensi nama tabel BigQuery dalam perintah Anda dalam
format ini:
project_id:dataset.table. - Ketik simbol
@untuk menelusuri nama tabel BigQuery menggunakan fungsi@mention.
- Upload file CSV atau gunakan simbol
Masukkan perintah yang menjelaskan analisis data yang ingin Anda lakukan atau prototipe yang ingin Anda buat. Perilaku default Agen Data Science adalah menghasilkan kode Python menggunakan library open source seperti sklearn untuk menyelesaikan tugas machine learning yang kompleks. Untuk menggunakan alat tertentu, sertakan kata kunci berikut dalam perintah Anda:
- Jika Anda ingin menggunakan BigQuery ML, sertakan kata kunci "SQL".
- Jika Anda ingin menggunakan "BigQuery DataFrames", tentukan kata kunci "BigFrames" atau "BigQuery DataFrames".
- Jika Anda ingin menggunakan PySpark, sertakan kata kunci "Apache Spark" atau "PySpark".
Untuk mendapatkan bantuan, lihat contoh perintah.
Pilih model Anda. Model default adalah Gemini 3.0 Flash.
Kirim perintah Anda, lalu periksa hasilnya.
Menganalisis file CSV
Untuk menganalisis CSV menggunakan Agen Data Science di BigQuery, ikuti langkah-langkah berikut.
Buka halaman BigQuery.
Di panel kiri, luaskan project Anda, lalu klik Notebooks.
Klik New notebook > Empty notebook.
Atau, di tab, klik panah drop-down arrow_drop_down di samping ikon add_box Add, lalu klik Notebook > Empty notebook.
Klik tombol spark Toggle Gemini in Colab untuk membuka dialog chat.
Upload file CSV Anda.
Di dialog chat, klik Add to Gemini > Upload.
Jika perlu, izinkan Akun Google Anda.
Telusuri lokasi file CSV, lalu klik Open.
Atau, ketik simbol
+dalam perintah Anda untuk menelusuri file yang tersedia untuk diupload.Masukkan perintah Anda di jendela chat. Contoh:
Identify trends and anomalies in this file.Pilih model Anda. Model default adalah Gemini 3.0 Flash.
Klik Send. Hasilnya akan muncul di jendela chat.
Anda dapat meminta agen untuk mengubah rencana, atau Anda dapat menjalankannya dengan mengklik Accept &run. Saat rencana berjalan, kode dan teks yang dihasilkan akan muncul di notebook. Klik Cancel untuk berhenti.
Menganalisis tabel BigQuery
Untuk menganalisis tabel BigQuery, pilih satu atau beberapa tabel di pemilih tabel, berikan referensi ke tabel dalam perintah Anda, atau telusuri tabel menggunakan simbol @.
Buka halaman BigQuery.
Di panel kiri, luaskan project Anda, lalu klik Notebooks.
Klik New notebook > Empty notebook.
Atau, di tab, klik panah drop-down arrow_drop_down di samping ikon add_box Add, lalu klik Notebook > Empty notebook.
Klik tombol spark Toggle Gemini in Colab untuk membuka dialog chat.
Masukkan perintah Anda di jendela chat.
Referensi data Anda dengan salah satu cara berikut:
Pilih satu atau beberapa tabel menggunakan pemilih tabel:
Klik Add to Gemini > BigQuery tables.
Di jendela BigQuery tables, pilih satu atau beberapa tabel di project Anda. Anda dapat menelusuri tabel di seluruh project dan memfilter tabel menggunakan kotak penelusuran.
Sertakan nama tabel BigQuery langsung dalam perintah Anda. Contoh: "Help me perform exploratory data analysis and get insights about the data in this table:
project_id:dataset.table."Ganti kode berikut:
project_id: project ID Andadataset: nama set data yang berisi tabel yang Anda analisistable: nama tabel yang Anda analisis
Ketik
@untuk menelusuri tabel BigQuery di project Anda saat ini.
Pilih model Anda. Model default adalah Gemini 3.0 Flash.
Klik Send.
Hasilnya akan muncul di jendela chat.
Anda dapat meminta agen untuk mengubah rencana, atau Anda dapat menjalankannya dengan mengklik Accept &run. Saat rencana berjalan, kode dan teks yang dihasilkan akan muncul di notebook. Untuk langkah tambahan dalam rencana, Anda mungkin harus mengklik Accept &run lagi. Klik Cancel untuk berhenti.
Contoh perintah
Terlepas dari kompleksitas perintah yang Anda gunakan, Agen Data Science akan menghasilkan rencana yang dapat Anda sesuaikan untuk memenuhi kebutuhan Anda.
Contoh berikut menunjukkan jenis perintah yang dapat Anda gunakan dengan DSA.
Perintah Python
Kode Python dihasilkan secara default kecuali jika Anda menggunakan kata kunci tertentu dalam perintah seperti "BigQuery ML" atau "SQL".
- "Investigate and fill missing values by using the k-Nearest Neighbors (KNN) machine learning algorithm."
- "Create a plot of salary by experience level. Use the
experience_levelcolumn to group the salaries, and create a box plot for each group showing the values from thesalary_in_usdcolumn." - "Use the XGBoost algorithm to make a model for determining the
classvariable of a particular fruit. Split the data into training and testing datasets to generate a model and to determine the model's accuracy. Create a confusion matrix to show the predictions amongst each class, including all predictions that are correct and incorrect." - "Forecast
target_variablefromfilename.csvfor the next six months."
Perintah SQL dan BigQuery ML
- "Create and evaluate a classification model on
bigquery-public-data.ml_datasets.census_adult_incomeusing BigQuery SQL." - "Using SQL, forecast the future traffic of my website for the next month based on
bigquery-public-data.google_analytics_sample.ga_sessions_*. Then, plot the historical and forecasted values." - "Group similar customers together to create targeting market campaigns using a KMeans model and BigQuery ML SQL functions. Use three features for
clustering. Then visualize the results by creating a series of 2D scatter
plots. Use the table
bigquery-public-data.ml_datasets.census_adult_income." - "Generate text embeddings in BigQuery ML using the review content in
bigquery-public-data.imdb.reviews."
Untuk mengetahui daftar model dan tugas machine learning yang didukung, lihat dokumentasi BigQuery ML.
Perintah DataFrame
- "Create a pandas DataFrame for the data in
project_id:dataset.table. Analisis data tersebut untuk mencari nilai null, lalu buat grafik distribusi untuk tiap kolom menggunakan jenis grafik yang sesuai. Gunakan violin plot untuk nilai yang terukur dan bar plot untuk kategori." - "Read
filename.csvand construct a DataFrame. Run analysis on the DataFrame to determine what needs to be done with values. For example, are there missing values that need to be replaced or removed, or are there duplicate rows that need to be addressed. Use the data file to determine the distribution of the money invested in USD per city location. Graph the top 20 results using a bar graph that shows the results in descending order as Location versus Avg Amount Invested (USD)." - "Create and evaluate a classification model on
project_id:dataset.tableusing BigQuery DataFrames." - "Create a time series forecasting model on
project_id:dataset.tableusing BigQuery DataFrames, and visualize the model evaluations." - "Visualize the sales figures in the past year in BigQuery
table
project_id:dataset.tableusing BigQuery DataFrames." - "Find the features that can best predict the penguin species from the table
bigquery-public_data.ml_datasets.penguinsusing BigQuery DataFrames."
Perintah PySpark
- "Create and evaluate a classification model on
project_id:dataset.tableusing Managed Service for Apache Spark." - "Group similar customers together to create targeting market campaigns, but first do dimensionality reduction using a PCA model. Use PySpark to do this
on table
project_id:dataset.table."
Menonaktifkan Gemini di BigQuery
Untuk menonaktifkan Gemini di BigQuery untuk a Google Cloud project, administrator harus menonaktifkan the Gemini for Google Cloud API. Lihat Menonaktifkan layanan.
Untuk menonaktifkan Gemini di BigQuery bagi pengguna tertentu, seorang
administrator harus mencabut peran
Gemini for
Google Cloud User (roles/cloudaicompanion.user) untuk pengguna tersebut. Lihat
Mencabut
satu peran IAM.
Harga
Harga Agen Data Science didasarkan pada data input dan output Anda. Untuk mengetahui informasi selengkapnya, lihat Harga agen di Cara kerja harga BigQuery.
Region yang didukung
Untuk melihat region yang didukung untuk Agen Data Science Colab Enterprise, lihat Lokasi.