Menggunakan Agen Data Science Colab Enterprise dengan BigQuery

Agen Data Science (DSA) untuk Colab Enterprise dan BigQuery memungkinkan Anda mengotomatiskan analisis data eksploratori, menjalankan tugas machine learning, dan memberikan insight, semuanya dalam notebook Colab Enterprise.

Sebelum memulai

  1. Login keakun Anda. Google Cloud Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Aktifkan BigQuery, Gemini for Google Cloud, Dataform, dan Compute Engine API.

    Peran yang diperlukan untuk mengaktifkan API

    Untuk mengaktifkan API, Anda memerlukan peran IAM Service Usage Admin (roles/serviceusage.serviceUsageAdmin), yang berisi izin serviceusage.services.enable. Pelajari cara memberikan peran.

    Aktifkan API

    Untuk project baru, BigQuery API diaktifkan secara otomatis.

Jika Anda baru menggunakan Colab Enterprise di BigQuery, lihat langkah-langkah penyiapan di halaman Membuat notebook.

Batasan

  • Agen Data Science hanya tersedia dalam lingkungan Colab Enterprise.
  • Agen Data Science mendukung sumber data berikut:
    • File CSV
    • Tabel BigQuery
  • Kode yang dihasilkan oleh Agen Data Science hanya berjalan di runtime notebook Anda.
  • Penelusuran tabel BigQuery menggunakan fungsi @mention hanya terbatas pada project Anda saat ini. Gunakan pemilih tabel untuk menelusuri project.
  • Fungsi @mention hanya menelusuri tabel BigQuery. Untuk menelusuri file data yang dapat Anda upload, gunakan simbol +.
  • PySpark di Agen Data Science hanya menghasilkan kode Managed Service untuk Apache Spark 4.0. DSA dapat membantu Anda mengupgrade ke Managed Service untuk Apache Spark 4.0, tetapi pengguna yang memerlukan versi sebelumnya tidak boleh menggunakan Agen Data Science.
  • Kunci enkripsi yang dikelola pelanggan (CMEK) tidak didukung.

Kapan harus menggunakan Agen Data Science

Agen Data Science membantu Anda dalam tugas yang berkisar dari analisis data eksploratori hingga menghasilkan prediksi dan perkiraan machine learning. Anda dapat menggunakan DSA untuk:

  • Pemrosesan data skala besar: Gunakan BigQuery ML, BigQuery DataFrames, atau Managed Service untuk Apache Spark guna melakukan pemrosesan data terdistribusi pada set data besar. Hal ini memungkinkan Anda membersihkan, mentransformasi, dan menganalisis data secara efisien yang terlalu besar untuk dimuat ke dalam memori di satu mesin.
  • Membuat rencana: Buat dan ubah rencana untuk menyelesaikan tugas tertentu menggunakan alat umum seperti Python, SQL, Managed Service untuk Apache Spark, dan BigQuery DataFrames.
  • Eksplorasi data: Jelajahi set data untuk memahami strukturnya, mengidentifikasi potensi masalah seperti nilai yang tidak ada dan anomali, serta memeriksa distribusi variabel utama menggunakan Python atau SQL.
  • Pembersihan data: Bersihkan data Anda. Misalnya, hapus titik data yang merupakan anomali.
  • Data wrangling: Konversi fitur kategoris menjadi representasi numerik menggunakan teknik seperti one-hot encoding atau label encoding atau dengan menggunakan alat transformasi fitur BigQuery ML. Buat fitur baru untuk analisis.
  • Analisis data: Analisis hubungan antara variabel yang berbeda. Hitung korelasi antara fitur numerik dan jelajahi distribusi fitur kategoris. Cari pola dan tren dalam data.
  • Visualisasi data: Buat visualisasi seperti histogram, diagram kotak, diagram pencar, dan diagram batang yang mewakili distribusi variabel individual dan hubungan di antara variabel tersebut. Anda juga dapat membuat visualisasi di Python untuk tabel yang disimpan di BigQuery.
  • Rekayasa fitur: Rekayasa fitur baru dari set data yang dibersihkan.
  • Pemisahan data: Pisahkan set data yang direkayasa menjadi set data pelatihan, validasi, dan pengujian.
  • Pelatihan model: Latih model menggunakan data pelatihan dalam pandas DataFrame (X_train, y_train), BigQuery DataFrames, PySpark DataFrame, atau menggunakan CREATE MODEL pernyataan BigQuery ML dengan tabel BigQuery.
  • Pengoptimalan model: Optimalkan model menggunakan set validasi. Jelajahi model alternatif seperti DecisionTreeRegressor dan RandomForestRegressor, lalu bandingkan performanya.
  • Evaluasi model: Evaluasi performa model pada set data pengujian menggunakan pandas DataFrame, BigQuery DataFrames, atau PySpark DataFrame. Anda juga dapat menilai kualitas model dan membandingkan model menggunakan BigQuery ML fungsi evaluasi model untuk model yang dilatih menggunakan BigQuery ML.
  • Inferensi model: Lakukan inferensi dengan model terlatih BigQuery ML, model yang diimpor, dan model jarak jauh menggunakan fungsi inferensi BigQuery ML . Anda juga dapat menggunakan metode model.predict()BigFrames atau transformerPySpark untuk membuat prediksi.

Menggunakan Agen Data Science di BigQuery

Langkah-langkah berikut menunjukkan cara menggunakan Agen Data Science di BigQuery.

  1. Buat atau buka notebook Colab Enterprise.

  2. Opsional: Referensikan data Anda dengan salah satu cara berikut:

    • Upload file CSV atau gunakan simbol + dalam perintah Anda untuk menelusuri file yang tersedia.
    • Pilih satu atau beberapa tabel BigQuery di pemilih tabel dari project Anda saat ini atau dari project lain yang dapat Anda akses.
    • Referensi nama tabel BigQuery dalam perintah Anda dalam format ini: project_id:dataset.table.
    • Ketik simbol @ untuk menelusuri nama tabel BigQuery menggunakan fungsi @mention.
  3. Masukkan perintah yang menjelaskan analisis data yang ingin Anda lakukan atau prototipe yang ingin Anda buat. Perilaku default Agen Data Science adalah menghasilkan kode Python menggunakan library open source seperti sklearn untuk menyelesaikan tugas machine learning yang kompleks. Untuk menggunakan alat tertentu, sertakan kata kunci berikut dalam perintah Anda:

    • Jika Anda ingin menggunakan BigQuery ML, sertakan kata kunci "SQL".
    • Jika Anda ingin menggunakan "BigQuery DataFrames", tentukan kata kunci "BigFrames" atau "BigQuery DataFrames".
    • Jika Anda ingin menggunakan PySpark, sertakan kata kunci "Apache Spark" atau "PySpark".

    Untuk mendapatkan bantuan, lihat contoh perintah.

  4. Pilih model Anda. Model default adalah Gemini 3.0 Flash.

  5. Kirim perintah Anda, lalu periksa hasilnya.

Menganalisis file CSV

Untuk menganalisis CSV menggunakan Agen Data Science di BigQuery, ikuti langkah-langkah berikut.

  1. Buka halaman BigQuery.

    Buka BigQuery

  2. Di panel kiri, luaskan project Anda, lalu klik Notebooks.

  3. Klik New notebook > Empty notebook.

    Atau, di tab, klik panah drop-down arrow_drop_down di samping ikon add_box Add, lalu klik Notebook > Empty notebook.

  4. Klik tombol spark Toggle Gemini in Colab untuk membuka dialog chat.

  5. Upload file CSV Anda.

    1. Di dialog chat, klik Add to Gemini > Upload.

    2. Jika perlu, izinkan Akun Google Anda.

    3. Telusuri lokasi file CSV, lalu klik Open.

  6. Atau, ketik simbol + dalam perintah Anda untuk menelusuri file yang tersedia untuk diupload.

  7. Masukkan perintah Anda di jendela chat. Contoh: Identify trends and anomalies in this file.

  8. Pilih model Anda. Model default adalah Gemini 3.0 Flash.

  9. Klik Send. Hasilnya akan muncul di jendela chat.

  10. Anda dapat meminta agen untuk mengubah rencana, atau Anda dapat menjalankannya dengan mengklik Accept &run. Saat rencana berjalan, kode dan teks yang dihasilkan akan muncul di notebook. Klik Cancel untuk berhenti.

Menganalisis tabel BigQuery

Untuk menganalisis tabel BigQuery, pilih satu atau beberapa tabel di pemilih tabel, berikan referensi ke tabel dalam perintah Anda, atau telusuri tabel menggunakan simbol @.

  1. Buka halaman BigQuery.

    Buka BigQuery

  2. Di panel kiri, luaskan project Anda, lalu klik Notebooks.

  3. Klik New notebook > Empty notebook.

    Atau, di tab, klik panah drop-down arrow_drop_down di samping ikon add_box Add, lalu klik Notebook > Empty notebook.

  4. Klik tombol spark Toggle Gemini in Colab untuk membuka dialog chat.

  5. Masukkan perintah Anda di jendela chat.

  6. Referensi data Anda dengan salah satu cara berikut:

    1. Pilih satu atau beberapa tabel menggunakan pemilih tabel:

      1. Klik Add to Gemini > BigQuery tables.

      2. Di jendela BigQuery tables, pilih satu atau beberapa tabel di project Anda. Anda dapat menelusuri tabel di seluruh project dan memfilter tabel menggunakan kotak penelusuran.

    2. Sertakan nama tabel BigQuery langsung dalam perintah Anda. Contoh: "Help me perform exploratory data analysis and get insights about the data in this table: project_id:dataset.table."

      Ganti kode berikut:

      • project_id: project ID Anda
      • dataset: nama set data yang berisi tabel yang Anda analisis
      • table: nama tabel yang Anda analisis
    3. Ketik @ untuk menelusuri tabel BigQuery di project Anda saat ini.

  7. Pilih model Anda. Model default adalah Gemini 3.0 Flash.

  8. Klik Send.

    Hasilnya akan muncul di jendela chat.

  9. Anda dapat meminta agen untuk mengubah rencana, atau Anda dapat menjalankannya dengan mengklik Accept &run. Saat rencana berjalan, kode dan teks yang dihasilkan akan muncul di notebook. Untuk langkah tambahan dalam rencana, Anda mungkin harus mengklik Accept &run lagi. Klik Cancel untuk berhenti.

Contoh perintah

Terlepas dari kompleksitas perintah yang Anda gunakan, Agen Data Science akan menghasilkan rencana yang dapat Anda sesuaikan untuk memenuhi kebutuhan Anda.

Contoh berikut menunjukkan jenis perintah yang dapat Anda gunakan dengan DSA.

Perintah Python

Kode Python dihasilkan secara default kecuali jika Anda menggunakan kata kunci tertentu dalam perintah seperti "BigQuery ML" atau "SQL".

  • "Investigate and fill missing values by using the k-Nearest Neighbors (KNN) machine learning algorithm."
  • "Create a plot of salary by experience level. Use the experience_level column to group the salaries, and create a box plot for each group showing the values from the salary_in_usd column."
  • "Use the XGBoost algorithm to make a model for determining the class variable of a particular fruit. Split the data into training and testing datasets to generate a model and to determine the model's accuracy. Create a confusion matrix to show the predictions amongst each class, including all predictions that are correct and incorrect."
  • "Forecast target_variable from filename.csv for the next six months."

Perintah SQL dan BigQuery ML

  • "Create and evaluate a classification model on bigquery-public-data.ml_datasets.census_adult_income using BigQuery SQL."
  • "Using SQL, forecast the future traffic of my website for the next month based on bigquery-public-data.google_analytics_sample.ga_sessions_*. Then, plot the historical and forecasted values."
  • "Group similar customers together to create targeting market campaigns using a KMeans model and BigQuery ML SQL functions. Use three features for clustering. Then visualize the results by creating a series of 2D scatter plots. Use the table bigquery-public-data.ml_datasets.census_adult_income."
  • "Generate text embeddings in BigQuery ML using the review content in bigquery-public-data.imdb.reviews."

Untuk mengetahui daftar model dan tugas machine learning yang didukung, lihat dokumentasi BigQuery ML.

Perintah DataFrame

  • "Create a pandas DataFrame for the data in project_id:dataset.table. Analisis data tersebut untuk mencari nilai null, lalu buat grafik distribusi untuk tiap kolom menggunakan jenis grafik yang sesuai. Gunakan violin plot untuk nilai yang terukur dan bar plot untuk kategori."
  • "Read filename.csv and construct a DataFrame. Run analysis on the DataFrame to determine what needs to be done with values. For example, are there missing values that need to be replaced or removed, or are there duplicate rows that need to be addressed. Use the data file to determine the distribution of the money invested in USD per city location. Graph the top 20 results using a bar graph that shows the results in descending order as Location versus Avg Amount Invested (USD)."
  • "Create and evaluate a classification model on project_id:dataset.table using BigQuery DataFrames."
  • "Create a time series forecasting model on project_id:dataset.table using BigQuery DataFrames, and visualize the model evaluations."
  • "Visualize the sales figures in the past year in BigQuery table project_id:dataset.table using BigQuery DataFrames."
  • "Find the features that can best predict the penguin species from the table bigquery-public_data.ml_datasets.penguins using BigQuery DataFrames."

Perintah PySpark

  • "Create and evaluate a classification model on project_id:dataset.table using Managed Service for Apache Spark."
  • "Group similar customers together to create targeting market campaigns, but first do dimensionality reduction using a PCA model. Use PySpark to do this on table project_id:dataset.table."

Menonaktifkan Gemini di BigQuery

Untuk menonaktifkan Gemini di BigQuery untuk a Google Cloud project, administrator harus menonaktifkan the Gemini for Google Cloud API. Lihat Menonaktifkan layanan.

Untuk menonaktifkan Gemini di BigQuery bagi pengguna tertentu, seorang administrator harus mencabut peran Gemini for Google Cloud User (roles/cloudaicompanion.user) untuk pengguna tersebut. Lihat Mencabut satu peran IAM.

Harga

Harga Agen Data Science didasarkan pada data input dan output Anda. Untuk mengetahui informasi selengkapnya, lihat Harga agen di Cara kerja harga BigQuery.

Region yang didukung

Untuk melihat region yang didukung untuk Agen Data Science Colab Enterprise, lihat Lokasi.