Menggunakan Agen Data Science Colab Enterprise dengan BigQuery

Agen Data Science (DSA) untuk Colab Enterprise dan BigQuery memungkinkan Anda mengotomatiskan analisis data eksploratori, menjalankan tugas machine learning, dan memberikan insight, semuanya dalam notebook Colab Enterprise.

Sebelum memulai

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Enable the BigQuery, Vertex AI, Dataform, and Compute Engine APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

    Untuk project baru, BigQuery API diaktifkan secara otomatis.

  7. Jika Anda baru menggunakan Colab Enterprise di BigQuery, lihat langkah-langkah penyiapan di halaman Membuat notebook.

    Batasan

    • Agen Data Science mendukung sumber data berikut:
      • File CSV
      • Tabel BigQuery
    • Kode yang dihasilkan oleh Agen Data Science hanya berjalan di runtime notebook Anda.
    • Agen Data Science tidak didukung di project yang telah mengaktifkan Kontrol Layanan VPC.
    • Penelusuran tabel BigQuery menggunakan fungsi @mention terbatas pada project saat ini. Gunakan pemilih tabel untuk menelusuri seluruh project.
    • Fungsi @mention hanya menelusuri tabel BigQuery. Untuk menelusuri file data yang dapat Anda upload, gunakan simbol +.
    • PySpark di Agen Data Science hanya menghasilkan kode Serverless for Apache Spark 4.0. DSA dapat membantu Anda melakukan upgrade ke Serverless for Apache Spark 4.0, tetapi pengguna yang memerlukan versi sebelumnya tidak boleh menggunakan Agen Ilmu Data.

    Kapan harus menggunakan Agen Data Science

    Agen Data Science membantu Anda dalam menyelesaikan tugas mulai dari analisis data eksploratif hingga membuat prediksi dan perkiraan machine learning. Anda dapat menggunakan DSA untuk:

    • Pemrosesan data skala besar: Gunakan BigQuery ML, BigQuery DataFrames, atau Serverless for Apache Spark untuk melakukan pemrosesan data terdistribusi pada set data besar. Dengan begitu, Anda dapat membersihkan, mengubah, dan menganalisis data yang terlalu besar untuk dimuat ke dalam memori di satu mesin secara efisien.
    • Membuat rencana: Buat dan ubah rencana untuk menyelesaikan tugas tertentu menggunakan alat umum seperti Python, SQL, Serverless for Apache Spark, dan DataFrame BigQuery.
    • Eksplorasi data: Jelajahi set data untuk memahami struktur, mengidentifikasi potensi masalah seperti nilai yang hilang dan pencilan, serta memeriksa distribusi variabel utama menggunakan Python atau SQL.
    • Pembersihan data: Bersihkan data Anda. Misalnya, hapus titik data yang merupakan anomali.
    • Penyiapan data: Mengonversi fitur kategoris menjadi representasi numerik menggunakan teknik seperti encoding one-hot atau encoding label atau dengan menggunakan alat transformasi fitur BigQuery ML. Buat fitur baru untuk analisis.
    • Analisis data: Menganalisis hubungan antara berbagai variabel. Hitung korelasi antara fitur numerik dan jelajahi distribusi fitur kategoris. Cari pola dan tren dalam data.
    • Visualisasi data: Buat visualisasi seperti histogram, diagram kotak garis, diagram sebar, dan diagram batang yang merepresentasikan distribusi variabel individual dan hubungan di antara variabel tersebut. Anda juga dapat membuat visualisasi di Python untuk tabel yang disimpan di BigQuery.
    • Rekayasa fitur: Merekayasa fitur baru dari set data yang sudah dibersihkan.
    • Pemisahan data: Memisahkan set data yang telah direkayasa menjadi set data pelatihan, validasi, dan pengujian.
    • Pelatihan model: Latih model menggunakan data pelatihan di DataFrame pandas (X_train, y_train), BigQuery DataFrames, DataFrame PySpark, atau menggunakan pernyataan CREATE MODEL BigQuery ML dengan tabel BigQuery.
    • Pengoptimalan model: Mengoptimalkan model menggunakan set validasi. Pelajari model alternatif seperti DecisionTreeRegressor dan RandomForestRegressor serta bandingkan performanya.
    • Evaluasi model: Mengevaluasi performa model pada set data pengujian menggunakan pandas DataFrame, BigQuery DataFrames, atau PySpark DataFrame. Anda juga dapat menilai kualitas model dan membandingkan model menggunakan fungsi evaluasi model BigQuery ML untuk model yang dilatih menggunakan BigQuery ML.
    • Inferensi model: Lakukan inferensi dengan model terlatih BigQuery ML, model yang diimpor, dan model jarak jauh menggunakan fungsi inferensi BigQuery ML. Anda juga dapat menggunakan metode BigFrames model.predict() atau transformer PySpark untuk membuat prediksi.

    Menggunakan Agen Data Science di BigQuery

    Langkah-langkah berikut menunjukkan cara menggunakan Agen Ilmu Data di BigQuery.

    1. Buat atau buka notebook Colab Enterprise.

    2. Referensi data Anda dengan salah satu cara berikut:

      • Upload file CSV atau gunakan simbol + dalam perintah Anda untuk menelusuri file yang tersedia
      • Pilih satu atau beberapa tabel BigQuery di pemilih tabel dari project saat ini atau dari project lain yang aksesnya Anda miliki
      • Referensi nama tabel BigQuery dalam perintah Anda dalam format ini: project_id:dataset.table
      • Ketik simbol @ untuk menelusuri nama tabel BigQuery menggunakan fungsi @mention
    3. Masukkan perintah yang menjelaskan analisis data yang ingin Anda lakukan atau prototipe yang ingin Anda buat. Perilaku default Agen Ilmu Data adalah membuat kode Python menggunakan library open source seperti sklearn untuk menyelesaikan tugas machine learning yang kompleks. Untuk menggunakan alat tertentu, sertakan kata kunci berikut dalam perintah Anda:

      • Jika Anda ingin menggunakan BigQuery ML, sertakan kata kunci "SQL".
      • Jika Anda ingin menggunakan "BigQuery DataFrames", tentukan kata kunci "BigFrames" atau "BigQuery DataFrames".
      • Jika Anda ingin menggunakan PySpark, sertakan kata kunci "Apache Spark" atau "PySpark".

      Untuk mendapatkan bantuan, lihat contoh perintah.

    4. Periksa hasilnya.

    Menganalisis file CSV

    Untuk menganalisis CSV menggunakan Agen Data Science di BigQuery, ikuti langkah-langkah berikut.

    1. Buka halaman BigQuery.

      Buka BigQuery

    2. Di halaman selamat datang BigQuery Studio, di bagian Create new, klik Notebook.

      Atau, di tab panel, klik panah drop-down di samping ikon +, lalu klik Notebook > Notebook kosong.

    3. Klik tombol Aktifkan Gemini di Colab untuk membuka dialog chat.

    4. Upload file CSV Anda.

      1. Di dialog chat, klik Tambahkan ke Gemini > Upload.

      2. Jika perlu, beri otorisasi Akun Google Anda.

      3. Jelajahi lokasi file CSV, lalu klik Buka.

    5. Atau, ketik simbol + dalam perintah Anda untuk menelusuri file yang tersedia untuk diupload.

    6. Masukkan perintah Anda di jendela chat. Contoh: Identify trends and anomalies in this file.

    7. Klik Kirim. Hasilnya akan muncul di jendela chat.

    8. Anda dapat meminta agen untuk mengubah rencana, atau Anda dapat menjalankannya dengan mengklik Terima & jalankan. Saat rencana berjalan, kode dan teks yang dihasilkan akan muncul di notebook. Klik Batalkan untuk menghentikan.

    Menganalisis tabel BigQuery

    Untuk menganalisis tabel BigQuery, pilih satu atau beberapa tabel di pemilih tabel, berikan referensi ke tabel dalam perintah Anda, atau telusuri tabel menggunakan simbol @.

    1. Buka halaman BigQuery.

      Buka BigQuery

    2. Di halaman selamat datang BigQuery Studio, di bagian Create new, klik Notebook.

      Atau, di tab panel, klik panah drop-down di samping ikon +, lalu klik Notebook > Notebook kosong.

    3. Klik tombol Aktifkan Gemini di Colab untuk membuka dialog chat.

    4. Masukkan perintah Anda di jendela chat.

    5. Referensi data Anda dengan salah satu cara berikut:

      1. Pilih satu atau beberapa tabel menggunakan pemilih tabel:

        1. Klik Tambahkan ke tabel BigQuery > Gemini.

        2. Di jendela BigQuery tables, pilih satu atau beberapa tabel di project Anda. Anda dapat menelusuri tabel di seluruh project dan memfilter tabel menggunakan kotak penelusuran.

      2. Sertakan nama tabel BigQuery secara langsung dalam perintah Anda. Misalnya: "Bantu saya melakukan analisis data eksploratif dan mendapatkan insight tentang data dalam tabel ini: project_id:dataset.table."

        Ganti kode berikut:

        • project_id: project ID Anda
        • dataset: nama set data yang berisi tabel yang Anda analisis
        • table: nama tabel yang Anda analisis
      3. Ketik @ untuk menelusuri tabel BigQuery di project saat ini.

    6. Klik Kirim.

      Hasilnya akan muncul di jendela chat.

    7. Anda dapat meminta agen untuk mengubah rencana, atau Anda dapat menjalankannya dengan mengklik Terima & jalankan. Saat rencana berjalan, kode dan teks yang dihasilkan akan muncul di notebook. Untuk langkah tambahan dalam rencana, Anda mungkin diminta untuk mengklik Setuju & jalankan lagi. Klik Batalkan untuk menghentikan.

    Contoh perintah

    Terlepas dari kompleksitas perintah yang Anda gunakan, Agen Data Science akan membuat rencana yang dapat Anda sesuaikan untuk memenuhi kebutuhan Anda.

    Contoh berikut menunjukkan jenis perintah yang dapat Anda gunakan dengan DSA.

    Perintah Python

    Kode Python dibuat secara default, kecuali jika Anda menggunakan kata kunci tertentu dalam perintah, seperti "BigQuery ML" atau "SQL".

    • Selidiki dan isi nilai yang hilang menggunakan algoritma machine learning k-Nearest Neighbors (KNN).
    • Buat plot gaji menurut tingkat pengalaman. Gunakan kolom experience_level untuk mengelompokkan gaji, dan buat diagram kotak untuk setiap grup yang menampilkan nilai dari kolom salary_in_usd.
    • Gunakan algoritma XGBoost untuk membuat model guna menentukan variabel class dari buah tertentu. Membagi data menjadi set data pelatihan dan pengujian untuk membuat model dan menentukan akurasi model. Buat matriks konfusi untuk menunjukkan prediksi di antara setiap kelas, termasuk semua prediksi yang benar dan salah.
    • Prakiraan target_variable dari filename.csv selama enam bulan ke depan.

    Perintah SQL dan BigQuery ML

    • Buat dan evaluasi model klasifikasi di bigquery-public-data.ml_datasets.census_adult_income menggunakan BigQuery SQL.
    • Dengan menggunakan SQL, perkirakan traffic situs saya pada bulan berikutnya berdasarkan bigquery-public-data.google_analytics_sample.ga_sessions_*. Kemudian, buat plot nilai historis dan perkiraan.
    • Kelompokkan pelanggan yang serupa untuk membuat kampanye pemasaran penargetan menggunakan model KMeans dan fungsi SQL BigQuery ML. Gunakan tiga fitur untuk pengelompokan. Kemudian, visualisasikan hasilnya dengan membuat serangkaian diagram pencar 2D. Gunakan tabel bigquery-public-data.ml_datasets.census_adult_income.
    • Buat embedding teks di BigQuery ML menggunakan konten ulasan di bigquery-public-data.imdb.reviews.

    Untuk mengetahui daftar model dan tugas machine learning yang didukung, lihat dokumentasi BigQuery ML.

    Perintah DataFrame

    • Buat DataFrame pandas untuk data di project_id:dataset.table. Analisis data untuk nilai null, lalu buat grafik distribusi setiap kolom menggunakan jenis grafik. Gunakan plot biola untuk nilai terukur dan plot batang untuk kategori.
    • Baca filename.csv dan buat DataFrame. Jalankan analisis pada DataFrame untuk menentukan apa yang perlu dilakukan dengan nilai. Misalnya, apakah ada nilai yang hilang yang perlu diganti atau dihapus, atau apakah ada baris duplikat yang perlu ditangani. Gunakan file data untuk menentukan distribusi uang yang diinvestasikan dalam USD per lokasi kota. Buat grafik 20 hasil teratas menggunakan grafik batang yang menampilkan hasil dalam urutan menurun sebagai Lokasi versus Jumlah Rata-Rata Investasi (USD).
    • Buat dan evaluasi model klasifikasi pada project_id:dataset.table menggunakan BigQuery DataFrames.
    • Buat model perkiraan deret waktu di project_id:dataset.table menggunakan BigQuery DataFrames, dan visualisasikan evaluasi model.
    • Memvisualisasikan angka penjualan pada tahun lalu dalam tabel project_id:dataset.table BigQuery menggunakan BigQuery DataFrames.
    • Temukan fitur yang dapat memprediksi spesies penguin dengan paling baik dari tabel bigquery-public_data.ml_datasets.penguins menggunakan BigQuery DataFrames.

    Perintah PySpark

    • Buat dan evaluasi model klasifikasi pada project_id:dataset.table menggunakan Serverless for Apache Spark.
    • Kelompokkan pelanggan serupa untuk membuat kampanye pasar penargetan, tetapi lakukan terlebih dahulu reduksi dimensi menggunakan model PCA. Gunakan PySpark untuk melakukannya di tabel project_id:dataset.table.

    Menonaktifkan Gemini di BigQuery

    Untuk menonaktifkan Gemini di BigQuery untuk project Google Cloud , administrator harus menonaktifkan Gemini API untuk Google Cloud. Lihat Menonaktifkan layanan.

    Untuk menonaktifkan Gemini di BigQuery bagi pengguna tertentu, administrator harus mencabut peran Pengguna Gemini untuk Google Cloud (roles/cloudaicompanion.user) bagi pengguna tersebut. Lihat Mencabut satu peran IAM.

    Harga

    Selama Pratinjau, Anda akan ditagih untuk menjalankan kode di runtime notebook dan untuk slot BigQuery yang Anda gunakan. Untuk mengetahui informasi selengkapnya, lihat Harga Colab Enterprise.

    Region yang didukung

    Untuk melihat wilayah yang didukung untuk Agen Ilmu Data Colab Enterprise, lihat Lokasi.