Menggunakan Agen Data Science

Panduan ini menjelaskan cara menggunakan Agen Data Science di Colab Enterprise untuk membantu Anda melakukan tugas ilmu data di notebook.

Pelajari cara dan waktu Gemini untuk Google Cloud menggunakan data Anda.

Dokumen ini ditujukan untuk analis data, data scientist, dan developer data yang menggunakan Colab Enterprise. Panduan ini mengasumsikan bahwa Anda memiliki pengetahuan tentang cara menulis kode di lingkungan notebook.

Kemampuan Agen Data Science

Agen Data Science dapat membantu Anda menyelesaikan tugas mulai dari analisis data eksploratif hingga membuat prediksi dan perkiraan machine learning. Anda dapat menggunakan Agen Data Science untuk:

  • Pemrosesan data skala besar: Gunakan BigQuery ML, BigQuery DataFrames, atau Managed Service for Apache Spark untuk melakukan pemrosesan data terdistribusi pada set data besar. Dengan demikian, Anda dapat membersihkan, mentransformasi, dan menganalisis data yang terlalu besar untuk dimuat ke dalam memori di satu mesin secara efisien.
  • Membuat rencana: Buat dan ubah rencana untuk menyelesaikan tugas tertentu menggunakan alat umum seperti Python, SQL, Apache Spark, dan DataFrame BigQuery.
  • Eksplorasi data: Jelajahi set data untuk memahami struktur, mengidentifikasi potensi masalah seperti nilai yang hilang dan pencilan, serta memeriksa distribusi variabel utama.
  • Pembersihan data: Bersihkan data Anda. Misalnya, hapus titik data yang merupakan anomali.
  • Penyiapan data: Mengonversi fitur kategorik menjadi representasi numerik menggunakan teknik seperti enkode one-hot atau enkode label. Buat fitur baru untuk analisis.
  • Analisis data: Menganalisis hubungan antara berbagai variabel. Menghitung korelasi antara fitur numerik dan menjelajahi distribusi fitur kategoris. Cari pola dan tren dalam data.
  • Visualisasi data: Buat visualisasi seperti histogram, diagram kotak garis, diagram sebar, dan diagram batang yang merepresentasikan distribusi variabel individual dan hubungan di antara variabel tersebut.
  • Rekayasa fitur: Merekayasa fitur baru dari set data yang sudah dibersihkan.
  • Pemisahan data: Memisahkan set data yang telah direkayasa menjadi set data pelatihan, validasi, dan pengujian.
  • Pelatihan model: Latih model menggunakan data pelatihan dalam pandas DataFrame, BigQuery DataFrames, PySpark DataFrame, atau menggunakan pernyataan CREATE MODEL BigQuery ML dengan tabel BigQuery.
  • Pengoptimalan model: Mengoptimalkan model menggunakan set validasi. Pelajari model alternatif seperti DecisionTreeRegressor dan RandomForestRegressor serta bandingkan performanya.
  • Evaluasi model: Mengevaluasi performa model pada set data pengujian menggunakan DataFrame pandas, BigQuery DataFrames, atau DataFrame PySpark. Anda juga dapat menilai kualitas model dan membandingkan model menggunakan BigQuery ML fungsi evaluasi model untuk model yang dilatih menggunakan BigQuery ML.
  • Inferensi model: Lakukan inferensi dengan model terlatih BigQuery ML, model yang diimpor, dan model jarak jauh menggunakan fungsi inferensi BigQuery ML. Anda juga dapat menggunakan metode model.predict() BigQuery DataFrames atau transformer PySpark untuk membuat prediksi.

Batasan

  • Agen Data Science mendukung sumber data berikut:
    • File CSV
    • Tabel BigQuery
  • Kode yang dihasilkan oleh Agen Data Science hanya berjalan di runtime notebook Anda.
  • Notebook Anda harus berada di region yang didukung oleh Agen Data Science. Lihat Lokasi.
  • Saat pertama kali menjalankan Agen Ilmu Data, Anda mungkin mengalami beberapa latensi sekitar lima hingga sepuluh menit. Hal ini hanya terjadi sekali per project selama penyiapan awal.
  • Penelusuran tabel BigQuery menggunakan fungsi @mention dibatasi untuk project saat ini. Gunakan pemilih tabel untuk menelusuri seluruh project.
  • Fungsi @mention hanya menelusuri tabel BigQuery. Untuk menelusuri file data yang dapat Anda upload, gunakan simbol +.
  • PySpark di Agen Data Science hanya menghasilkan kode Apache Spark 4.0. Agen Data Science dapat membantu Anda mengupgrade ke Apache Spark 4.0, tetapi pengguna yang memerlukan Apache Spark versi sebelumnya tidak boleh menggunakan Agen Data Science.

Sebelum memulai

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

Peran yang diperlukan

Untuk mendapatkan izin yang diperlukan guna menggunakan Agen Ilmu Data di Colab Enterprise, minta administrator Anda untuk memberi Anda peran IAM Colab Enterprise User (roles/aiplatform.colabEnterpriseUser) di project. Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Mereferensikan data Anda

Untuk mengizinkan Agen Data Science Colab Enterprise mengakses dan memproses data Anda, Anda dapat mengupload file CSV atau merujuk tabel BigQuery.

File CSV

  1. Di konsol Google Cloud , buka halaman Notebook saya Colab Enterprise.

    Buka Notebook saya

  2. Di menu Region, pilih region yang berisi notebook Anda.

  3. Klik notebook yang ingin Anda buka.

  4. Klik tombol  Aktifkan/Nonaktifkan Gemini di Colab untuk membuka dialog chat.

  5. Di dialog chat, klik Tambahkan file > Upload.
  6. Jika perlu, beri otorisasi Akun Google Anda.

    Tunggu beberapa saat hingga Colab Enterprise memulai runtime dan mengaktifkan penjelajahan file.

  7. Cari lokasi file, lalu klik Buka.
  8. Klik OK untuk mengonfirmasi bahwa file runtime ini akan dihapus saat runtime dihapus.

    File diupload ke panel File, dan muncul di jendela chat.

Tabel BigQuery

  1. Di konsol Google Cloud , buka halaman Notebook saya Colab Enterprise.

    Buka Notebook saya

  2. Di menu Region, pilih region yang berisi notebook Anda.

  3. Klik notebook yang ingin Anda buka.

  4. Klik tombol  Aktifkan/Nonaktifkan Gemini di Colab untuk membuka dialog chat.

  5. Untuk mereferensikan data Anda, lakukan salah satu hal berikut:

    • Pilih satu atau beberapa tabel menggunakan pemilih tabel:

      1. Klik Tambahkan ke Gemini > Tabel BigQuery.
      2. Di jendela BigQuery tables, pilih satu atau beberapa tabel di project Anda. Anda dapat menelusuri tabel di seluruh project dan memfilter tabel menggunakan kotak penelusuran.
    • Sertakan nama tabel BigQuery secara langsung dalam perintah Anda. Misalnya: "Bantu saya melakukan analisis data eksploratif dan mendapatkan insight tentang data dalam tabel ini: PROJECT_ID:DATASET.TABLE."

      Ganti kode berikut:

      • PROJECT_ID: project ID Anda.
      • DATASET: nama set data yang berisi tabel yang Anda analisis.
      • TABLE: nama tabel yang Anda analisis.
    • Ketik @ untuk menelusuri tabel BigQuery di project saat ini.
    • Dalam perintah Anda, gunakan bahasa alami untuk mendeskripsikan tabel yang ingin Anda gunakan, dan Agen Ilmu Data akan mereferensikan tabel yang paling cocok dengan deskripsi Anda.

Menggunakan Agen Data Science

Untuk mulai menggunakan Agen Data Science Colab Enterprise, lakukan hal berikut:

  1. Di dialog chat Gemini, masukkan perintah, lalu klik  Kirim. Untuk mendapatkan ide perintah, tinjau Kemampuan Agen Data Science dan lihat Contoh perintah.

    Misalnya, Anda dapat memasukkan "Berikan analisis data yang telah saya upload."

    Jika Anda belum mengizinkan Agen Ilmu Data, dialog singkat akan muncul saat Colab Enterprise mengautentikasi Akun Google Anda ke Agen Ilmu Data.

  2. Gemini merespons perintah Anda. Respons dapat mencakup cuplikan kode untuk dijalankan, saran umum untuk project Anda, langkah berikutnya untuk mencapai tujuan Anda, atau informasi tentang masalah tertentu dalam data atau kode Anda.

    Setelah mengevaluasi respons, Anda dapat melakukan hal berikut:

    • Jika Gemini memberikan kode dalam responsnya, Anda dapat mengklik:
      • Terima untuk menambahkan kode ke notebook Anda.
      • Terima dan jalankan untuk menambahkan kode ke notebook dan menjalankan kode.
      • Batal untuk menghapus kode yang disarankan.
    • Ajukan pertanyaan lanjutan dan lanjutkan diskusi sesuai kebutuhan.
  3. Untuk menutup dialog Gemini, klik  Tutup.

Menonaktifkan Gemini di Colab Enterprise

Untuk menonaktifkan Gemini di Colab Enterprise untuk Google Cloud project, administrator harus menonaktifkan Gemini for Google Cloud API. Lihat Menonaktifkan layanan.

Untuk menonaktifkan Gemini di Colab Enterprise bagi pengguna tertentu, administrator harus mencabut peran Pengguna Gemini untuk Google Cloud (roles/cloudaicompanion.user) bagi pengguna tersebut. Lihat Mencabut satu peran IAM.

Contoh perintah

Bagian berikut menunjukkan contoh jenis perintah yang dapat Anda gunakan dengan Agen Ilmu Data.

Perintah Python

Kode Python dibuat secara default, kecuali jika Anda menggunakan kata kunci tertentu dalam perintah, seperti "BigQuery ML" atau "SQL".

  • Selidiki dan isi nilai yang hilang menggunakan algoritma machine learning k-Nearest Neighbors (KNN).
  • Buat plot gaji menurut tingkat pengalaman. Gunakan kolom experience_level untuk mengelompokkan gaji, dan buat diagram kotak untuk setiap grup yang menampilkan nilai dari kolom salary_in_usd.
  • Gunakan algoritma XGBoost untuk membuat model guna menentukan variabel class dari buah tertentu. Membagi data menjadi set data pelatihan dan pengujian untuk membuat model dan menentukan akurasi model. Buat matriks konfusi untuk menampilkan prediksi di antara setiap class, termasuk semua prediksi yang benar dan salah.
  • Prakiraan target_variable dari filename.csv untuk enam bulan ke depan.

Perintah SQL dan BigQuery ML

  • Buat dan evaluasi model klasifikasi di bigquery-public-data.ml_datasets.census_adult_income menggunakan BigQuery SQL.
  • Dengan SQL, prediksi traffic situs saya untuk bulan depan berdasarkan bigquery-public-data.google_analytics_sample.ga_sessions_*. Kemudian, buat plot untuk nilai historis dan hasil prediksinya.
  • Kelompokkan pelanggan yang serupa untuk membuat kampanye pemasaran yang menargetkan pasar menggunakan model KMeans dan fungsi SQL BigQuery ML. Gunakan tiga fitur untuk pengelompokan. Kemudian, visualisasikan hasilnya dengan membuat serangkaian diagram pencar 2D. Gunakan tabel bigquery-public-data.ml_datasets.census_adult_income.
  • Buat embedding teks di BigQuery ML menggunakan konten ulasan di bigquery-public-data.imdb.reviews.

Untuk mengetahui daftar model dan tugas machine learning yang didukung, lihat dokumentasi BigQuery ML.

Perintah DataFrame

  • Buat DataFrame pandas untuk data di project_id:dataset.table. Analisis data tersebut untuk mencari nilai null, lalu buat grafik distribusi untuk tiap kolom menggunakan jenis grafik yang sesuai. Gunakan violin plot untuk nilai yang terukur dan bar plot untuk kategori.
  • Baca filename.csv dan buat DataFrame. Jalankan analisis pada DataFrame untuk menentukan apa yang perlu dilakukan dengan nilai. Misalnya, apakah ada nilai yang hilang yang perlu diganti atau dihapus, atau apakah ada baris duplikat yang perlu ditangani. Gunakan file data untuk menentukan distribusi uang yang diinvestasikan dalam USD per lokasi kota. Buat grafik 20 hasil teratas menggunakan grafik batang yang menampilkan hasil dalam urutan menurun sebagai Lokasi versus Jumlah Rata-Rata Investasi (USD).
  • Buat dan evaluasi model klasifikasi pada project_id:dataset.table menggunakan BigQuery DataFrames.
  • Buat model perkiraan deret waktu di project_id:dataset.table menggunakan BigQuery DataFrames, dan visualisasikan evaluasi model.
  • Memvisualisasikan angka penjualan pada tahun lalu dalam tabel project_id:dataset.table BigQuery menggunakan BigQuery DataFrames.
  • Temukan fitur yang dapat memprediksi spesies penguin dengan paling baik dari tabel bigquery-public_data.ml_datasets.penguins menggunakan BigQuery DataFrames.

Perintah PySpark

  • Buat dan evaluasi model klasifikasi di project_id:dataset.table menggunakan Managed Service untuk Apache Spark.
  • Kelompokkan pelanggan serupa untuk membuat kampanye penargetan pasar, tetapi lakukan reduksi dimensi terlebih dahulu menggunakan model PCA. Gunakan PySpark untuk melakukannya di tabel project_id:dataset.table.

Region yang didukung

Untuk melihat wilayah yang didukung untuk Agen Data Science Colab Enterprise, lihat Lokasi.

Penagihan

Harga Agen Data Science didasarkan pada data input dan output Anda. Untuk informasi selengkapnya, lihat Harga agen di halaman harga BigQuery.

Kontrol Layanan VPC

Agen Ilmu Data mendukung Kontrol Layanan VPC. Jika Anda ingin menggunakan Agen Ilmu Data dalam perimeter layanan, lihat Menggunakan Kontrol Layanan VPC dengan Colab Enterprise.

Langkah berikutnya