Menggunakan Agen Data Science
Panduan ini menjelaskan cara menggunakan Agen Data Science di Colab Enterprise untuk membantu Anda melakukan tugas data science di notebook.
Pelajari cara dan waktu Gemini for Google Cloud menggunakan data Anda.
Dokumen ini ditujukan untuk data analyst, data scientist, dan data developer yang menangani Colab Enterprise. Dokumen ini mengasumsikan bahwa Anda memiliki pengetahuan tentang cara menulis kode di lingkungan notebook.
Kemampuan Agen Data Science
Agen Data Science dapat membantu Anda dalam tugas yang berkisar dari analisis data eksploratif hingga menghasilkan prediksi dan perkiraan machine learning. Anda dapat menggunakan Agen Data Science untuk:
- Pemrosesan data skala besar: Gunakan BigQuery ML, BigQuery DataFrames, atau Serverless for Apache Spark untuk melakukan pemrosesan data terdistribusi pada set data besar. Dengan demikian, Anda dapat membersihkan, mentransformasi, dan menganalisis data secara efisien yang terlalu besar untuk dimuat ke dalam memori di satu mesin.
- Membuat rencana: Buat dan ubah rencana untuk menyelesaikan tugas tertentu menggunakan alat umum seperti Python, SQL, Apache Spark, dan BigQuery DataFrames.
- Eksplorasi data: Jelajahi set data untuk memahami strukturnya, mengidentifikasi potensi masalah seperti nilai yang tidak ada dan anomali, serta memeriksa distribusi variabel utama.
- Pembersihan data: Bersihkan data Anda. Misalnya, hapus titik data yang merupakan anomali.
- Pengolahan data: Konversi fitur kategorik menjadi representasi numerik menggunakan teknik seperti enkode one-hot atau enkode label. Buat fitur baru untuk analisis.
- Analisis data: Analisis hubungan antarvariabel yang berbeda. Hitung korelasi antara fitur numerik dan jelajahi distribusi fitur kategorik. Cari pola dan tren dalam data.
- Visualisasi data: Buat visualisasi seperti histogram, diagram kotak, diagram pencar, dan diagram batang yang mewakili distribusi variabel individual dan hubungan antarvariabel.
- Rekayasa fitur: Rekayasa fitur baru dari set data yang telah dibersihkan.
- Pemisahan data: Pisahkan set data yang direkayasa menjadi set data pelatihan, validasi, dan pengujian.
- Pelatihan model: Latih model menggunakan data pelatihan di pandas
DataFrame, BigQuery DataFrames,
a PySpark DataFrame,
atau menggunakan pernyataan
CREATE MODELBigQuery ML dengan tabel BigQuery. - Pengoptimalan model: Optimalkan model menggunakan set validasi.
Jelajahi model alternatif seperti
DecisionTreeRegressordanRandomForestRegressor, lalu bandingkan performanya. - Evaluasi model: Evaluasi performa model pada set data pengujian menggunakan pandas DataFrame, BigQuery DataFrames, atau PySpark DataFrame. Anda juga dapat menilai kualitas model dan membandingkan model menggunakan BigQuery ML fungsi evaluasi model untuk model yang dilatih menggunakan BigQuery ML.
- Inferensi model: Lakukan inferensi dengan model terlatih BigQuery ML, model yang diimpor, dan model jarak jauh menggunakan fungsi inferensi BigQuery ML
. Anda juga dapat menggunakan
metode
model.predict()BigQuery DataFrames atau transformer PySpark untuk membuat prediksi.
Batasan
- Agen Data Science mendukung sumber data berikut:
- File CSV
- Tabel BigQuery
- Kode yang dihasilkan oleh Agen Data Science hanya berjalan di runtime notebook Anda.
- Notebook Anda harus berada di region yang didukung oleh Agen Data Science. Lihat Lokasi.
- Agen Data Science tidak didukung di project yang telah mengaktifkan Kontrol Layanan VPC.
- Saat pertama kali menjalankan Agen Data Science, Anda mungkin akan mengalami latensi sekitar lima hingga sepuluh menit. Hal ini hanya terjadi satu kali per project selama penyiapan awal.
- Penelusuran tabel BigQuery menggunakan fungsi
@mentionhanya terbatas pada project Anda saat ini. Gunakan pemilih tabel untuk menelusuri di seluruh project. - Fungsi
@mentionhanya menelusuri tabel BigQuery. Untuk menelusuri file data yang dapat Anda upload, gunakan simbol+. - PySpark di Agen Data Science hanya menghasilkan kode Apache Spark 4.0. DSA dapat membantu Anda mengupgrade ke Apache Spark 4.0, tetapi pengguna yang memerlukan versi Apache Spark sebelumnya tidak boleh menggunakan Agen Data Science.
Sebelum memulai
- Login keakun Anda. Google Cloud Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
Peran yang diperlukan
Untuk mendapatkan izin yang diperlukan untuk menggunakan Agen Data Science di Colab Enterprise, minta administrator untuk memberi Anda peran IAM Pengguna Colab Enterprise (roles/aiplatform.colabEnterpriseUser) di project tersebut.
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Mereferensikan data Anda
Untuk mengizinkan Agen Data Science Colab Enterprise mengakses dan menggunakan data Anda, Anda dapat mengupload file CSV atau mereferensikan tabel BigQuery.
File CSV
-
Di Google Cloud konsol, buka halaman Colab Enterprise Notebook saya.
-
Di menu Region, pilih region yang berisi notebook Anda.
-
Klik notebook yang ingin Anda buka.
-
Klik tombol Aktifkan/nonaktifkan Gemini di Colab untuk membuka dialog chat.
- Di dialog chat, klik Tambahkan file > Upload.
-
Jika perlu, izinkan Akun Google Anda.
Tunggu sebentar hingga Colab Enterprise memulai runtime dan mengaktifkan penjelajahan file.
- Telusuri lokasi file, lalu klik Buka.
-
Klik Oke untuk mengonfirmasi bahwa file runtime ini akan dihapus saat runtime dihapus.
File akan diupload ke panel File, dan akan muncul di jendela chat.
Tabel BigQuery
-
Di Google Cloud konsol, buka halaman Colab Enterprise Notebook saya.
-
Di menu Region, pilih region yang berisi notebook Anda.
-
Klik notebook yang ingin Anda buka.
-
Klik tombol Aktifkan/nonaktifkan Gemini di Colab untuk membuka dialog chat.
-
Untuk mereferensikan data Anda, lakukan salah satu hal berikut:
-
Pilih satu atau beberapa tabel menggunakan pemilih tabel:
- Klik Tambahkan ke Gemini > Tabel BigQuery.
- Di jendela Tabel BigQuery, pilih satu atau beberapa tabel di project Anda. Anda dapat menelusuri tabel di seluruh project dan memfilter tabel menggunakan kotak penelusuran.
-
Sertakan nama tabel BigQuery langsung dalam perintah Anda. Misalnya: "Bantu saya melakukan analisis data eksploratif data dan mendapatkan insight tentang data di tabel ini:
PROJECT_ID:DATASET.TABLE."Ganti kode berikut:
PROJECT_ID: project ID Anda.DATASET: nama set data yang berisi tabel yang Anda analisis.TABLE: nama tabel yang Anda analisis.
-
Ketik
@untuk menelusuri tabel BigQuery di project Anda saat ini.
-
Menggunakan Agen Data Science
Untuk mulai menggunakan Agen Data Science Colab Enterprise, lakukan hal berikut:
-
Di dialog chat Gemini, masukkan perintah dan klik Kirim. Untuk mendapatkan ide perintah, tinjau kemampuan Agen Data Science dan lihat Contoh perintah.
Misalnya, Anda dapat memasukkan "Berikan analisis data yang telah saya upload."
Jika Anda belum mengizinkan Agen Data Science, dialog singkat akan muncul saat Colab Enterprise mengautentikasi Akun Google Anda ke Agen Data Science.
-
Gemini akan merespons perintah Anda. Respons dapat mencakup cuplikan kode untuk dijalankan, saran umum untuk project Anda, langkah berikutnya untuk mencapai sasaran, atau informasi tentang masalah tertentu dalam data atau kode Anda.
Setelah mengevaluasi respons, Anda dapat melakukan hal berikut:
- Jika Gemini memberikan kode dalam responsnya, Anda dapat mengklik:
- Terima untuk menambahkan kode ke notebook Anda.
- Terima dan jalankan untuk menambahkan kode ke notebook Anda dan menjalankan kode.
- Batal untuk menghapus kode yang disarankan.
- Ajukan pertanyaan lanjutan dan lanjutkan diskusi sesuai kebutuhan.
- Jika Gemini memberikan kode dalam responsnya, Anda dapat mengklik:
-
Untuk menutup dialog Gemini, klik Tutup.
Menonaktifkan Gemini di Colab Enterprise
Untuk menonaktifkan Gemini di Colab Enterprise untuk suatu Google Cloud project, administrator harus menonaktifkan Gemini for Google Cloud API. Baca artikel Menonaktifkan layanan.
Untuk menonaktifkan Gemini di Colab Enterprise bagi pengguna tertentu, seorang
administrator harus mencabut peran
Pengguna Gemini for
Google Cloud (roles/cloudaicompanion.user) untuk pengguna tersebut. Lihat
Mencabut
satu peran IAM.
Contoh perintah
Bagian berikut menunjukkan contoh jenis perintah yang dapat Anda gunakan dengan Agen Data Science.
Perintah Python
Kode Python dihasilkan secara default kecuali jika Anda menggunakan kata kunci tertentu dalam perintah seperti "BigQuery ML" atau "SQL".
- Selidiki dan isi nilai yang tidak ada menggunakan algoritma machine learning k-Nearest Neighbors (KNN).
- Buat plot gaji berdasarkan tingkat pengalaman. Gunakan kolom
experience_leveluntuk mengelompokkan gaji, dan buat diagram kotak untuk setiap grup yang menampilkan nilai dari kolomsalary_in_usd. - Gunakan algoritma XGBoost untuk membuat model guna menentukan variabel
classdari buah tertentu. Pisahkan data ke dalam set data pelatihan dan pengujian untuk menghasilkan model dan menentukan akurasi model. Buat matriks konfusi untuk menampilkan prediksi di antara setiap class, termasuk semua prediksi yang benar dan salah. - Perkirakan
target_variabledarifilename.csvuntuk enam bulan ke depan.
Perintah SQL dan BigQuery ML
- Buat dan evaluasi model klasifikasi di
bigquery-public-data.ml_datasets.census_adult_incomemenggunakan BigQuery SQL. - Dengan menggunakan SQL, perkirakan traffic mendatang situs saya untuk bulan depan berdasarkan
bigquery-public-data.google_analytics_sample.ga_sessions_*. Kemudian, buat plot nilai historis dan perkiraan. - Kelompokkan pelanggan serupa untuk membuat kampanye pasar penargetan menggunakan model KMeans dan fungsi SQL BigQuery ML. Gunakan tiga fitur untuk pengelompokan. Kemudian, visualisasikan hasilnya dengan membuat serangkaian diagram pencar 2D. Gunakan tabel
bigquery-public-data.ml_datasets.census_adult_income. - Buat embedding teks di BigQuery ML menggunakan konten ulasan di
bigquery-public-data.imdb.reviews.
Untuk mengetahui daftar model dan tugas machine learning yang didukung, lihat dokumentasi BigQuery ML.
Perintah DataFrame
- Buat pandas DataFrame untuk data di
project_id:dataset.table. Analisis data untuk nilai null, lalu buat grafik distribusi setiap kolom menggunakan jenis grafik. Gunakan diagram biola untuk nilai terukur dan diagram batang untuk kategori. - Baca
filename.csvdan buat DataFrame. Jalankan analisis pada DataFrame untuk menentukan tindakan yang perlu dilakukan terhadap nilai. Misalnya, apakah ada nilai yang tidak ada yang perlu diganti atau dihapus, atau apakah ada baris duplikat yang perlu ditangani. Gunakan file data untuk menentukan distribusi uang yang diinvestasikan dalam USD per lokasi kota. Buat grafik 20 hasil teratas menggunakan diagram batang yang menampilkan hasil dalam urutan menurun sebagai Lokasi versus Jumlah Investasi Rata-Rata (USD). - Buat dan evaluasi model klasifikasi di
project_id:dataset.tablemenggunakan BigQuery DataFrames. - Buat model perkiraan deret waktu di
project_id:dataset.tablemenggunakan BigQuery DataFrames, dan visualisasikan evaluasi model. - Visualisasikan angka penjualan pada tahun lalu di BigQuery
tabel
project_id:dataset.tablemenggunakan BigQuery DataFrames. - Temukan fitur yang dapat memprediksi spesies penguin dengan lebih baik dari tabel
bigquery-public_data.ml_datasets.penguinsmenggunakan BigQuery DataFrames.
Perintah PySpark
- Buat dan evaluasi model klasifikasi di
project_id:dataset.tablemenggunakan Serverless for Apache Spark. - Kelompokkan pelanggan serupa untuk membuat kampanye pasar penargetan, tetapi lakukan pengurangan dimensi terlebih dahulu menggunakan model PCA. Gunakan PySpark untuk melakukannya
di tabel
project_id:dataset.table.
Region yang didukung
Untuk melihat region yang didukung untuk Agen Data Science Colab Enterprise, lihat Lokasi.
Penagihan
Selama Pratinjau, Anda hanya akan dikenai biaya untuk menjalankan kode di runtime notebook. Untuk mengetahui informasi selengkapnya, lihat Harga Colab Enterprise.
Langkah berikutnya
Untuk mengetahui informasi selengkapnya tentang cara menggunakan Agen Data Science dengan BigQuery, lihat Menggunakan Agen Data Science Colab Enterprise dengan BigQuery.
Baca ringkasan Gemini for Google Cloud overview.
Untuk mengetahui cara lainnya dalam menulis dan mengedit kode dengan bantuan Gemini, lihat hal berikut:
Pelajari cara Gemini for Google Cloud menggunakan data Anda.