Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Menggunakan Agen Data Science

Panduan ini menjelaskan cara menggunakan Agen Data Science di Colab Enterprise untuk membantu Anda melakukan tugas ilmu data di notebook.

Pelajari cara dan waktu Gemini untuk Google Cloud menggunakan data Anda.

Dokumen ini ditujukan untuk analis data, data scientist, dan developer data yang menggunakan Colab Enterprise. Panduan ini mengasumsikan bahwa Anda memiliki pengetahuan tentang cara menulis kode di lingkungan notebook.

Kemampuan Agen Data Science

Agen Data Science dapat membantu Anda menyelesaikan tugas mulai dari analisis data eksploratif hingga membuat prediksi dan perkiraan machine learning. Anda dapat menggunakan Agen Data Science untuk:

Pemrosesan data skala besar: Gunakan BigQuery ML, BigQuery DataFrames, atau Managed Service for Apache Spark untuk melakukan pemrosesan data terdistribusi pada set data besar. Dengan demikian, Anda dapat membersihkan, mentransformasi, dan menganalisis data yang terlalu besar untuk dimuat ke dalam memori di satu mesin secara efisien.
Membuat rencana: Buat dan ubah rencana untuk menyelesaikan tugas tertentu menggunakan alat umum seperti Python, SQL, Apache Spark, dan DataFrame BigQuery.
Eksplorasi data: Jelajahi set data untuk memahami struktur, mengidentifikasi potensi masalah seperti nilai yang hilang dan pencilan, serta memeriksa distribusi variabel utama.
Pembersihan data: Bersihkan data Anda. Misalnya, hapus titik data yang merupakan anomali.
Penyiapan data: Mengonversi fitur kategorik menjadi representasi numerik menggunakan teknik seperti enkode one-hot atau enkode label. Buat fitur baru untuk analisis.
Analisis data: Menganalisis hubungan antara berbagai variabel. Menghitung korelasi antara fitur numerik dan menjelajahi distribusi fitur kategoris. Cari pola dan tren dalam data.
Visualisasi data: Buat visualisasi seperti histogram, diagram kotak garis, diagram sebar, dan diagram batang yang merepresentasikan distribusi variabel individual dan hubungan di antara variabel tersebut.
Rekayasa fitur: Merekayasa fitur baru dari set data yang sudah dibersihkan.
Pemisahan data: Memisahkan set data yang telah direkayasa menjadi set data pelatihan, validasi, dan pengujian.
Pelatihan model: Latih model menggunakan data pelatihan dalam pandas DataFrame, BigQuery DataFrames, PySpark DataFrame, atau menggunakan pernyataan CREATE MODEL BigQuery ML dengan tabel BigQuery.
Pengoptimalan model: Mengoptimalkan model menggunakan set validasi. Pelajari model alternatif seperti DecisionTreeRegressor dan RandomForestRegressor serta bandingkan performanya.
Evaluasi model: Mengevaluasi performa model pada set data pengujian menggunakan DataFrame pandas, BigQuery DataFrames, atau DataFrame PySpark. Anda juga dapat menilai kualitas model dan membandingkan model menggunakan BigQuery ML fungsi evaluasi model untuk model yang dilatih menggunakan BigQuery ML.
Inferensi model: Lakukan inferensi dengan model terlatih BigQuery ML, model yang diimpor, dan model jarak jauh menggunakan fungsi inferensi BigQuery ML. Anda juga dapat menggunakan metode model.predict() BigQuery DataFrames atau transformer PySpark untuk membuat prediksi.

Batasan

Agen Data Science mendukung sumber data berikut:
- File CSV
- Tabel BigQuery
Kode yang dihasilkan oleh Agen Data Science hanya berjalan di runtime notebook Anda.
Notebook Anda harus berada di region yang didukung oleh Agen Data Science. Lihat Lokasi.
Saat pertama kali menjalankan Agen Ilmu Data, Anda mungkin mengalami beberapa latensi sekitar lima hingga sepuluh menit. Hal ini hanya terjadi sekali per project selama penyiapan awal.
Penelusuran tabel BigQuery menggunakan fungsi @mention dibatasi untuk project saat ini. Gunakan pemilih tabel untuk menelusuri seluruh project.
Fungsi @mention hanya menelusuri tabel BigQuery. Untuk menelusuri file data yang dapat Anda upload, gunakan simbol +.
PySpark di Agen Data Science hanya menghasilkan kode Apache Spark 4.0. Agen Data Science dapat membantu Anda mengupgrade ke Apache Spark 4.0, tetapi pengguna yang memerlukan Apache Spark versi sebelumnya tidak boleh menggunakan Agen Data Science.

Sebelum memulai

Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Agent Platform, Dataform, and Compute Engine APIs.

Roles required to enable APIs

To enable APIs, you need the serviceusage.services.enable permission. If you created the project, then you likely already have this permission through the Owner role (roles/owner). Otherwise, you can get this permission through the Service Usage Admin role (roles/serviceusage.serviceUsageAdmin). Learn how to grant roles.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Agent Platform, Dataform, and Compute Engine APIs.

Roles required to enable APIs

Enable the APIs

Peran yang diperlukan

Untuk mendapatkan izin yang diperlukan guna menggunakan Agen Ilmu Data di Colab Enterprise, minta administrator Anda untuk memberi Anda peran IAM Colab Enterprise User (roles/aiplatform.colabEnterpriseUser) di project. Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Satu atau beberapa peran yang diperlukan mencakup izin dataform.repositories.list. permission. Pengguna yang diberi izin dataform.repositories.list atau peran Code Creator (roles/dataform.codeCreator) dalam suatu project dapat mencantumkan nama aset kode dalam project tersebut menggunakan Dataform API atau antarmuka command line (CLI) Dataform. Pengguna non-administrator yang menggunakan BigQuery Studio hanya dapat melihat aset kode yang mereka buat atau yang dibagikan kepada mereka.

Mereferensikan data Anda

Untuk mengizinkan Agen Data Science Colab Enterprise mengakses dan memproses data Anda, Anda dapat mengupload file CSV atau merujuk tabel BigQuery.

File CSV

Di konsol Google Cloud , buka halaman Notebook saya Colab Enterprise.

Buka Notebook saya
Di menu Region, pilih region yang berisi notebook Anda.
Klik notebook yang ingin Anda buka.
Klik tombol Aktifkan/Nonaktifkan Gemini di Colab untuk membuka dialog chat.

Catatan: Anda dapat memindahkan dialog chat ke panel terpisah di luar notebook dengan mengklik tombol Pindahkan ke panel.
Di dialog chat, klik Tambahkan file > Upload.
Jika perlu, beri otorisasi Akun Google Anda.

Tunggu beberapa saat hingga Colab Enterprise memulai runtime dan mengaktifkan penjelajahan file.
Cari lokasi file, lalu klik Buka.
Klik OK untuk mengonfirmasi bahwa file runtime ini akan dihapus saat runtime dihapus.

File diupload ke panel File, dan muncul di jendela chat.

Tabel BigQuery

Di konsol Google Cloud , buka halaman Notebook saya Colab Enterprise.

Buka Notebook saya
Di menu Region, pilih region yang berisi notebook Anda.
Klik notebook yang ingin Anda buka.
Klik tombol Aktifkan/Nonaktifkan Gemini di Colab untuk membuka dialog chat.

Catatan: Anda dapat memindahkan dialog chat ke panel terpisah di luar notebook dengan mengklik tombol Pindahkan ke panel.
Untuk mereferensikan data Anda, lakukan salah satu hal berikut:
- Pilih satu atau beberapa tabel menggunakan pemilih tabel:
  1. Klik Tambahkan ke Gemini > Tabel BigQuery.
  2. Di jendela BigQuery tables, pilih satu atau beberapa tabel di project Anda. Anda dapat menelusuri tabel di seluruh project dan memfilter tabel menggunakan kotak penelusuran.
- Sertakan nama tabel BigQuery secara langsung dalam perintah Anda. Misalnya: "Bantu saya melakukan analisis data eksploratif dan mendapatkan insight tentang data dalam tabel ini: PROJECT_ID:DATASET.TABLE."
  
  Ganti kode berikut:
  - PROJECT_ID: project ID Anda.
  - DATASET: nama set data yang berisi tabel yang Anda analisis.
  - TABLE: nama tabel yang Anda analisis.
- Ketik @ untuk menelusuri tabel BigQuery di project saat ini.
- Dalam perintah Anda, gunakan bahasa alami untuk mendeskripsikan tabel yang ingin Anda gunakan, dan Agen Ilmu Data akan mereferensikan tabel yang paling cocok dengan deskripsi Anda.

Menggunakan Agen Data Science

Untuk mulai menggunakan Agen Data Science Colab Enterprise, lakukan hal berikut:

Di dialog chat Gemini, masukkan perintah, lalu klik Kirim. Untuk mendapatkan ide perintah, tinjau Kemampuan Agen Data Science dan lihat Contoh perintah.

Misalnya, Anda dapat memasukkan "Berikan analisis data yang telah saya upload."

Jika Anda belum mengizinkan Agen Ilmu Data, dialog singkat akan muncul saat Colab Enterprise mengautentikasi Akun Google Anda ke Agen Ilmu Data.
Gemini merespons perintah Anda. Respons dapat mencakup cuplikan kode untuk dijalankan, saran umum untuk project Anda, langkah berikutnya untuk mencapai tujuan Anda, atau informasi tentang masalah tertentu dalam data atau kode Anda.

Setelah mengevaluasi respons, Anda dapat melakukan hal berikut:
- Jika Gemini memberikan kode dalam responsnya, Anda dapat mengklik:
  - Terima untuk menambahkan kode ke notebook Anda.
  - Terima dan jalankan untuk menambahkan kode ke notebook dan menjalankan kode.
  - Batal untuk menghapus kode yang disarankan.
- Ajukan pertanyaan lanjutan dan lanjutkan diskusi sesuai kebutuhan.
Untuk menutup dialog Gemini, klik Tutup.

Menonaktifkan Gemini di Colab Enterprise

Untuk menonaktifkan Gemini di Colab Enterprise untuk Google Cloud project, administrator harus menonaktifkan Gemini for Google Cloud API. Lihat Menonaktifkan layanan.

Untuk menonaktifkan Gemini di Colab Enterprise bagi pengguna tertentu, administrator harus mencabut peran Pengguna Gemini untuk Google Cloud (roles/cloudaicompanion.user) bagi pengguna tersebut. Lihat Mencabut satu peran IAM.

Contoh perintah

Bagian berikut menunjukkan contoh jenis perintah yang dapat Anda gunakan dengan Agen Ilmu Data.

Perintah Python

Kode Python dibuat secara default, kecuali jika Anda menggunakan kata kunci tertentu dalam perintah, seperti "BigQuery ML" atau "SQL".

Selidiki dan isi nilai yang hilang menggunakan algoritma machine learning k-Nearest Neighbors (KNN).
Buat plot gaji menurut tingkat pengalaman. Gunakan kolom experience_level untuk mengelompokkan gaji, dan buat diagram kotak untuk setiap grup yang menampilkan nilai dari kolom salary_in_usd.
Gunakan algoritma XGBoost untuk membuat model guna menentukan variabel class dari buah tertentu. Membagi data menjadi set data pelatihan dan pengujian untuk membuat model dan menentukan akurasi model. Buat matriks konfusi untuk menampilkan prediksi di antara setiap class, termasuk semua prediksi yang benar dan salah.
Prakiraan target_variable dari filename.csv untuk enam bulan ke depan.

Perintah SQL dan BigQuery ML

Buat dan evaluasi model klasifikasi di bigquery-public-data.ml_datasets.census_adult_income menggunakan BigQuery SQL.
Dengan SQL, prediksi traffic situs saya untuk bulan depan berdasarkan bigquery-public-data.google_analytics_sample.ga_sessions_*. Kemudian, buat plot untuk nilai historis dan hasil prediksinya.
Kelompokkan pelanggan yang serupa untuk membuat kampanye pemasaran yang menargetkan pasar menggunakan model KMeans dan fungsi SQL BigQuery ML. Gunakan tiga fitur untuk pengelompokan. Kemudian, visualisasikan hasilnya dengan membuat serangkaian diagram pencar 2D. Gunakan tabel bigquery-public-data.ml_datasets.census_adult_income.
Buat embedding teks di BigQuery ML menggunakan konten ulasan di bigquery-public-data.imdb.reviews.

Untuk mengetahui daftar model dan tugas machine learning yang didukung, lihat dokumentasi BigQuery ML.

Perintah DataFrame

Buat DataFrame pandas untuk data di project_id:dataset.table. Analisis data tersebut untuk mencari nilai null, lalu buat grafik distribusi untuk tiap kolom menggunakan jenis grafik yang sesuai. Gunakan violin plot untuk nilai yang terukur dan bar plot untuk kategori.
Baca filename.csv dan buat DataFrame. Jalankan analisis pada DataFrame untuk menentukan apa yang perlu dilakukan dengan nilai. Misalnya, apakah ada nilai yang hilang yang perlu diganti atau dihapus, atau apakah ada baris duplikat yang perlu ditangani. Gunakan file data untuk menentukan distribusi uang yang diinvestasikan dalam USD per lokasi kota. Buat grafik 20 hasil teratas menggunakan grafik batang yang menampilkan hasil dalam urutan menurun sebagai Lokasi versus Jumlah Rata-Rata Investasi (USD).
Buat dan evaluasi model klasifikasi pada project_id:dataset.table menggunakan BigQuery DataFrames.
Buat model perkiraan deret waktu di project_id:dataset.table menggunakan BigQuery DataFrames, dan visualisasikan evaluasi model.
Memvisualisasikan angka penjualan pada tahun lalu dalam tabel project_id:dataset.table BigQuery menggunakan BigQuery DataFrames.
Temukan fitur yang dapat memprediksi spesies penguin dengan paling baik dari tabel bigquery-public_data.ml_datasets.penguins menggunakan BigQuery DataFrames.

Perintah PySpark

Buat dan evaluasi model klasifikasi di project_id:dataset.table menggunakan Managed Service untuk Apache Spark.
Kelompokkan pelanggan serupa untuk membuat kampanye penargetan pasar, tetapi lakukan reduksi dimensi terlebih dahulu menggunakan model PCA. Gunakan PySpark untuk melakukannya di tabel project_id:dataset.table.

Region yang didukung

Untuk melihat wilayah yang didukung untuk Agen Data Science Colab Enterprise, lihat Lokasi.

Penagihan

Harga Agen Data Science didasarkan pada data input dan output Anda. Untuk informasi selengkapnya, lihat Harga agen di halaman harga BigQuery.

Kontrol Layanan VPC

Agen Ilmu Data mendukung Kontrol Layanan VPC. Jika Anda ingin menggunakan Agen Ilmu Data dalam perimeter layanan, lihat Menggunakan Kontrol Layanan VPC dengan Colab Enterprise.

Langkah berikutnya

Untuk mengetahui informasi selengkapnya tentang cara menggunakan Agen Data Science dengan BigQuery, lihat Menggunakan Agen Data Science Colab Enterprise dengan BigQuery.
Baca ringkasan Gemini untuk Google Cloud Google Cloud.
Untuk mengetahui cara lain menulis dan mengedit kode dengan bantuan Gemini, lihat artikel berikut:
Pelajari cara Gemini untuk Google Cloud menggunakan data Anda.