Tutorial ini menunjukkan cara membuat model machine learning (ML) menggunakan perintah bahasa alami dengan Agen Ilmu Data Colab Enterprise.
Dalam tutorial ini, Anda akan membuat model ML untuk memperkirakan penjualan minuman keras menggunakan set data publik penjualan retail minuman keras Iowa. Agen yang didukung AI memungkinkan Anda menggunakan perintah dalam bahasa alami untuk menulis, menjelaskan, dan memecahkan masalah kode langsung dalam notebook untuk mempercepat alur kerja ilmu data Anda.
Tutorial ini ditujukan untuk praktisi data.
Tujuan
Dalam tutorial ini, Anda akan mempelajari cara menggunakan Agen Data Science untuk melakukan tugas berikut:
- Lakukan analisis data eksploratif (EDA) pada set data publik penjualan retail minuman beralkohol di Iowa untuk memahami distribusi data, memeriksa nilai yang tidak ada, dan memverifikasi kualitas data secara keseluruhan.
- Temukan toko yang menjual alkohol paling banyak dalam galon di semua produk.
- Bangun, latih, dan evaluasi model yang memperkirakan penjualan minuman beralkohol menggunakan BigQuery ML.
- Buat dan ringkas insight utama dan performa model.
Biaya
Dalam dokumen ini, Anda akan menggunakan komponen Google Cloudyang dapat ditagih berikut:
Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda,
gunakan kalkulator harga.
Setelah menyelesaikan tugas yang dijelaskan dalam dokumen ini, Anda dapat menghindari penagihan berkelanjutan dengan menghapus resource yang Anda buat. Untuk mengetahui informasi selengkapnya, baca bagian Pembersihan.
Sebelum memulai
- Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Aktifkan BigQuery, Gemini for Google Cloud, Dataform, dan Compute Engine API.
Peran yang diperlukan untuk mengaktifkan API
Untuk mengaktifkan API, Anda memerlukan peran IAM Service Usage Admin (
roles/serviceusage.serviceUsageAdmin), yang berisi izinserviceusage.services.enable. Pelajari cara memberikan peran.Untuk project baru, BigQuery API diaktifkan secara otomatis.
Peran yang diperlukan
Jika Anda membuat project baru, Anda memiliki semua izin yang diperlukan untuk menyelesaikan tutorial ini. Jika Anda menggunakan project yang ada, minta administrator untuk memberi Anda peran berikut.
Izin untuk membuat dan menjalankan notebook
Untuk mendapatkan izin yang diperlukan untuk membuat dan menjalankan notebook, minta administrator Anda untuk memberi Anda peran IAM BigQuery Studio User (roles/bigquery.studioUser) di project.
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Untuk melihat izin yang diperlukan untuk membuat dan menjalankan notebook, lihat langkah-langkah penyiapan di halaman Membuat notebook.
Untuk mengetahui informasi selengkapnya tentang Identity and Access Management (IAM) BigQuery, lihat Kontrol akses dengan IAM.
Membuat notebook Colab Enterprise dan terhubung ke runtime
Notebook Colab Enterprise adalah aset kode BigQuery Studio yang didukung oleh Dataform. Anda dapat menggunakan notebook untuk menyelesaikan alur kerja analisis dan ML dengan menggunakan SQL, Python, serta paket dan API umum lainnya.
Untuk membuat notebook baru dan menghubungkannya ke runtime default, ikuti langkah-langkah berikut:
Buka halaman BigQuery.
Di panel kiri, luaskan project Anda, lalu klik Notebooks.
Klik Notebook baru > Notebook kosong.
Klik Simpan.
Untuk melihat notebook baru, klik tab Notebook. Anda mungkin perlu mengklik muat ulang Muat ulang .
Untuk notebook Anda yang belum diberi judul, klik more_vert Buka tindakan, lalu pilih Ganti nama.
Untuk Notebook name, masukkan
predict_liquor_sales, lalu klik Rename.Klik tab
predict_liquor_sales.Di toolbar notebook, klik Connect untuk menghubungkan notebook Anda ke lingkungan runtime default.
Menggunakan Agen Data Science untuk menganalisis data
Agen Data Science adalah asisten yang didukung Gemini yang dapat menulis, menjelaskan, dan memecahkan masalah kode langsung di dalam notebook Anda. Alat ini dapat membantu Anda dalam tugas-tugas mulai dari analisis data eksploratif hingga menghasilkan prediksi dan perkiraan machine learning, termasuk yang berikut ini:
- Membuat rencana. Buat rencana langkah demi langkah untuk menyelesaikan masalah ilmu data.
- Eksplorasi dan pembersihan data. Identifikasi nilai yang hilang, pencilan, dan visualisasikan distribusi.
- Rekayasa fitur. Mengonversi fitur kategoris dan membuat fitur baru.
- Pelatihan dan evaluasi model. Latih model seperti Regresi Linear atau Random Forest dan bandingkan performanya.
Dalam tutorial ini, Anda akan menggunakan Agen Data Science untuk menganalisis data dalam set data publik penjualan retail minuman keras Iowa, dan untuk membuat model yang memperkirakan penjualan minuman keras.
Untuk menggunakan Agen Ilmu Data guna menganalisis data, ikuti langkah-langkah berikut:
Di notebook
predict_liquor_sales, jika jendela chat Gemini tidak terbuka, klik spark Toggle Gemini in Colab untuk membuka dialog chat.Di antarmuka chat, masukkan perintah berikut:
Analyze the liquor sales data from bigquery-public-data.iowa_liquor_sales.sales by performing exploratory data analysis. Find the stores that sold the most gallons of alcohol across all products. Then, create a model that predicts liquor sales by store by using BigQuery ML. Visualize the results, evaluate the model, summarize the model's performance, and provide any key insights.Pastikan model disetel ke Gemini 3.0 Flash.
Klik Kirim.
Tinjau rencana yang dibuat oleh agen. Rencananya akan terlihat mirip dengan berikut.
"Saya telah menganalisis permintaan data penjualan minuman beralkohol di Iowa dan membuat rencana strategis. Karena data disimpan di BigQuery dan Anda telah menentukan penggunaan BigQuery ML, kita akan mulai dengan eksplorasi data, mengidentifikasi toko dengan performa terbaik, lalu membuat model regresi untuk memprediksi penjualan. Berikut rencana langkah demi langkahnya:
- Eksplorasi dan Pembuatan Profil Data: Lakukan eksplorasi awal pada tabel 'bigquery-public-data.iowa_liquor_sales.sales' untuk memahami distribusi data, memeriksa nilai yang hilang, dan memverifikasi kualitas data untuk kolom utama seperti informasi toko, volume yang terjual, dan nilai penjualan.
- Mengidentifikasi Toko Teratas berdasarkan Volume: Gabungkan total galon alkohol yang terjual oleh setiap toko di semua produk dan identifikasi toko dengan performa terbaik.
- Persiapan Data: Siapkan data pelatihan dengan menggabungkan penjualan minuman keras menurut toko dan memilih fitur yang relevan untuk model prediksi.
- Pengembangan Model: Latih model regresi menggunakan BigQuery ML untuk memprediksi penjualan minuman keras untuk setiap toko.
- Evaluasi Model: Evaluasi performa model terlatih menggunakan metrik regresi standar.
- Prediksi Model: Membuat prediksi untuk penjualan minuman keras menggunakan model terlatih.
- Visualisasi: Buat diagram sebar yang membandingkan prediksi penjualan minuman keras dengan nilai sebenarnya untuk menilai akurasi model secara visual.
- Selesaikan tugas: Merangkum performa model, memberikan insight utama tentang penjualan di toko, dan menyimpulkan analisis."
Setelah Anda meninjau rencana, klik Setujui dan jalankan. Agen membuat sub-tugas pertama: menjelajahi dan membuat profil data. Agen akan dijeda hingga Anda meninjau dan menyetujui kode. Jika agen sedang menunggu input pengguna, sel yang dihasilkan akan dirender dengan latar belakang hijau.
Tinjau sel kode yang dihasilkan dan alasan yang diberikan oleh agen.
Klik Setujui dan jalankan. Jika agen mengalami masalah dengan pendekatannya, agen akan memberikan alasan tentang cara memperbaiki masalah tersebut dan meminta Anda untuk menerima kode yang diubah.
Tinjau output di sel kode.
Di bawah hasil, agen membuat sel baru untuk menyelesaikan sub-tugas berikutnya: menemukan toko dengan penjualan minuman keras tertinggi.
Tinjau kode SQL yang dihasilkan yang mengkueri data untuk toko teratas berdasarkan galon alkohol yang terjual. Anda dapat memeriksa alasan agen dengan melihat sel teks Alasan di atas kode. Jika Anda yakin bahwa kode sudah benar, klik Terima dan jalankan.
Periksa hasil kueri di output sel. Hasilnya akan mirip dengan berikut ini:
Tinjau kode dan alasan yang dihasilkan oleh agen untuk sub-tugas berikutnya: menyiapkan data untuk pelatihan model.
Setelah Anda memverifikasi bahwa kode SQL sudah benar, klik Accept and run.
Tinjau output di sel kode. Anda akan melihat pesan yang mirip dengan
JOB ID 123456 successfully executed.Tinjau kode dan alasan yang dihasilkan oleh agen untuk sub-tugas berikutnya: melatih model regresi.
Setelah Anda melihat kode dan alasan, klik Terima dan jalankan.
Tinjau output di sel kode. Anda akan melihat pesan yang mirip dengan
JOB ID 123456 successfully executed.Tinjau kode dan alasan yang dihasilkan oleh agen untuk sub-tugas berikutnya: evaluasi model.
Setelah Anda melihat kode dan alasan, klik Terima dan jalankan.
Tinjau output di sel kode.
Tinjau kode dan alasan yang dihasilkan oleh agen untuk sub-tugas berikutnya: membuat prediksi.
Setelah Anda melihat kode dan alasan, klik Terima dan jalankan.
Tinjau output di sel kode. Anda akan melihat pesan yang mirip dengan
JOB ID 123456 successfully executed.Setelah kueri berjalan, agen akan membuat sel kode untuk sub-tugas berikutnya: memvisualisasikan data.
Setelah Anda melihat kode dan alasan, klik Terima dan jalankan.
Tinjau output di sel kode. Anda akan melihat diagram yang memetakan penjualan minuman keras aktual versus yang diprediksi. Diagramnya akan terlihat mirip seperti berikut:
Setelah diagram dibuat, agen akan membuat ringkasan hasil dengan temuan dan insight utama.
Setelah Anda meninjau ringkasan, klik Setuju untuk menyelesaikan rencana.
Pembersihan
Agar tidak perlu membayar biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource.
Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan dalam tutorial ini, Anda dapat menghapus notebook yang Anda buat. Untuk menghapus notebook Anda, ikuti langkah-langkah berikut:Buka halaman BigQuery.
Di panel kiri, luaskan project Anda, lalu klik Notebooks.
Untuk notebook
predict_liquor_salesAnda, klik more_vert Buka tindakan, lalu pilih Hapus.Klik Hapus untuk menghapus notebook.
Langkah berikutnya
- Pelajari kemampuan Agen Ilmu Data.
- Baca selengkapnya tentang notebook Colab Enterprise di BigQuery.
- Baca dokumentasi tentang Gemini di BigQuery.