Pelajari cara melatih model AI dan ML di ekstensi Google Cloud Data Agent Kit untuk Visual Studio Code.
Dalam panduan memulai ini, Anda menggunakan template sesi dan notebook Jupyter contoh untuk memprediksi jumlah tip taksi New York City. Dengan menggunakan kernel Jupyter jarak jauh dengan PySpark, Anda mencoba berbagai model seperti regresi linear, hutan acak, dan XGBoost. Proses ini memungkinkan Anda melakukan pelatihan dan inferensi terdistribusi. Proses ini menunjukkan skalabilitas di beberapa mesin menggunakan Spark ML dan library XGBoost.
Meskipun tidak dibahas dalam panduan memulai ini, ada beberapa cara untuk melatih model AI dan ML menggunakan ekstensi Google Cloud Data Agent Kit untuk Visual Studio Code:
- Jika set data pelatihan Anda besar atau Anda menginginkan kemampuan pelatihan terdistribusi yang ditawarkan Apache Spark, Anda dapat menggunakan notebook Spark dengan kernel jarak jauh.
- Jika set data Anda ada di BigQuery dan BigQuery ML mendukung kasus penggunaan Anda, Anda dapat menggunakan notebook BigQuery DataFrames.
- Jika set data Anda kecil dan Anda ingin melatih model secara lokal, Anda dapat menggunakan notebook Python.
Sebelum memulai
Sebelum memulai, lakukan hal berikut:
- Instal ekstensi.
- Konfigurasi setelan ekstensi.
- Tinjau panduan di Menemukan dan menjelajahi data.
Membuat template runtime Spark
Template Runtime Spark Tanpa Server memungkinkan Anda memulai sesi Apache Spark dengan serangkaian konfigurasi tertentu. Untuk membuat template Runtime Tanpa Server baru, selesaikan langkah-langkah berikut:
- Di panel aktivitas IDE, klik ikon Google Cloud Data Agent Kit.
- Di menu Google Cloud Data Agent Kit, luaskan Apache Spark.
- Luaskan Tanpa Server , lalu klik + Buat runtime tanpa server. Formulir pembuatan Runtime Tanpa Server akan muncul.
- Di kolom Nama Tampilan, masukkan
ai-ml-tutorial. - Buka bagian Ppenskalaan Otomatis.
- Tetapkan
spark.dynamicAllocation.enabledke false di menu drop-down. Setelan ini diperlukan agar XGBoost dapat berfungsi dengan Apache Spark. - Biarkan semua kolom lainnya ditetapkan ke nilai default.
- Klik Kirim.
Membuat notebook baru
Selanjutnya, buat notebook Spark baru:
- Di bagian Apache Spark di tab Google Cloud Data Agent Kit, klik + Spark Notebook Baru.
- Pilih Kernel Jarak Jauh untuk jenis kernel.
- Klik Mulai dengan notebook contoh.
- Dalam daftar contoh, pilih Data Science with PySpark and Distributed XGBoost. Notebook Jupyter tanpa judul akan muncul.
Melatih model Anda
- Di tab notebook, klik Jalankan Semua. Pemilih kernel akan meminta Anda memilih kernel untuk menjalankan notebook.
- Klik Pilih Kernel Lain.
- Klik Kernel Spark Jarak Jauh.
- Pilih ai-ml-tutorial di Spark Tanpa Server, template Runtime yang Anda buat sebelumnya.
Anda akan melihat notifikasi berikut saat sistem membuat sesi Spark Tanpa Server: Connecting to kernel: ai-ml-tutorial on Serverless Spark. Saat notebook terhubung ke kernel PySpark jarak jauh, eksekusi akan dimulai di sel pertama. Proses ini memerlukan waktu sekitar dua hingga tiga menit.
Memeriksa sesi Spark
- Di tab Google Cloud Data Agent Kit, di bagian Apache Spark, luaskan template Runtime ai-ml-tutorial. IDE akan menampilkan daftar sesi interaktif yang telah Anda buat dengan template runtime ini.
- Temukan sesi yang dibuat sistem dengan menjalankan notebook di bagian atas daftar. Klik sesi untuk melihat detailnya. Anda dapat meninjau konfigurasi sesi dan resource yang digunakan sistem untuk menjalankan notebook.
Pembersihan
Setelah berhasil menjalankan notebook, lakukan langkah-langkah pembersihan berikut.
- Di tab Google Cloud Data Agent Kit, di bagian Apache Spark, klik kanan Tanpa Server , lalu pilih Daftar Runtime Tanpa Server. Daftar Runtime Tanpa Server akan muncul.
- Klik menu Tindakan untuk
ai-ml-tutorialguna mencantumkan semua Sesi Interaktif yang dibuat sistem dari template Anda. - Di bagian Tindakan, klik Hapus.
- Kembali ke jendela Runtime Tanpa Server.
- Di bagian Tindakan untuk
ai-ml-tutorial, klik Hapus. - Klik Konfirmasi untuk menghapus template yang Anda buat untuk tutorial ini.