Melatih model AI dan ML

Pelajari cara melatih model AI dan ML di ekstensi Google Cloud Data Agent Kit untuk Visual Studio Code.

Dalam panduan memulai ini, Anda akan menggunakan template sesi dan notebook Jupyter contoh untuk memprediksi jumlah tip taksi di New York City. Dengan menggunakan kernel Jupyter jarak jauh dengan PySpark, Anda dapat mencoba berbagai model seperti regresi linear, hutan acak, dan XGBoost. Proses ini memungkinkan Anda melakukan pelatihan dan inferensi terdistribusi. Notebook ini menunjukkan skalabilitas di beberapa mesin menggunakan Spark ML dan library XGBoost.

Meskipun tidak dibahas dalam panduan memulai ini, ada beberapa cara untuk melatih model AI dan ML menggunakan ekstensi Google Cloud Data Agent Kit untuk Visual Studio Code:

  • Jika set data pelatihan Anda berukuran besar atau Anda menginginkan kemampuan pelatihan terdistribusi yang ditawarkan Apache Spark, Anda dapat menggunakan notebook Spark dengan kernel jarak jauh.
  • Jika set data Anda ada di BigQuery dan BigQuery ML mendukung kasus penggunaan Anda, Anda dapat menggunakan notebook BigQuery DataFrames.
  • Jika set data Anda kecil dan Anda ingin melatih model secara lokal, Anda dapat menggunakan notebook Python.

Membuat template runtime Spark

Template Serverless Spark Runtime memungkinkan Anda memulai sesi Apache Spark dengan sekumpulan konfigurasi tertentu. Untuk membuat template Serverless Runtime baru, selesaikan langkah-langkah berikut:

  1. Di panel aktivitas IDE, klik ikon Google Cloud Data Agent Kit.
  2. Di menu Google Cloud Data Agent Kit, luaskan Apache Spark.
  3. Luaskan Serverless, lalu klik + Create serverless runtimes. Formulir pembuatan Serverless Runtime akan muncul.
  4. Di kolom Nama Tampilan, masukkan ai-ml-tutorial.
  5. Buka bagian Auto Scaling.
  6. Tetapkan spark.dynamicAllocation.enabled ke salah di menu drop-down. Setelan ini diperlukan agar XGBoost dapat berfungsi dengan Apache Spark.
  7. Biarkan semua kolom lain disetel ke default.
  8. Klik Kirim.

Buat notebook baru

Selanjutnya, buat notebook Spark baru:

  1. Di bagian Apache Spark di tab Google Cloud Data Agent Kit, klik + New Spark Notebook.
  2. Pilih Remote Kernel untuk jenis kernel.
  3. Klik Mulai dengan notebook contoh.
  4. Dalam daftar contoh, pilih Data Science with PySpark and Distributed XGBoost. Notebook Jupyter tanpa judul akan muncul.

Melatih model Anda

  1. Di tab notebook, klik Run All. Pemilih kernel akan meminta Anda memilih kernel untuk menjalankan notebook.
  2. Klik Select Another Kernel.
  3. Klik Remote Spark Kernels.
  4. Pilih ai-ml-tutorial on Serverless Spark, template Runtime yang Anda buat sebelumnya.

Anda akan melihat notifikasi berikut saat sistem membuat sesi Serverless Spark Anda: Connecting to kernel: ai-ml-tutorial on Serverless Spark. Saat notebook terhubung ke kernel PySpark jarak jauh, eksekusi dimulai di sel pertama. Proses ini memerlukan waktu sekitar dua hingga tiga menit.

Memeriksa sesi Spark

  1. Di tab Google Cloud Data Agent Kit, di bagian Apache Spark, perluas template Runtime ai-ml-tutorial. IDE menampilkan daftar sesi interaktif yang telah Anda buat dengan template runtime ini.
  2. Temukan sesi yang dibuat sistem dengan menjalankan notebook di bagian atas daftar. Klik sesi untuk melihat detailnya. Anda dapat meninjau konfigurasi sesi dan resource yang digunakan sistem untuk mengeksekusi notebook Anda.

Pembersihan

Setelah berhasil menjalankan notebook, lakukan langkah-langkah pembersihan berikut.

  1. Di tab Google Cloud Data Agent Kit, di bagian Apache Spark, klik kanan Serverless lalu pilih List Serverless Runtimes. Daftar Serverless Runtime akan muncul.
  2. Klik menu Tindakan untuk ai-ml-tutorial guna mencantumkan semua Sesi Interaktif yang dibuat sistem dari template Anda.
  3. Di bagian Tindakan, klik Hapus.
  4. Kembali ke jendela Serverless Runtimes.
  5. Di bagian Tindakan untuk ai-ml-tutorial, klik Hapus.
  6. Klik Konfirmasi untuk menghapus template yang Anda buat untuk tutorial ini.

Langkah berikutnya