Melatih model AI dan ML

Pelajari cara melatih model AI dan ML di ekstensi Google Cloud Data Agent Kit untuk Antigravity.

Dalam panduan memulai ini, Anda akan menggunakan template sesi dan contoh notebook Jupyter untuk memprediksi jumlah tip taksi di New York City. Dengan menggunakan kernel Jupyter jarak jauh dengan PySpark, Anda akan mencoba berbagai model seperti regresi linear, hutan acak, dan XGBoost. Proses ini memungkinkan Anda melakukan pelatihan dan inferensi terdistribusi. Proses ini menunjukkan skalabilitas di beberapa mesin menggunakan Spark ML dan library XGBoost.

Meskipun tidak dibahas dalam panduan memulai ini, ada beberapa cara untuk melatih model AI dan ML menggunakan ekstensi Google Cloud Data Agent Kit untuk Antigravity:

  • Jika set data pelatihan Anda berukuran besar atau Anda menginginkan kemampuan pelatihan terdistribusi yang ditawarkan Apache Spark, Anda dapat menggunakan notebook Spark dengan kernel jarak jauh.
  • Jika set data Anda berada di BigQuery dan BigQuery ML mendukung kasus penggunaan Anda, Anda dapat menggunakan notebook BigQuery DataFrames.
  • Jika set data Anda berukuran kecil dan Anda ingin melatih model secara lokal, Anda dapat menggunakan notebook Python.

Membuat template runtime Spark

Template Runtime Spark Serverless memungkinkan Anda memulai sesi Apache Spark dengan serangkaian konfigurasi tertentu. Untuk membuat template Runtime Serverless baru, selesaikan langkah-langkah berikut:

  1. Di panel aktivitas IDE, klik ikon Google Cloud Data Agent Kit.
  2. Di menu Google Cloud Data Agent Kit, luaskan Apache Spark.
  3. Luaskan Serverless , lalu klik + Create serverless runtimes. Formulir pembuatan Runtime Serverless akan muncul.
  4. Di kolom Display Name, masukkan ai-ml-tutorial.
  5. Buka bagian Auto Scaling.
  6. Tetapkan spark.dynamicAllocation.enabled ke false di daftar drop-down. Setelan ini diperlukan agar XGBoost dapat berfungsi dengan Apache Spark.
  7. Biarkan semua kolom lainnya ditetapkan ke nilai default.
  8. Klik Submit.

Membuat notebook baru

Selanjutnya, buat notebook Spark baru:

  1. Di bagian Apache Spark di tab Google Cloud Data Agent Kit, klik + New Spark Notebook.
  2. Pilih Remote Kernel untuk jenis kernel.
  3. Klik Start with a sample notebook.
  4. Dalam daftar contoh, pilih Data Science with PySpark and Distributed XGBoost. Notebook Jupyter tanpa judul akan muncul.

Melatih model Anda

  1. Di tab notebook, klik Run All. Pemilih kernel akan meminta Anda memilih kernel untuk menjalankan notebook.
  2. Klik Select Another Kernel.
  3. Klik Remote Spark Kernels.
  4. Pilih ai-ml-tutorial on Serverless Spark, template Runtime yang Anda buat sebelumnya.

Anda akan melihat notifikasi berikut saat sistem membuat sesi Spark Serverless: Connecting to kernel: ai-ml-tutorial on Serverless Spark. Saat notebook terhubung ke kernel PySpark jarak jauh, eksekusi akan dimulai di sel pertama. Proses ini memerlukan waktu sekitar dua hingga tiga menit.

Memeriksa sesi Spark

  1. Di tab Google Cloud Data Agent Kit, di bagian Apache Spark, luaskan template Runtime ai-ml-tutorial. IDE akan menampilkan daftar sesi interaktif yang telah Anda buat dengan template runtime ini.
  2. Temukan sesi yang dibuat sistem dengan menjalankan notebook di bagian atas daftar. Klik sesi untuk melihat detailnya. Anda dapat meninjau konfigurasi sesi dan resource yang digunakan sistem untuk menjalankan notebook.

Pembersihan

Setelah berhasil menjalankan notebook, lakukan langkah-langkah pembersihan berikut.

  1. Di tab Google Cloud Data Agent Kit, di bagian Apache Spark, klik kanan Serverless , lalu pilih List Serverless Runtimes. Daftar Runtime Serverless akan muncul.
  2. Klik menu Action untuk ai-ml-tutorial guna mencantumkan semua Sesi Interaktif yang dibuat sistem dari template Anda.
  3. Di bagian Actions, klik Delete.
  4. Kembali ke jendela Serverless Runtimes.
  5. Di bagian Actions untuk ai-ml-tutorial, klik Delete.
  6. Klik Confirm untuk menghapus template yang Anda buat untuk tutorial ini.

Langkah berikutnya