Melatih model AI dan ML

Pelajari cara melatih model AI dan ML di ekstensi Google Cloud Data Agent Kit untuk Visual Studio Code.

Dalam panduan memulai ini, Anda menggunakan template sesi dan notebook Jupyter contoh untuk memprediksi jumlah tip taksi New York City. Dengan menggunakan kernel Jupyter jarak jauh dengan PySpark, Anda mencoba berbagai model seperti regresi linear, hutan acak, dan XGBoost. Proses ini memungkinkan Anda melakukan pelatihan dan inferensi terdistribusi. Proses ini menunjukkan skalabilitas di beberapa mesin menggunakan Spark ML dan library XGBoost.

Meskipun tidak dibahas dalam panduan memulai ini, ada beberapa cara untuk melatih model AI dan ML menggunakan ekstensi Google Cloud Data Agent Kit untuk Visual Studio Code:

  • Jika set data pelatihan Anda besar atau Anda menginginkan kemampuan pelatihan terdistribusi yang ditawarkan Apache Spark, Anda dapat menggunakan notebook Spark dengan kernel jarak jauh.
  • Jika set data Anda ada di BigQuery dan BigQuery ML mendukung kasus penggunaan Anda, Anda dapat menggunakan notebook BigQuery DataFrames.
  • Jika set data Anda kecil dan Anda ingin melatih model secara lokal, Anda dapat menggunakan notebook Python.

Sebelum memulai

Sebelum memulai, lakukan hal berikut:

  1. Instal ekstensi.
  2. Konfigurasi setelan ekstensi.
  3. Tinjau panduan di Menemukan dan menjelajahi data.

Membuat template runtime Spark

Template Runtime Spark Tanpa Server memungkinkan Anda memulai sesi Apache Spark dengan serangkaian konfigurasi tertentu. Untuk membuat template Runtime Tanpa Server baru, selesaikan langkah-langkah berikut:

  1. Di panel aktivitas IDE, klik ikon Google Cloud Data Agent Kit.
  2. Di menu Google Cloud Data Agent Kit, luaskan Apache Spark.
  3. Luaskan Tanpa Server , lalu klik + Buat runtime tanpa server. Formulir pembuatan Runtime Tanpa Server akan muncul.
  4. Di kolom Nama Tampilan, masukkan ai-ml-tutorial.
  5. Buka bagian Ppenskalaan Otomatis.
  6. Tetapkan spark.dynamicAllocation.enabled ke false di menu drop-down. Setelan ini diperlukan agar XGBoost dapat berfungsi dengan Apache Spark.
  7. Biarkan semua kolom lainnya ditetapkan ke nilai default.
  8. Klik Kirim.

Membuat notebook baru

Selanjutnya, buat notebook Spark baru:

  1. Di bagian Apache Spark di tab Google Cloud Data Agent Kit, klik + Spark Notebook Baru.
  2. Pilih Kernel Jarak Jauh untuk jenis kernel.
  3. Klik Mulai dengan notebook contoh.
  4. Dalam daftar contoh, pilih Data Science with PySpark and Distributed XGBoost. Notebook Jupyter tanpa judul akan muncul.

Melatih model Anda

  1. Di tab notebook, klik Jalankan Semua. Pemilih kernel akan meminta Anda memilih kernel untuk menjalankan notebook.
  2. Klik Pilih Kernel Lain.
  3. Klik Kernel Spark Jarak Jauh.
  4. Pilih ai-ml-tutorial di Spark Tanpa Server, template Runtime yang Anda buat sebelumnya.

Anda akan melihat notifikasi berikut saat sistem membuat sesi Spark Tanpa Server: Connecting to kernel: ai-ml-tutorial on Serverless Spark. Saat notebook terhubung ke kernel PySpark jarak jauh, eksekusi akan dimulai di sel pertama. Proses ini memerlukan waktu sekitar dua hingga tiga menit.

Memeriksa sesi Spark

  1. Di tab Google Cloud Data Agent Kit, di bagian Apache Spark, luaskan template Runtime ai-ml-tutorial. IDE akan menampilkan daftar sesi interaktif yang telah Anda buat dengan template runtime ini.
  2. Temukan sesi yang dibuat sistem dengan menjalankan notebook di bagian atas daftar. Klik sesi untuk melihat detailnya. Anda dapat meninjau konfigurasi sesi dan resource yang digunakan sistem untuk menjalankan notebook.

Pembersihan

Setelah berhasil menjalankan notebook, lakukan langkah-langkah pembersihan berikut.

  1. Di tab Google Cloud Data Agent Kit, di bagian Apache Spark, klik kanan Tanpa Server , lalu pilih Daftar Runtime Tanpa Server. Daftar Runtime Tanpa Server akan muncul.
  2. Klik menu Tindakan untuk ai-ml-tutorial guna mencantumkan semua Sesi Interaktif yang dibuat sistem dari template Anda.
  3. Di bagian Tindakan, klik Hapus.
  4. Kembali ke jendela Runtime Tanpa Server.
  5. Di bagian Tindakan untuk ai-ml-tutorial, klik Hapus.
  6. Klik Konfirmasi untuk menghapus template yang Anda buat untuk tutorial ini.

Langkah berikutnya