Platform Diagnostik ML

Google Cloud ML Diagnostics adalah platform terkelola end-to-end untuk mengoptimalkan dan mendiagnosis workload AI dan ML di Google Cloud. Gunakan Diagnostik ML untuk mengumpulkan dan memvisualisasikan semua metrik, konfigurasi, dan profil beban kerja dalam satu platform. Diagnostik ML berlaku untuk workload pelatihan dan inferensi, serta kompatibel dengan semua pengorkestrasi di Cloud TPU, termasuk Google Kubernetes Engine (GKE) dan pengorkestrasi kustom. Diagnostik ML mencakup fitur berikut:

  • Eksekusi machine learning: Gunakan Diagnostik ML untuk membuat dan mendaftarkan eksekusi machine learning melalui Google Cloud CLI, atau integrasikan SDK Diagnostik ML dengan beban kerja Anda. Anda dapat men-deploy instance XProf terkelola dengan menjalankan machine learning, serta mengumpulkan dan mengelola metrik beban kerja, konfigurasi, dan sesi pembuatan profil.
  • Pengalaman gcloud CLI: Gunakan ML Diagnostics API melalui gcloud CLI untuk mendaftarkan dan mengelola proses, men-deploy resource XProf terkelola, memvisualisasikan sesi profil di bucket penyimpanan, dan memicu pengambilan profil dari CLI.
  • Python SDK: Gunakan ML Diagnostics SDK open source yang terintegrasi dengan beban kerja ML untuk mendapatkan pengalaman diagnostik beban kerja ML yang lengkap. Kumpulkan dan kelola metrik, konfigurasi, dan profil workload di Google Cloud.
  • Pembuatan profil terkelola: ML Diagnostics men-deploy instance terkelola XProf dengan backend yang skalabel ke akun terkait, sehingga memungkinkan pemuatan profil besar yang cepat. Alat ini mendukung beberapa pengguna yang mengakses profil secara bersamaan, dan berisi fitur bawaan seperti pembuatan profil multi-host dan pembuatan profil sesuai permintaan.
  • Metrik beban kerja: Melacak metrik beban kerja, termasuk kualitas model, performa model, dan metrik sistem.
  • Pengelolaan konfigurasi workload: Melacak konfigurasi workload, termasuk konfigurasi software, konfigurasi sistem, dan konfigurasi yang ditentukan pengguna.
  • Visualisasi di Cluster Director dan GKE: Visualisasikan metrik, konfigurasi, dan profil di Cluster Director dan Google Kubernetes Engine di konsol Google Cloud .
  • Berbagi link: Berkolaborasi dengan link yang dapat dibagikan untuk profil dan informasi eksekusi machine learning.

Jalur pengguna

Anda dapat menggunakan platform Diagnostik ML melalui SDK atau CLI. Dengan CLI, Anda dapat menggunakan gcloud CLI Diagnostik ML untuk membuat proses machine learning, dan men-deploy resource XProf terkelola. Dengan ML Diagnostics SDK, SDK perlu diintegrasikan ke dalam beban kerja ML Anda untuk mengumpulkan dan mengelola metrik serta konfigurasi beban kerja, dan men-deploy resource XProf terkelola.

Untuk memulai, gunakan salah satu panduan berikut:

Pembuatan profil terkelola dengan XProf

Anda bisa mendapatkan pengalaman pembuatan profil terkelola dengan XProf saat menggunakan CLI atau SDK. XProf adalah alat analisis performa dan pembuatan profil open source untuk beban kerja machine learning dan merupakan bagian dari ekosistem OpenXLA.

Manfaat pengalaman pembuatan profil terkelola dibandingkan dengan pengalaman pembuatan profil yang dihosting sendiri meliputi:

  • Tidak diperlukan penyiapan XProf atau dependensi lainnya.
  • Keamanan dan perlindungan yang lebih baik dari kerentanan.
  • Link yang dapat dibagikan untuk kolaborasi.
  • Pemuatan profil besar yang lebih cepat.
  • Dukungan untuk beberapa pengguna yang mengakses profil secara bersamaan dengan penskalaan otomatis resource berdasarkan beban akses link.
  • Fitur bawaan seperti pembuatan profil multi-host dan pembuatan profil on-demand.
  • Muat beberapa sesi profil di beberapa proses dengan instance XProf terkelola yang sama.
  • Tidak ada biaya untuk resource XProf terkelola yang di-deploy oleh platform Diagnostik ML, sehingga XProf terkelola lebih hemat biaya daripada XProf yang dihosting sendiri.

Prasyarat

Sebelum menggunakan Diagnostik ML, aktifkan Cluster Director API dan tambahkan izin IAM yang diperlukan. Jika menggunakan GKE, Anda juga perlu mengonfigurasi cluster GKE dan memberi label pada workload GKE. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan GKE.

Mengaktifkan Cluster Director API

Anda tidak perlu menggunakan Cluster Director untuk men-deploy dan mengelola cluster guna menggunakan produk Diagnostik ML. Diagnostik ML berfungsi dengan cluster yang dikelola oleh GKE, Cluster Director, atau orchestrator kustom. ML Diagnostics adalah bagian dari rangkaian API Cluster Director, tetapi tidak bergantung pada pengguna yang menggunakan produk Cluster Director itu sendiri.

Untuk mengetahui informasi selengkapnya tentang cara mengaktifkan Cluster Director API, lihat Mengaktifkan API di project Google Cloud .

Izin IAM

Akun layanan Google Cloud yang digunakan oleh beban kerja Anda memerlukan penetapan peran IAM berikut di project.

Jika menggunakan ML Diagnostics SDK:

  • roles/clusterdirector.editor: Untuk akses penuh dalam membuat dan mengelola resource MLRun serta melihat antarmuka pengguna.
  • roles/logging.logWriter: Untuk menulis log dan metrik ke Cloud Logging.
  • roles/storage.objectUser: Untuk menyimpan profil ke bucket Cloud Storage yang ditentukan di machinelearning_run.

Jika menggunakan gcloud CLI Diagnostik ML:

  • roles/storage.objectUser: Untuk menyimpan profil ke bucket Cloud Storage yang ditentukan di machinelearning_run.

Untuk workload di Google Kubernetes Engine, gunakan Federasi Workload Identity untuk mengaitkan Akun Layanan Kubernetes dengan akun layanan yang telah diberi peran yang diperlukan. Google Cloud

Harga

Anda akan dikenai biaya untuk penyimpanan metrik melalui Cloud Logging, dan penyimpanan profil melalui Cloud Storage. Anda tidak perlu mengaktifkan penagihan tambahan untuk layanan ini saat menggunakan platform Diagnostik ML. Tidak ada biaya untuk resource XProf terkelola yang di-deploy oleh platform ML Diagnostics.