Piattaforma ML Diagnostics
Google Cloud ML Diagnostics è una piattaforma gestita end-to-end per l'ottimizzazione e la diagnosi dei workload AI e ML su Google Cloud. Utilizza Diagnostica ML per raccogliere e visualizzare tutte le metriche, le configurazioni e i profili dei workload in un'unica piattaforma. ML Diagnostics è applicabile sia ai carichi di lavoro di addestramento che di inferenza ed è compatibile con tutti gli orchestratori su Cloud TPU, inclusi Google Kubernetes Engine (GKE) e gli orchestratori personalizzati. Diagnostica ML include le seguenti funzionalità:
- Esecuzioni di machine learning:utilizza ML Diagnostics per creare e registrare le esecuzioni di machine learning tramite Google Cloud CLI o integra l'SDK ML Diagnostics con il tuo workload. Puoi eseguire il deployment di istanze XProf gestite con le esecuzioni di machine learning e raccogliere e gestire metriche, configurazioni e sessioni di profilazione del carico di lavoro.
- Esperienza gcloud CLI: utilizza le API ML Diagnostics tramite gcloud CLI per registrare e gestire le esecuzioni, eseguire il deployment di risorse XProf gestite, visualizzare le sessioni di profilazione nei bucket di archiviazione e attivare l'acquisizione dei profili dalla CLI.
- SDK Python: utilizza l'SDK ML Diagnostics open source integrato con i workload ML per un'esperienza completa di diagnostica dei workload ML. Raccogli e gestisci le metriche, le configurazioni e i profili dei workload su Google Cloud.
- Profilazione gestita: ML Diagnostics esegue il deployment di un'istanza gestita di XProf con un backend scalabile negli account associati, consentendo il caricamento rapido di profili di grandi dimensioni. Supporta l'accesso simultaneo ai profili da parte di più utenti e contiene funzionalità integrate come la profilazione multihost e on demand.
- Metriche del workload: monitora le metriche del workload, tra cui qualità del modello, prestazioni del modello e metriche di sistema.
- Gestione della configurazione del workload: monitora le configurazioni del workload, incluse le configurazioni software, le configurazioni di sistema e le configurazioni definite dall'utente.
- Visualizzazioni in Cluster Director e GKE: visualizza metriche, configurazioni e profili in Cluster Director e Google Kubernetes Engine nella console Google Cloud .
- Condivisione dei link: collabora con link condivisibili per profili e informazioni sull'esecuzione del machine learning.
Percorsi utente
Puoi utilizzare la piattaforma ML Diagnostics tramite l'SDK o la CLI. Con l'interfaccia a riga di comando, puoi utilizzare gcloud CLI di ML Diagnostics per creare un'esecuzione di machine learning e implementare le risorse XProf gestite. Con l'SDK ML Diagnostics, l'SDK deve essere integrato nel tuo workload ML per raccogliere e gestire le metriche e le configurazioni del workload e per eseguire il deployment delle risorse XProf gestite.
Per iniziare, utilizza una delle seguenti guide:
Profilazione gestita con XProf
Puoi ottenere un'esperienza di profilazione gestita con XProf quando utilizzi la CLI o l'SDK. XProf è uno strumento di profilazione e analisi delle prestazioni open source per i carichi di lavoro di machine learning e fa parte dell'ecosistema OpenXLA.
I vantaggi di un'esperienza di profilazione gestita rispetto a un'esperienza di profilazione self-hosted includono:
- Nessuna configurazione richiesta di XProf o di altre dipendenze.
- Maggiore sicurezza e protezione dalle vulnerabilità.
- Link condivisibili per la collaborazione.
- Caricamento più rapido dei profili di grandi dimensioni.
- Supporto di più utenti che accedono contemporaneamente ai profili con scalabilità automatica delle risorse in base al carico di accesso ai link.
- Funzionalità integrate come la profilazione multihost e la profilazione on demand.
- Carica più sessioni di profili in più esecuzioni con la stessa istanza XProf gestita.
- Non sono previsti costi per le risorse XProf gestite di cui è stato eseguito il deployment dalla piattaforma ML Diagnostics, il che rende XProf gestito più conveniente dell'hosting autonomo di XProf.
Prerequisiti
Prima di utilizzare ML Diagnostics, abilita l'API Cluster Director e aggiungi le autorizzazioni IAM richieste. Se utilizzi GKE, devi anche configurare il cluster GKE ed etichettare il carico di lavoro GKE. Per saperne di più, consulta Configurare GKE.
Abilita l'API Cluster Director
Per utilizzare il prodotto ML Diagnostics, non è necessario utilizzare Cluster Director per il deployment e la gestione dei cluster. ML Diagnostics funziona con i cluster gestiti da GKE, Cluster Director o orchestratori personalizzati. ML Diagnostics fa parte della famiglia di API Cluster Director, ma non dipende dall'utilizzo del prodotto Cluster Director stesso da parte degli utenti.
Per ulteriori informazioni sull'abilitazione dell'API Cluster Director, vedi Abilitazione di un'API nel tuo progetto Google Cloud .
Autorizzazioni IAM
Il service account Google Cloud utilizzato dal tuo carico di lavoro richiede i seguenti ruoli IAM assegnati al progetto.
Se utilizzi l'SDK ML Diagnostics:
roles/clusterdirector.editor: Per l'accesso completo per creare e gestire risorseMLRune visualizzare l'interfaccia utente.roles/logging.logWriter: per scrivere log e metriche in Cloud Logging.roles/storage.objectUser: Per salvare i profili nel bucket Cloud Storage specificato inmachinelearning_run.
Se utilizzi gcloud CLI di ML Diagnostics:
roles/storage.objectUser: Per salvare i profili nel bucket Cloud Storage specificato inmachinelearning_run.
Per i carichi di lavoro su Google Kubernetes Engine, utilizza Workload Identity Federation per associare un service account Kubernetes a un service account a cui sono stati concessi i ruoli richiesti. Google Cloud
Prezzi
Ti vengono addebitati i costi per l'archiviazione delle metriche tramite Cloud Logging e per l'archiviazione dei profili tramite Cloud Storage. Non è necessario attivare alcuna fatturazione aggiuntiva per questi servizi quando utilizzi la piattaforma ML Diagnostics. Non è previsto alcun costo per le risorse XProf gestite di cui viene eseguito il deployment dalla piattaforma ML Diagnostics.