Risoluzione dei problemi del flusso di lavoro Cloud TPU
Una volta che il workload di addestramento o inferenza è in esecuzione sulle TPU, il passaggio successivo consiste nell'assicurarsi che funzioni come previsto. Cloud TPU genera metriche e log che ti consentono di cercare ed eseguire il debug di eventuali VM TPU che non si comportano come previsto. In questa documentazione ci riferiamo a queste VM come valori anomali.
Il flusso di lavoro generale per la risoluzione dei problemi è il seguente:
- Visualizza le metriche Cloud TPU per verificare la presenza di VM TPU anomale
- Visualizza i log di Cloud TPU per le VM TPU outlier
- Profilare il workload
Puoi visualizzare metriche e log in Esplora metriche e in Esplora log nella console Google Cloud. Puoi anche utilizzare le dashboard di monitoraggio e logging per raccogliere tutte le metriche e i log correlati a Cloud TPU in dashboard individuali.
Metriche delle VM Cloud TPU
Cloud Monitoring raccoglie automaticamente le metriche dalle TPU e dalle relative VM Compute Engine host. Le metriche monitorano quantità numeriche nel tempo, ad esempio l'utilizzo della CPU, l'utilizzo della rete o la durata di inattività di TensorCore. Per ulteriori informazioni sulle metriche Cloud TPU, consulta Monitoraggio delle VM TPU.
Log di Cloud TPU
Cloud Logging raccoglie automaticamente i log dalle TPU e dalle relative VM di Compute Engine host. Cloud Logging monitora gli eventi generati da Cloud TPU. Puoi anche strumentare il codice per generare log. Cloud TPU genera due tipi di log:
- Log worker TPU
- Log delle risorse controllate
I log dei worker TPU contengono informazioni su un worker TPU specifico in una zona specifica, ad esempio la quantità di memoria disponibile sul worker TPU (system_available_memory_GiB).
I log delle risorse sottoposte ad audit contengono informazioni su quando è stata chiamata una specifica API Cloud TPU e chi ha effettuato la chiamata. Ad esempio CreateNode, UpdateNode e
DeleteNode.
Puoi anche utilizzare il pacchetto PyPi cloud-tpu-diagnostics per scrivere stack trace
nei log. Per saperne di più, consulta Debug delle VM TPU.
Per saperne di più sui log, consulta Logging.
Dashboard di monitoraggio e logging
Una singola pagina nella console Google Cloud può semplificare la visualizzazione e l'interpretazione di metriche e log correlati a Cloud TPU. Il repository GitHub monitoring-debugging contiene un insieme di script e file di configurazione che utilizzano Terraform per eseguire automaticamente il deployment di dashboard che contengono tutte le metriche e i log correlati a Cloud TPU. Per configurare queste dashboard nel tuo progetto Google Cloud , consulta Dashboard di monitoraggio e logging.
Profilazione dei carichi di lavoro sulle VM TPU
La profilazione consente di ottimizzare le prestazioni di addestramento del modello sulle VM TPU. Utilizzi TensorBoard e il plug-in TPU TensorBoard per profilare il modello. Per ulteriori informazioni su come profilare il carico di lavoro, vedi Profilare il modello sulle VM TPU.
Per saperne di più sull'utilizzo di TensorBoard con uno dei framework supportati, consulta i seguenti documenti: