Risoluzione dei problemi di PyTorch - TPU
Questa guida fornisce informazioni per la risoluzione dei problemi per aiutarti a identificare e risolvere i problemi che potresti riscontrare durante l'addestramento dei modelli PyTorch sulle Cloud TPU. Per una guida più generale su come iniziare a utilizzare Cloud TPU, consulta Guida rapida: crea un'istanza TPU.
Risolvere i problemi di prestazioni di addestramento lente
Se il modello viene addestrato lentamente, genera e esamina un report delle metriche.
Per analizzare automaticamente il report delle metriche e fornire un riepilogo, esegui il carico di lavoro con PT_XLA_DEBUG=1.
Per ulteriori informazioni sui problemi che potrebbero causare un addestramento lento del modello, consulta Avvertenze sulle prestazioni note.
Profilazione delle prestazioni
Per profilare il carico di lavoro in modo approfondito per scoprire i colli di bottiglia, consulta queste risorse:
- Profilazione delle prestazioni di PyTorch/XLA
- Script di addestramento MNIST di esempio con profilazione
Altri strumenti di debug
Puoi specificare le variabili di ambiente per controllare il comportamento dello stack software PyTorch/XLA.
Se riscontri un bug imprevisto e hai bisogno di aiuto, invia una segnalazione su GitHub.
Gestione dei tensori XLA
La sezione Quirks dei tensori XLA descrive cosa dovresti e non dovresti fare quando lavori con i tensori XLA e i pesi condivisi.