Risoluzione dei problemi di PyTorch - TPU

Questa guida fornisce informazioni per la risoluzione dei problemi per aiutarti a identificare e risolvere i problemi che potresti riscontrare durante l'addestramento dei modelli PyTorch sulle Cloud TPU. Per una guida più generale su come iniziare a utilizzare Cloud TPU, consulta Guida rapida: crea un'istanza TPU.

Risolvere i problemi di prestazioni di addestramento lente

Se il modello viene addestrato lentamente, genera e esamina un report delle metriche.

Per analizzare automaticamente il report delle metriche e fornire un riepilogo, esegui il carico di lavoro con PT_XLA_DEBUG=1.

Per ulteriori informazioni sui problemi che potrebbero causare un addestramento lento del modello, consulta Avvertenze sulle prestazioni note.

Profilazione delle prestazioni

Per profilare il carico di lavoro in modo approfondito per scoprire i colli di bottiglia, consulta queste risorse:

Altri strumenti di debug

Puoi specificare le variabili di ambiente per controllare il comportamento dello stack software PyTorch/XLA.

Se riscontri un bug imprevisto e hai bisogno di aiuto, invia una segnalazione su GitHub.

Gestione dei tensori XLA

La sezione Quirks dei tensori XLA descrive cosa dovresti e non dovresti fare quando lavori con i tensori XLA e i pesi condivisi.