Solução de problemas do PyTorch – TPU

Neste guia, você aprende a identificar e resolver problemas que podem surgir ao treinar modelos do PyTorch no Cloud TPU. Para um guia mais geral sobre como começar a usar o Cloud TPU, consulte o Guia de início rápido do PyTorch.

Solução de problemas de desempenho lento de treinamento

Se o treinamento do modelo for lento, gere e analise um relatório de métricas.

Para analisar automaticamente o relatório de métricas e fornecer um resumo, execute a carga de trabalho com PT_XLA_DEBUG=1.

Para saber mais sobre problemas que podem causar lentidão no treinamento do modelo, consulte Ressalvas de desempenho conhecidas.

Criação de perfil de desempenho

Para criar perfis detalhados de cargas de trabalho e encontrar gargalos, consulte estes recursos:

Mais ferramentas de depuração

Especifique variáveis de ambiente para controlar o comportamento da pilha de software do PyTorch/XLA.

Se você encontrar um bug inesperado e precisar de ajuda, registre um problema no GitHub.

Como gerenciar tensores XLA

Em Peculiaridades dos tensores XLA, você aprende o que deve ou não fazer ao trabalhar com tensores XLA e pesos compartilhados.