Solução de problemas do PyTorch – TPU
Neste guia, você aprende a identificar e resolver problemas que podem surgir ao treinar modelos do PyTorch no Cloud TPU. Para um guia mais geral sobre como começar a usar o Cloud TPU, consulte o Guia de início rápido do PyTorch.
Solução de problemas de desempenho lento de treinamento
Se o treinamento do modelo for lento, gere e analise um relatório de métricas.
Para analisar automaticamente o relatório de métricas e fornecer um resumo, execute a carga de trabalho com PT_XLA_DEBUG=1.
Para saber mais sobre problemas que podem causar lentidão no treinamento do modelo, consulte Ressalvas de desempenho conhecidas.
Criação de perfil de desempenho
Para criar perfis detalhados de cargas de trabalho e encontrar gargalos, consulte estes recursos:
- Criação de perfil de desempenho do PyTorch/XLA
- Exemplo de script de treinamento MNIST com criação de perfil
Mais ferramentas de depuração
Especifique variáveis de ambiente para controlar o comportamento da pilha de software do PyTorch/XLA.
Se você encontrar um bug inesperado e precisar de ajuda, registre um problema no GitHub.
Como gerenciar tensores XLA
Em Peculiaridades dos tensores XLA, você aprende o que deve ou não fazer ao trabalhar com tensores XLA e pesos compartilhados.