Resolução de problemas do PyTorch – TPU
Este guia fornece informações de resolução de problemas para ajudar a identificar e resolver problemas que possa encontrar durante o treino de modelos do PyTorch na Cloud TPU. Para aceder a um guia mais geral de introdução ao Cloud TPU, consulte o início rápido do PyTorch.
Resolução de problemas de desempenho de preparação lento
Se o modelo for preparado lentamente, gere e reveja um relatório de métricas.
Para analisar automaticamente o relatório de métricas e fornecer um resumo, execute a sua carga de trabalho com PT_XLA_DEBUG=1.
Para mais informações sobre problemas que podem fazer com que o modelo seja preparado lentamente, consulte Advertências de desempenho conhecidas.
Criação de perfis de desempenho
Para analisar detalhadamente a sua carga de trabalho e descobrir gargalos, reveja estes recursos:
Mais ferramentas de depuração
Pode especificar variáveis de ambiente para controlar o comportamento da pilha de software PyTorch/XLA.
Se encontrar um erro inesperado e precisar de ajuda, comunique um problema no GitHub.
Gerir tensores XLA
Particularidades dos tensores XLA descreve o que deve e não deve fazer quando trabalha com tensores XLA e pesos partilhados.