Resolução de problemas do PyTorch – TPU

Este guia fornece informações de resolução de problemas para ajudar a identificar e resolver problemas que possa encontrar durante o treino de modelos do PyTorch na Cloud TPU. Para aceder a um guia mais geral de introdução ao Cloud TPU, consulte o início rápido do PyTorch.

Resolução de problemas de desempenho de preparação lento

Se o modelo for preparado lentamente, gere e reveja um relatório de métricas.

Para analisar automaticamente o relatório de métricas e fornecer um resumo, execute a sua carga de trabalho com PT_XLA_DEBUG=1.

Para mais informações sobre problemas que podem fazer com que o modelo seja preparado lentamente, consulte Advertências de desempenho conhecidas.

Criação de perfis de desempenho

Para analisar detalhadamente a sua carga de trabalho e descobrir gargalos, reveja estes recursos:

Mais ferramentas de depuração

Pode especificar variáveis de ambiente para controlar o comportamento da pilha de software PyTorch/XLA.

Se encontrar um erro inesperado e precisar de ajuda, comunique um problema no GitHub.

Gerir tensores XLA

Particularidades dos tensores XLA descreve o que deve e não deve fazer quando trabalha com tensores XLA e pesos partilhados.