Solucionar problemas de PyTorch: TPU
En esta guía, se proporciona información para solucionar problemas que te ayudará a identificar y resolver problemas que podrías encontrar mientras entrenas modelos de PyTorch en Cloud TPU. Si deseas obtener una guía más general para empezar a usar Cloud TPU, consulta la guía de inicio rápido de PyTorch.
Solucionar problemas de rendimiento lento del entrenamiento
Si tu modelo se entrena lentamente, genera y revisa un informe de métricas.
Para analizar el informe de métricas de forma automática y proporcionar un resumen, ejecuta tu carga de trabajo con PT_XLA_DEBUG=1.
Para obtener más información sobre los problemas que podrían hacer que tu modelo se entrene lentamente, consulta Advertencias de rendimiento conocidas.
Generación de perfiles de rendimiento
Para generar un perfil detallado de tu carga de trabajo y descubrir cuellos de botella, consulta estos recursos:
- Creación de perfiles de rendimiento de PyTorch/XLA
- Ejemplo de una secuencia de comandos de entrenamiento de MNIST con generación de perfiles
Más herramientas de depuración
Puedes especificar variables de entorno para controlar el comportamiento de la pila de software de PyTorch/XLA.
Si encuentras un error inesperado y necesitas ayuda, informa un problema en GitHub.
Administra tensores XLA
Quirks de tensor XLA describe lo que debes y no debes hacer cuando trabajas con tensores de XLA y pesos compartidos.