Solucionar problemas de PyTorch: TPU

En esta guía, se proporciona información para solucionar problemas que te ayudará a identificar y resolver problemas que podrías encontrar mientras entrenas modelos de PyTorch en Cloud TPU. Si deseas obtener una guía más general para empezar a usar Cloud TPU, consulta la guía de inicio rápido de PyTorch.

Solucionar problemas de rendimiento lento del entrenamiento

Si tu modelo se entrena lentamente, genera y revisa un informe de métricas.

Para analizar el informe de métricas de forma automática y proporcionar un resumen, ejecuta tu carga de trabajo con PT_XLA_DEBUG=1.

Para obtener más información sobre los problemas que podrían hacer que tu modelo se entrene lentamente, consulta Advertencias de rendimiento conocidas.

Generación de perfiles de rendimiento

Para generar un perfil detallado de tu carga de trabajo y descubrir cuellos de botella, consulta estos recursos:

Más herramientas de depuración

Puedes especificar variables de entorno para controlar el comportamiento de la pila de software de PyTorch/XLA.

Si encuentras un error inesperado y necesitas ayuda, informa un problema en GitHub.

Administra tensores XLA

Quirks de tensor XLA describe lo que debes y no debes hacer cuando trabajas con tensores de XLA y pesos compartidos.