Soluciona problemas del flujo de trabajo de tu Cloud TPU
Una vez que tu carga de trabajo de entrenamiento o inferencia se ejecuta en las TPU, el siguiente paso es asegurarte de que funcione según lo esperado. Cloud TPU genera métricas y registros que te permiten buscar y depurar cualquier VM de TPU que no se comporte como se espera. En esta documentación, nos referimos a esas VMs como valores atípicos.
El flujo de trabajo general para la solución de problemas es el siguiente:
- Consulta las métricas de Cloud TPU para verificar si hay VMs de TPU con valores atípicos.
- Consulta los registros de Cloud TPU para las VMs de TPU con valores atípicos.
- Crea un perfil para tu carga de trabajo.
Puedes ver las métricas y los registros en el Explorador de métricas y el Explorador de registros en la consola de Google Cloud. También puedes usar los paneles de supervisión y registro para recopilar todas las métricas y los registros relacionados con Cloud TPU en paneles individuales.
Métricas de las VMs de Cloud TPU
Cloud Monitoring recopila métricas de tus TPU y sus VMs de Compute Engine host de forma automática. Las métricas hacen un seguimiento de cantidades numéricas a lo largo del tiempo, por ejemplo, el uso de CPU y la red, o la duración de inactividad de TensorCore. Para obtener más información sobre las métricas de Cloud TPU, consulta Supervisa VMs de TPU.
Registros de Cloud TPU
Cloud Logging recopila los registros de tus TPU y sus VMs de Compute Engine host de forma automática. Cloud Logging hace un seguimiento de los eventos que genera Cloud TPU. También puedes instrumentar tu código para generar registros. Cloud TPU genera dos tipos de registros:
- Registros de trabajador TPU
- Registros de recursos auditados
Los registros de trabajador TPU contienen información sobre un trabajador TPU específico en una zona en particular, por ejemplo, la cantidad de memoria disponible en el trabajador TPU (system_available_memory_GiB).
Los registros de recursos auditados contienen información sobre cuándo se llamó a una API de Cloud TPU específica
y quién realizó la llamada. Por ejemplo, CreateNode, UpdateNode y
DeleteNode.
También puedes usar el paquete cloud-tpu-diagnostics de PyPi para escribir seguimientos de pila
en los registros. Para obtener más información, consulta Depura VMs de TPU.
Para obtener más información sobre los registros, consulta Logging.
Paneles de supervisión y registro
Tener una sola página en la consola de Google Cloud puede facilitar la interpretación y visualización de las métricas y los registros relacionados con Cloud TPU. El repositorio de GitHub de supervisión y depuración contiene un conjunto de secuencias de comandos y archivos de configuración que usan Terraform para implementar de forma automática paneles con todas las métricas y los registros relacionados con Cloud TPU. Para configurar estos paneles en tu proyecto de Google Cloud , consulta Paneles de supervisión y registro.
Crea perfiles para tus cargas de trabajo en VMs de TPU
La creación de perfiles te permite optimizar el rendimiento del entrenamiento de tu modelo en las VMs de TPU. Con TensorBoard y el complemento de TensorBoard para TPU, puedes crear el perfil de tu modelo. Para obtener más información sobre cómo generar perfiles para tu carga de trabajo, consulta Crea perfiles para tu modelo en las VMs de TPU.
Para obtener más información sobre cómo usar TensorBoard con uno de los frameworks compatibles, consulta los siguientes documentos: