Fehlerbehebung bei Cloud TPU-Workflow

Sobald Ihre Trainings- bzw. Inferenzarbeitslast auf TPUs ausgeführt werden, müssen Sie als Nächstes dafür sorgen, dass die Arbeitslast wie erwartet funktioniert. Cloud TPU generiert Messwerte und Logs, mit denen Sie nach TPU-VMs suchen können, die sich nicht wie erwartet verhalten, und entsprechende Fehler beheben können. In dieser Dokumentation werden solche VMs als Ausreißer bezeichnet.

Der allgemeine Workflow zur Fehlerbehebung ist Folgender:

Sehen Sie sich die Cloud TPU-Messwerte an, um nach Ausreißer-TPU-VMs zu suchen.
Sehen Sie sich die Cloud TPU-Logs für die Ausreißer-TPU-VMs an.
Erstellen Sie ein Profil der Arbeitslast.

Sie können Messwerte und Logs in der Google CloudConsole im Metrics Explorer und im Log-Explorer ansehen. Sie können auch Monitoring- und Logging-Dashboards verwenden, um alle Cloud TPU-bezogenen Messwerte und Logs in einzelnen Dashboards zu erfassen.

Cloud TPU-VM-Messwerte

Cloud Monitoring erfasst automatisch Messwerte von Ihren TPUs und deren Compute Engine-Host-VMs. Mit Messwerten können Sie eine numerische Größe im Zeitverlauf verfolgen, z. B. die CPU-Auslastung, die Netzwerknutzung oder die TensorCore-Inaktivitätsdauer. Weitere Informationen zu Cloud TPU-Messwerten finden Sie unter TPU-VMs überwachen.

Cloud TPU-Logs

Cloud Logging erfasst automatisch Logs von Ihren TPUs und deren Compute Engine-Host-VMs. Cloud Logging erfasst Ereignisse, die von Cloud TPU generiert wurden. Sie können Ihren Code auch so instrumentieren, dass Logs generiert werden. Cloud TPU generiert zwei Arten von Logs:

TPU-Worker-Logs
Logs der geprüften Ressource

TPU-Worker-Logs enthalten Informationen zu einem bestimmten TPU-Worker in einer bestimmten Zone, z. B. die Menge des auf dem TPU-Worker verfügbaren Arbeitsspeichers (system_available_memory_GiB).

Logs der geprüften Ressource enthalten Informationen dazu, wann eine bestimmte Cloud TPU API aufgerufen wurde und wer den Aufruf getätigt hat. Beispiel: CreateNode, UpdateNode und DeleteNode.

Sie können auch das PyPi-Paket cloud-tpu-diagnostics verwenden, um Stacktraces in Logs zu schreiben. Weitere Informationen finden Sie unter TPU-VMs debuggen.

Weitere Informationen zu Logs finden Sie unter Logging.

Dashboards für Monitoring und Logging

Wenn Sie in der Google Cloud Console nur eine Seite ansehen müssen, kann das das Ansehen und Interpretieren von Cloud TPU-bezogenen Messwerten und Logs erleichtern. Das GitHub-Repository monitoring-debugging enthält eine Reihe von Scripts und Konfigurationsdateien, die Terraform verwenden, um automatisch Dashboards bereitzustellen, die alle Cloud TPU-bezogenen Messwerte und Logs enthalten. Informationen zum Einrichten dieser Dashboards in Ihrem Projekt von Google Cloud finden Sie unter Monitoring- und Logging-Dashboards.

Profile für Arbeitslasten auf TPU-VMs erstellen

Mit der Profilerstellung können Sie die Trainingsleistung Ihres Modells auf TPU-VMs optimieren. Sie verwenden TensorBoard und das TPU-TensorBoard-Plug-in, um ein Profil Ihres Modells zu erstellen. Weitere Informationen zur Profilerstellung für Ihre Arbeitslast finden Sie unter Profil für Modell auf Cloud TPU-VMs erstellen.

Weitere Informationen zur Verwendung von TensorBoard mit einem der unterstützten Frameworks finden Sie in den folgenden Dokumenten: