排解 PyTorch - TPU 問題

本指南提供疑難排解資訊,協助您找出並解決在 Cloud TPU 上訓練 PyTorch 模型時可能遇到的問題。如需 Cloud TPU 的一般入門指南,請參閱快速入門導覽課程:建立 TPU 執行個體

排解訓練效能緩慢問題

如果模型訓練速度緩慢,請生成並查看指標報表

如要自動分析指標報表並提供摘要,請使用 PT_XLA_DEBUG=1 執行工作負載。

如要進一步瞭解可能導致模型訓練速度緩慢的問題,請參閱「已知效能注意事項」。

效能分析

如要深入分析工作負載,找出效能瓶頸,請參閱下列資源:

更多偵錯工具

您可以指定環境變數,控制 PyTorch/XLA 軟體堆疊的行為。

如果遇到非預期的錯誤並需要協助,請在 GitHub 上提報問題

管理 XLA 張量

XLA 張量 Quirks 說明使用 XLA 張量和共用權重時應注意的事項。