本文档介绍了如何排查在 AI 优化型虚拟机或集群上运行的工作负载的性能缓慢问题。
如需了解如何识别性能缓慢的情况,请参阅监控 Compute Engine 实例和 Slurm 集群。
识别并解决工作负载中任何可疑的落后者:完成以下步骤:
检查是否可以为工作负载使用落后者检测功能。如需查看使用落后任务检测功能的限制和要求,请参阅监控 Compute Engine 实例和 Slurm 集群。
如果您无法使用落后者检测功能,请使用其他选项来排查性能缓慢问题。
如需检查工作负载的任何虚拟机是否被怀疑为落后者,请查看落后者检测指标。
例如,如需在 Cloud Monitoring 中直观呈现项目的所有疑似落后者,请完成以下步骤:
-
在 Google Cloud 控制台中,前往 信息中心页面:
如果您使用搜索栏查找此页面,请选择子标题为监控的结果。
在过滤条件窗格的类型 部分,点击 Google 服务。
在名称列中,点击 Cluster Director 健康状况监控。
系统随即会打开相应信息中心的详情页面。
使用工具栏中的时间范围选择器选择性能缓慢的时间范围。异常值检测功能通常最多需要 10 分钟才能报告异常值。
如需检查工作负载的任何虚拟机是否疑似为落后者,请参阅落后者检测部分。使用此查询可查看疑似拖后腿的实例表中是否列出了工作负载的任何虚拟机。
-
根据工作负载中疑似落后虚拟机的数量,按如下方式操作:
如果没有虚拟机被怀疑是落后者,请验证落后者检测是否正常运行。如需验证您的项目是否正在运行滞留检测服务,请按照说明查看滞留检测日志,并指定查询项目中的所有滞留检测日志。 然后,按如下方式继续操作:
如果您的项目在虚拟机运行至少 10 分钟后没有滞后检测日志,则表示滞后检测服务未在您的项目中运行。如需解决此问题,请与 Cloud Customer Care 团队联系,或稍后重试。
否则,如果您已验证 Straggler 检测功能是否正在为您的项目运行,并且您的工作负载支持 Straggler 检测,则性能缓慢可能是由其他问题引起的。使用其他选项排查性能缓慢问题。
如果工作负载中只有少量虚拟机被报告为疑似落后者,请测试将工作负载从疑似虚拟机迁移出去。然后,按如下方式继续操作:
如果迁移确实恢复了工作负载的性能,则怀疑的虚拟机可能存在故障。对于每个此类虚拟机,请按照步骤报告有故障的主机,并将
FAULT_REASON设置为PERFORMANCE,并将DESCRIPTION设置为straggler node。如果迁移无法恢复性能,则可能存在更多疑似落后虚拟机,或者性能缓慢可能是由其他问题引起的。您可以检查工作负载中是否有更多虚拟机被怀疑为落后者,也可以使用其他选项来排查性能缓慢问题。
如果工作负载中有大量虚拟机被报告为疑似落后者,请使用其他选项来排查性能缓慢问题。
使用其他选项排查性能缓慢问题:如果报告的可疑落后虚拟机列表很长,或者移除报告的落后虚拟机后性能未恢复,请使用其他选项排查性能缓慢问题,例如:
- 使用集群健康状况扫描器测试集群。
- 查看其他效果指标。
- 查看其他问题排查文档。例如,请参阅 Compute Engine 文档中的排查 GPU 虚拟机问题。