Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

排查性能下降问题

本文档介绍了如何排查在 AI 优化型虚拟机或集群上运行的工作负载的性能缓慢问题。

如需了解如何识别性能缓慢的情况，请参阅监控 Compute Engine 实例和 Slurm 集群。

识别并解决工作负载中任何可疑的滞后任务：完成以下步骤：
1. 检查是否可以为工作负载使用落后者检测功能。如需查看使用落后者检测功能的限制和要求，请参阅监控 Compute Engine 实例和 Slurm 集群。
  
  如果您无法使用落后者检测功能，请使用其他选项来排查性能缓慢的问题。
2. 如需检查工作负载的任何虚拟机是否疑似为落后者，请查看落后者检测指标。
  
  例如，如需在 Cloud Monitoring 中直观呈现项目的所有疑似落后者，请完成以下步骤：
  
  提示：或者，如果您想过滤项目中的疑似落后者，请按照说明查看落后者检测日志，并指定查询特定虚拟机的疑似落后者日志。
  1. 在 Google Cloud 控制台中，前往 信息中心页面：
    前往信息中心
    
    如果您使用搜索栏查找此页面，请选择子标题为监控的结果。
  2. 在过滤条件窗格的类型部分，点击 Google 服务。
  3. 在名称列中，点击 Cluster Director 健康状况监控。
    
    系统随即会打开相应信息中心的详情页面。
  4. 使用工具栏中的时间范围选择器选择性能缓慢的时间范围。离群点检测功能通常最多需要 10 分钟才能报告离群点。
  5. 如需检查工作负载的任何虚拟机是否疑似为落后者，请查看落后者检测部分。使用此查询可查看疑似落后的实例表格是否列出了工作负载的任何虚拟机。
3. 根据工作负载中疑似落后的虚拟机数量，按如下方式操作：
  - 如果没有虚拟机被怀疑是落后者，请验证落后者检测是否正常运行。如需验证您的项目是否正在运行滞留检测服务，请按照说明查看滞留检测日志，并指定查询项目中的所有滞留检测日志。然后，按如下方式继续操作：
    - 如果您的项目在虚拟机运行至少 10 分钟后没有滞后任务检测日志，则表示滞后任务检测服务未在您的项目中运行。如需解决此问题，请与 Cloud Customer Care 团队联系，或稍后重试。
    - 否则，如果您已验证项目正在运行 Straggler 检测，并且您的工作负载支持 Straggler 检测，则性能缓慢可能是由其他问题引起的。使用其他选项排查性能缓慢问题。
  - 如果工作负载中只有少量虚拟机被报告为疑似落后者，请测试将工作负载从疑似虚拟机迁移出去。然后，按如下方式继续操作：
    - 如果迁移确实恢复了工作负载的性能，则怀疑的虚拟机可能存在故障。对于每个此类虚拟机，请按照步骤报告有故障的主机，并将 FAULT_REASON 设置为 PERFORMANCE，并将 DESCRIPTION 设置为 straggler node。
    - 如果迁移无法恢复性能，则可能存在更多疑似落后虚拟机，或者性能缓慢可能是由其他问题引起的。您可以检查是否有更多工作负载虚拟机被怀疑是落后虚拟机，或者使用其他选项来排查性能缓慢问题。
  - 如果工作负载中有大量虚拟机被报告为疑似落后者，请使用其他选项来排查性能缓慢问题。
使用其他选项排查性能缓慢问题：如果报告的可疑落后虚拟机列表很长，或者移除报告的落后虚拟机后性能未恢复，请使用其他选项排查性能缓慢问题，例如：
- 使用集群健康状况扫描器测试集群。
- 查看其他效果指标。
- 查看其他问题排查文档。例如，请参阅 Compute Engine 文档中的排查 GPU 虚拟机问题。

排查性能下降问题 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

排查性能下降问题