排查性能下降问题

本文档介绍了如何排查在 AI 优化型虚拟机或集群上运行的工作负载的性能缓慢问题。

如需了解如何识别性能缓慢的情况,请参阅监控 Compute Engine 实例和 Slurm 集群

  1. 识别并解决工作负载中任何可疑的落后者:完成以下步骤:

    1. 检查是否可以为工作负载使用落后者检测功能。如需查看使用落后任务检测功能的限制和要求,请参阅监控 Compute Engine 实例和 Slurm 集群

      如果您无法使用落后者检测功能,请使用其他选项来排查性能缓慢问题

    2. 如需检查工作负载的任何虚拟机是否被怀疑为落后者,请查看落后者检测指标。

      例如,如需在 Cloud Monitoring 中直观呈现项目的所有疑似落后者,请完成以下步骤:

      1. 在 Google Cloud 控制台中,前往 信息中心页面:

        前往信息中心

        如果您使用搜索栏查找此页面,请选择子标题为监控的结果。

      2. 在过滤条件窗格的类型 部分,点击 Google 服务

      3. 名称列中,点击 Cluster Director 健康状况监控

        系统随即会打开相应信息中心的详情页面。

      4. 使用工具栏中的时间范围选择器选择性能缓慢的时间范围。异常值检测功能通常最多需要 10 分钟才能报告异常值。

      5. 如需检查工作负载的任何虚拟机是否疑似为落后者,请参阅落后者检测部分。使用此查询可查看疑似拖后腿的实例表中是否列出了工作负载的任何虚拟机。

    3. 根据工作负载中疑似落后虚拟机的数量,按如下方式操作:

  2. 使用其他选项排查性能缓慢问题:如果报告的可疑落后虚拟机列表很长,或者移除报告的落后虚拟机后性能未恢复,请使用其他选项排查性能缓慢问题,例如: