借助 AI 辅助功能进行监控和问题排查

本文档介绍了如何使用 AI 辅助来帮助您监控 Spanner 资源并排查相关问题。您可以使用 Spanner 和 Gemini Cloud Assist 的 AI 辅助问题排查工具来排查数据库负载过高的问题

准备工作

为您的Google Cloud 用户账号和项目设置 Gemini Cloud Assist

设置 Gemini Cloud Assist 后,服务最多需要五分钟才能传播完毕。等待传播完成,然后再在 Spanner 中启用 AI 辅助的问题排查功能。

所需的角色

如需获得使用 AI 辅助问题排查所需的权限,请让您的管理员为您授予 Spanner 数据库的以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

打开 Gemini Cloud Assist

  1. 在 Google Cloud 控制台中,前往 Spanner 实例页面。

    前往 Spanner 实例

  2. 如需打开实例的概览页面,请点击实例名称。

  3. 如需打开 Gemini,请点击星光图标 打开或关闭 Gemini Cloud Assist 对话

  4. 在 Gemini Cloud Assist 窗格中,输入描述您感兴趣的信息的提示。

  5. 输入提示后,点击 发送提示。Gemini 会根据过去一小时的信息,返回针对您的提示的回答。

排查数据库负载过高的问题

通过访问 Google Cloud 控制台中的 Query Insights 信息中心或系统洞见信息中心,您可以分析数据库并在系统遇到高于平均水平的数据库负载时排查事件。Spanner 会使用所选时间范围之前 24 小时的数据来计算数据库的预期负载。您会调查高负载事件的原因,并分析性能下降背后的证据。 Spanner 还提供了一些建议,帮助您优化数据库以提升性能。

如需使用 AI 辅助功能排查数据库负载过高问题,请在 Google Cloud 控制台中前往系统数据分析信息中心或查询数据分析信息中心。

Query Insights 信息中心

如需在Query Insights信息中心内借助 AI 辅助功能排查数据库负载过高问题,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,前往 Spanner 实例页面。

    前往 Spanner 实例

  2. 如需打开实例的概览页面,请点击实例名称。

  3. 可选:在数据库列表中,点击一个数据库。

  4. 在导航菜单中,点击 Query Insights

  5. 可选:使用时间范围过滤条件选择 1 小时、6 小时、1 天、7 天、30 天或自定义范围。

    您可以放大图表的特定部分,以便分析您发现的高负载区域。例如,在高负载区域,CPU 利用率可能会接近 100%。如需放大,您可以点击并选择图表的一部分。

  6. 总 CPU 利用率(所有查询)图表中,点击 Investigate performance(调查性能)按钮,开始借助 Gemini Cloud Assist 的 AI 辅助功能排查延迟时间问题。

    大约两分钟后,系统会打开调查详情窗格,其中包含以下部分:

    • 问题。正在调查的问题的说明,包括调查的开始时间和结束时间。
    • 观察。有关问题的观测结果列表。例如,这些信息可能包括锁争用详情,例如查询的锁等待比率高于预期。
    • 假设。AI 推荐的有助于解决查询运行缓慢问题的操作列表。

系统分析洞见信息中心

如需在系统数据分析信息中心内借助 AI 辅助功能排查数据库负载过高问题,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,前往 Spanner 实例页面。

    前往 Spanner 实例

  2. 如需打开实例的概览页面,请点击实例名称。

  3. 可选:在数据库下,点击某个数据库。

  4. 在导航菜单中,点击系统分析洞见

  5. 可选:使用时间范围过滤条件选择 1 小时、6 小时、1 天、7 天、30 天或自定义范围。

    您可以放大图表的特定部分,以便分析您发现的高负载区域。例如,在高负载区域,CPU 利用率可能会接近 100%。如需放大,您可以点击并选择图表的一部分。

    点击 探索调查按钮,开始借助 Gemini Cloud Assist 的 AI 辅助功能排查数据库负载问题。

    大约两分钟后,系统会打开调查详情窗格,其中包含以下部分:

    • 问题。正在调查的问题的说明,包括调查的开始时间和结束时间。
    • 观察。有关问题的观测结果列表。例如,这些信息可能包括锁争用详情,例如查询的锁等待比率高于预期。
    • 假设。AI 推荐的有助于解决查询运行缓慢问题的操作列表。

分析数据库负载过高的情况

借助 AI 辅助功能,您可以对数据库负载的详细信息进行分析和问题排查。

分析时间段

Spanner 会分析您在Query Insights 信息中心或系统数据分析信息中心的数据库负载图表中选择的时间段内的数据库。如果您选择的时间段不足 24 小时,Spanner 会分析整个时间段。如果您选择的时间段超过 24 小时,则 Spanner 只会选择该时间段的最后 24 小时进行分析。

为了计算数据库的基准性能分析,Spanner 会将 24 小时的基准时间段纳入其分析时间段。如果您选择的时间段不是在周一,则 Spanner 会使用所选时间段前 24 小时作为基准时间段。如果您选择的时间段是某个周一,则 Spanner 会使用所选时间段前 7 天作为基准时间段。

指标分析

当 Spanner 开始分析时,它会检查各种指标是否发生了重大变化,包括但不限于以下指标:

  • CPU 利用率
  • 读取和写入延迟时间(第 50 百分位和第 99 百分位)
  • 每秒读取和写入查询次数 (QPS)
  • 节点数
  • 会话指标
  • 锁定等待时间
  • 交易中止次数
  • 查询统计信息
  • 事务统计信息
  • 锁定统计信息
  • 分块统计信息

Spanner 会将数据库的基准汇总数据与分析时间窗口内的效果数据进行比较。如果 Spanner 检测到关键指标的阈值发生显著变化,则 Spanner 会指示数据库可能存在问题。所发现的情况可能说明了所选时间段内数据库负载过高的原因。

建议

当 Gemini Cloud Assist 完成分析后,调查详情窗格的假设部分会列出可据以采取行动的分析洞见,以帮助您解决问题。

在某些情况下,根据分析结果,可能没有可用的建议。

后续步骤