在 AI 辅助下监控 Cloud SQL 并排查问题

中继续查看调查结果。

本文档介绍了如何使用 AI 辅助来帮助您监控 Cloud SQL 资源并对其进行问题排查。您可以使用 Cloud SQL 和 Gemini Cloud Assist 的 AI 辅助问题排查工具,来排查查询速度缓慢问题排查数据库负载过高问题

限制

Cloud SQL 中的 AI 辅助问题排查存在以下限制:

准备工作

  1. 确保已为您的 Google Cloud 用户账号和项目设置了 Gemini Cloud Assist

    设置 Gemini Cloud Assist 后,您可能需要等待五分钟让服务传播,然后才能在 Cloud SQL 中启用 AI 辅助问题排查。

  2. 确保您的实例是 Cloud SQL 企业 Plus 版实例。
  3. 确保您的 Cloud SQL 实例使用新网络架构
  4. 启用 Cloud SQL 企业 Plus 版和 Cloud SQL 企业版的 Query Insights。

所需的角色和权限

如需获得使用 AI 辅助问题排查所需的权限,请让您的管理员为您授予托管 Cloud SQL 实例的项目的以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

这些预定义角色包含使用 AI 辅助问题排查所需的权限。如需查看所需的确切权限,请展开所需权限部分:

所需权限

使用 AI 辅助问题排查需要以下权限:

  • databaseinsights.performanceIssues.detect
  • databaseinsights.performanceIssues.investigate

您也可以使用自定义角色或其他预定义角色来获取这些权限。

如需详细了解使用 Gemini Cloud Assist 调查所需的角色和权限,请参阅使用 Gemini Cloud Assist 调查排查问题

启用 AI 辅助问题排查

为 Cloud SQL 实例启用 AI 辅助问题排查后,Cloud SQL 可以分析数据库的性能并检测查询执行中的异常情况。当 Cloud SQL 检测到查询性能异常或发现系统负载过高时,AI 辅助问题排查会帮助您根据证据分析情况并提供建议。

如需为 Cloud SQL 实例启用 AI 辅助问题排查,请执行以下操作:

  1. 在 Google Cloud 控制台中,前往 Cloud SQL 实例页面。

    转到“Cloud SQL 实例”

  2. 如需打开实例的概览页面,请点击实例名称。
  3. 配置图块中,点击修改配置
  4. 自定义实例部分中,展开 Query Insights
    1. 如果尚未选择,请选择启用 Query Insights
    2. 仅适用于 Cloud SQL 企业 Plus 版:如果尚未选择,请选择启用企业 Plus 版功能
  5. 仅对于 Cloud SQL 企业 Plus 版,选择启用 AI 辅助问题排查。对于 Cloud SQL 企业版实例,只有在启用 Gemini Cloud Assist 后,才能使用 AI 辅助问题排查功能。
  6. 点击保存
  7. 为获得最佳效果,请在 Google Cloud 控制台中启用 AI 辅助问题排查后等待 24 小时,以便 Cloud SQL 构建实例、数据库和查询的平均性能基准。
  8. 如需详细了解如何为 Cloud SQL 企业 Plus 版启用 Query Insights,请参阅使用 Query Insights 提升查询性能

打开 Gemini Cloud Assist

如需将 Gemini Cloud Assist 与 Cloud SQL 搭配使用,请执行以下操作:

  1. 如需打开 Cloud Assist 面板,请点击 打开或关闭 Gemini Cloud Assist 对话
  2. Cloud Assist 面板中,输入描述您感兴趣的信息的提示。
  3. 输入提示后,点击 发送提示。Gemini 会根据过去一小时的信息,返回针对您的提示的回答。

排查查询速度缓慢问题

如需使用 AI 辅助功能排查查询速度缓慢问题,请在 Google Cloud 控制台中前往 Cloud SQL 实例的 Query Insights 信息中心。

热门查询表

您可以在查询数据分析信息中心的热门查询表部分中,借助 AI 辅助功能开始排查查询速度缓慢问题。

Cloud SQL 可帮助您确定在特定检测时间段内哪些查询的执行速度低于平均水平。在Query Insights信息中心内选择一个时间范围后,Cloud SQL 会使用所选时间范围结束前 24 小时的检测时间段,检查是否有任何查询的执行速度低于平均水平。

当您调整数据库负载图表的时间范围过滤条件或任何其他过滤条件(例如数据库或用户)时,Cloud SQL 会刷新热门查询表,并根据新查询列表和更新后的检测时间段重新运行异常检测。

对于 Cloud SQL 企业 Plus 版实例,当 Cloud SQL 检测到异常时,会发生以下情况:

如果查询的运行速度低于预期,系统会显示警告 warning_spark 图标。当您点击任一图标时,系统会使用 Gemini Cloud Assist 来帮助分析查询执行情况,并提供有关可能导致任何问题的观察结果。根据这些观察结果,Gemini Cloud Assist 会生成一个有助于您解决问题的假设。

如需在查询数据分析信息中心的热门查询表中排查查询速度缓慢问题,请执行以下操作:

  1. 在 Google Cloud 控制台中,前往 Cloud SQL 实例页面。

    转到“Cloud SQL 实例”

  2. 如需打开实例的概览页面,请点击实例名称。
  3. 在 SQL 导航菜单中,点击 Query Insights
  4. 已执行的查询图表中,使用时间范围过滤条件选择 1 小时、6 小时、1 天、7 天、30 天或自定义范围。
  5. 热门查询表格的查询标签页下,查看数据库的查询列表。
  6. 如果某个查询的平均执行时间(毫秒)值旁边显示警告 warning_spark 图标,则表示 Cloud SQL 检测到查询性能存在异常。Cloud SQL 会检查所选时间范围结束前 24 小时时间段内是否存在异常。
  7. 点击警告图标 warning_spark
  8. 查询速度比平时慢对话框中,点击新调查,开始借助 Gemini Cloud Assist 提供的 AI 辅助功能排查问题。 大约两分钟后,系统会打开调查详情窗格,其中包含以下部分:
    • 问题。正在调查的问题的说明,包括调查的开始时间和结束时间。
    • 观察。有关问题的观测结果列表。例如,这些信息可能包括锁争用详情,例如查询的锁等待比率高于预期。
    • 假设。AI 推荐的有助于解决查询运行缓慢问题的操作列表。
  9. 如果您想查看与查询相关的所有调查,请在查询速度异常缓慢对话框中点击查看所有调查。 系统会打开 Gemini Cloud Assist 页面,您可以在其中查看所有当前正在运行和之前已完成的调查。您可以按项目或标签过滤该页面,例如,查找所需的特定调查。

    或者,如需查看之前的所有调查,请点击通知图标 ,然后选择与任何调查关联的通知以打开 Gemini Cloud Assist 页面。

  10. 或者,如果您想调查任何查询的延迟时间,请完成以下步骤:
    1. 确定要调查的具体查询。
    2. 操作列中,点击与相应查询关联的操作 图标。
    3. 在菜单中选择调查延迟时间,以运行 Gemini Cloud Assist 调查。

查询详情

您还可以在查询详情页面中借助 AI 辅助功能排查查询速度缓慢问题。

  1. 在 Google Cloud 控制台中,前往 Cloud SQL 实例页面。

    转到“Cloud SQL 实例”

  2. 如需打开实例的概览页面,请点击实例名称。
  3. 点击查询数据分析以打开查询数据分析信息中心。
  4. 查询数据分析信息中心内,点击热门查询中要查看的查询。系统会显示查询详情页面。
  5. 对于 Cloud SQL 企业 Plus 版,如果 Cloud SQL 检测到查询存在异常,则查询详情页面中会显示以下一个或多个指标:
    • 详情屏幕上显示 This query is slower than usual 消息,以及调查选项。
    • 查询延迟时间图表中显示 Query slower than usual 消息。如果系统显示此消息,请点击调查按钮,开始借助 Gemini Cloud Assist 的 AI 辅助功能排查问题。

      大约两分钟后,系统会打开调查详情窗格,其中包含以下部分:

      • 问题。正在调查的问题的说明,包括调查的开始时间和结束时间。
      • 观察。有关问题的观测结果列表。例如,这些信息可能包括锁争用详情,例如查询的锁等待比率高于预期。
      • 假设。AI 推荐的有助于解决查询运行缓慢问题的操作列表。
  6. 可选:使用时间范围过滤条件选择 1 小时、6 小时、1 天、7 天、30 天或自定义范围。当您调整查询详情页面的时间范围过滤条件时,Cloud SQL 会重新运行异常检测。
  7. 如果 Cloud SQL 未检测到查询异常,您仍可以通过点击查询延迟时间卡片中的调查按钮对查询运行分析。

分析查询延迟时间

借助 AI 辅助功能,您可以对查询延迟时间的详细信息进行分析和问题排查。

分析时间段

分析时间段包括您在查询数据分析信息中心或查询详情页面的数据库负载图表中选择的时间范围结束之前的 24 小时。Cloud SQL 会使用此时间段将基准指标与异常时间段内检索的指标进行比较。

查询详情页面上,对于 Cloud SQL 企业 Plus 版,如果 Cloud SQL 检测到查询存在异常,则在您从 Query Insights 信息中心选择查询后,Cloud SQL 会使用异常结束后的最近 24 小时对查询执行基准性能分析。如果 Cloud SQL 未检测到查询存在异常,并再次对查询运行异常检测,则 Cloud SQL 会将所选时间范围结束前 48 小时作为分析时间段的性能基准。

检测到的异常时间段

检测到的异常时间段仅适用于 Cloud SQL 企业 Plus 版实例。

检测到的异常时间段表示 Cloud SQL 发现查询性能异常变化的时间段。Cloud SQL 会使用在分析时间段内针对查询衡量的基准性能。

如果 Cloud SQL 在所选时间段内检测到某个查询存在多个异常,则 Cloud SQL 会使用最近一次检测到的异常。

查询性能提示示例

您还可以使用 Gemini Cloud Assist 输入提示,以帮助您提高查询的性能。Gemini Cloud Assist 会回答针对所选 Cloud SQL 实例和数据库提出的问题。

提示 回答类型
我的数据库中延迟时间最长的查询是什么?
  • 按延迟时间排序的查询摘要。 Gemini 会根据 Query Insights 数据库负载图表中选择的时间范围过滤条件来确定回答范围。
  • 有关如何按延迟时间识别和排序查询的指导。
此数据库实例中最慢的查询是什么? 有关如何按延迟时间识别最慢查询的指导。

排查数据库负载过高的问题

通过访问 Google Cloud 控制台中的Query Insights信息中心,您可以分析数据库并在系统遇到高于平均水平的数据库负载时排查事件。Cloud SQL 会使用所选时间范围之前 24 小时的数据来计算数据库的预期负载。您可以调查高负载事件的原因,并分析性能下降背后的证据。Cloud SQL 还会提供有关优化数据库以提升性能的建议。

如需使用 AI 辅助功能排查数据库负载过高问题,请在 Google Cloud 控制台中前往实例概览页面或Query Insights信息中心。

实例概览页面

如需在实例概览页面内借助 AI 辅助功能排查数据库负载过高问题,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,前往 Cloud SQL 实例页面。

    转到“Cloud SQL 实例”

  2. 如需打开实例的概览页面,请点击实例名称。
  3. 概览页面中,从图表菜单中选择数据库的指标。您可以选择任何指标,例如 CPU 利用率
  4. 可选:如需选择特定的分析时间段,请使用时间范围过滤条件选择 1 小时、6 小时、1 天、7 天、30 天或自定义范围。

    您可以放大图表的特定部分,以便分析您发现的高负载区域。例如,在高负载区域,CPU 利用率可能会接近 100%。 如需放大,您可以点击并选择图表的一部分。

    点击调查性能按钮,开始借助 Gemini Cloud Assist 中的 AI 辅助功能排查数据库负载过高的问题。

    大约两分钟后,系统会打开调查详情窗格,其中包含以下部分:

    • 问题。正在调查的问题的说明,包括调查的开始时间和结束时间。
    • 观察。有关问题的观测结果列表。例如,这些信息可能包括锁争用详情,例如查询的锁等待比率高于预期。
    • 假设。AI 推荐的有助于解决查询运行缓慢问题的操作列表。

Query Insights 信息中心

如需在Query Insights信息中心内借助 AI 辅助功能排查数据库负载过高问题,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,前往 Cloud SQL 实例页面。

    转到“Cloud SQL 实例”

  2. 如需打开实例的概览页面,请点击实例名称。
  3. 点击查询数据分析以打开查询数据分析信息中心。
  4. 可选:使用时间范围过滤条件选择 1 小时、6 小时、1 天、7 天、30 天或自定义范围。
  5. 您可以放大图表的特定部分,以便查看查询执行时间较高的数据库负载区域。 如需放大,您可以点击并选择图表的一部分。

    数据库负载图表中,点击调查性能按钮,开始借助 Gemini Cloud Assist 的 AI 辅助功能排查数据库负载过高的问题。

    大约两分钟后,系统会打开调查详情窗格,其中包含以下部分:

    • 问题。正在调查的问题的说明,包括调查的开始时间和结束时间。
    • 观察。有关问题的观测结果列表。例如,这些信息可能包括锁争用详情,例如查询的锁等待比率高于预期。
    • 假设。AI 推荐的有助于解决查询运行缓慢问题的操作列表。

分析数据库负载过高的情况

借助 AI 辅助功能,您可以对数据库负载的详细信息进行分析和问题排查。

分析时间段

Cloud SQL 会分析您在Query Insights信息中心或实例概览页面的数据库负载图表中选择的时间段内的数据库。如果您选择的时间段不足 24 小时,Cloud SQL 会分析整个时间段。如果您选择的时间段超过 24 小时,则 Cloud SQL 仅选择该时间段的最后 24 小时进行分析。

为了计算数据库的基准性能分析,Cloud SQL 会在分析时间段内纳入 24 小时的基准时间段。如果您选择的时间段不是在周一,则 Cloud SQL 会使用所选时间段前 24 小时作为基准时间段。如果您选择的时间段是周一,则 Cloud SQL 会使用所选时间段前 7 天作为基准时间段。

指标分析

当 Cloud SQL 开始分析时,Cloud SQL 会检查各种指标是否发生重大变化,包括但不限于以下指标:

  • 每秒查询次数 (QPS)
  • CPU
  • 内存
  • 磁盘 I/O

Cloud SQL 会将数据库的基准汇总数据与分析时间窗口的性能数据进行比较。如果 Cloud SQL 检测到关键指标的阈值发生显著变化,则 Cloud SQL 会指示数据库可能存在问题。所发现的情况可能说明了所选时间段内数据库负载过高的根本原因。

建议

当 Gemini Cloud Assist 完成分析后,调查详情窗格的假设部分会列出可据以采取行动的分析洞见,以帮助您解决问题。

在某些情况下,根据分析结果,可能不会提供任何建议。

系统性能提示示例

您还可以使用 Gemini Cloud Assist 输入提示,以收集有关系统性能的信息。Gemini Cloud Assist 会回答针对所选 Cloud SQL 实例提出的问题。

提示 回答类型
过去 7 天内此数据库实例有多少错误日志条目? 按严重程度类型分组的日志条目摘要。 Gemini 会根据实例性能图表中选择的时间范围过滤条件来确定回答范围。
今天下午 2 点左右,此数据库实例的 CPU 利用率是多少? 指标结果为时间间隔内的 CPU 利用率百分比范围。

排查连接问题

您可以使用 Gemini Cloud Assist 开始排查连接问题,也可以在出现连接错误时发起调查。AI 助理会评估多个来源,以确定客户端在尝试连接到 Cloud SQL 数据库时可能遇到问题的原因。

调查连接问题

如需使用 AI 辅助功能排查连接问题,请执行以下操作:

  1. 在 Google Cloud 控制台中,前往 Cloud SQL 实例页面。

    转到“Cloud SQL 实例”

  2. 如需打开实例的概览页面,请点击实例名称。
  3. 借助 AI 辅助式问题排查功能解决数据库问题窗格中,点击探索调查
  4. 调查选项窗口中,找到连接使用情况部分。
  5. 可选:使用时间范围过滤条件选择特定的分析时间段,可以是 1 小时、6 小时、1 天、7 天或自定义范围。
  6. 点击调查

    Gemini 会自动分析您的实例元数据、日志和网络配置。 分析完成后,调查详情窗格会显示以下部分:

    • 问题:连接失败的摘要,包括受影响的资源和时间戳。
    • 观测结果:从信号中收集的证据,例如数据库何时达到 max_connections 限制或活跃并发连接数,并与实例元数据进行交叉引用。证据可用于确定流量高峰或未关闭的会话是否可能是实例停机的原因。
    • 假设:AI 生成的根本原因和补救措施。

连接问题提示示例

您还可以使用 Gemini Cloud Assist 排查客户端与 Cloud SQL 实例之间的连接问题。

提示 回答类型
为什么我会看到连接错误? Gemini 会评估与数据库的连接,并建议进行改进,例如启用托管式连接池。

获取索引建议

您可以在 Query Insights 中从 Cloud SQL 获取索引建议。 如需详细了解如何获取索引建议,请参阅使用索引顾问

索引建议提示示例

使用 Gemini Cloud Assist 详细了解如何在数据库中使用索引。 Gemini Cloud Assist 会回答针对所选 Cloud SQL 实例提出的问题。

提示 回答类型
显示过去 7 天内运行的查询的索引建议。 有关哪些类型的查询可从索引中受益的指导。

监控活跃查询

使用 Query Insights 信息中心监控活跃查询,并在必要时终止长时间运行的进程。 如需了解详情,请参阅监控活跃查询

活跃查询提示示例

使用 Gemini Cloud Assist 详细了解导致高延迟时间或 CPU 负载的查询。Gemini Cloud Assist 会回答针对所选 Cloud SQL 实例提出的问题。

提示 回答类型
我的数据库中当前运行的热门查询有哪些? 有关如何查找运行时间最长且最消耗资源的查询的指导。

后续步骤