本文档介绍了如何在 Cloud Monitoring 中查看指标,以监控和尝试优化批量作业的资源。如需详细了解作业运行所用的资源,请参阅 作业资源。
对于任何作业,Monitoring 都会提供基本指标,例如 CPU 利用率和网络流量。但是,某些指标(例如内存和进程利用率)只能在作业安装 Ops Agent 后收集。 作业资源的指标有助于您评估每项资源的性能和利用率。此信息可以帮助您确定作业未来迭代的改进之处。例如,您可以移除未使用的资源以帮助优化费用,也可以改进或增加紧张的资源以帮助提升性能。
准备工作
- 如果您之前未使用过 Batch,请查看 Batch 使用入门 ,并完成 项目和用户的前提条件以启用 Batch。
- 可选:如需收集作业的其他指标,请 创建并运行 自动安装 Ops Agent 的作业。
- 如果您的项目尚未启用 Monitoring API,请启用该 API:
启用 API 所需的角色
如需启用 API,您需要拥有 Service Usage Admin IAM 角色 (
roles/serviceusage.serviceUsageAdmin),该角色包含serviceusage.services.enable权限。了解如何授予角色。 -
如需获得查看可观测性指标所需的权限,请让您的管理员为您授予项目的 Monitoring Metric Viewer (
roles/monitoring.metricViewer) IAM 角色。如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
查看作业资源的指标
结束后自动删除。 如果您需要将指标保留更长时间, 请将 Monitoring 指标导出到 BigQuery。观察和监控虚拟机在 Compute Engine 文档中提供了有关虚拟机指标的相关概念信息;但是,建议使用不同的方法来查看 Batch 作业的虚拟机指标。具体而言, Compute Engine 文档介绍了如何使用 Compute Engine 的 预定义 Monitoring 信息中心或 控制台中的 Google Cloud Compute Engine 页面来查看指标。 但重要的是,这些方法不会显示有关已删除虚拟机的信息。因此,除非您只想在 Batch 作业运行时查看其指标,否则请勿使用这些方法。
如本部分所述,使用 Metrics Explorer 图表查看正在运行和已完成的 Batch 作业的指标。 值得注意的是,除非您将图表保存到自定义信息中心,否则图表是临时的。
如需创建图表以查看一个或多个指标,请执行以下操作:
- 可选:如果您打算保存图表, 请为图表确定或创建自定义信息中心 。
为一个或多个指标创建 Metrics Explorer 图表。
如果没有过滤条件,图表中的每个虚拟机指标都包含项目中所有虚拟机的数据。或者,如果您想过滤图表以仅包含来自所有或特定 Batch 作业的指标,请添加以下过滤条件:
group=RESOURCE_GROUP_NAME将
RESOURCE_GROUP_NAME替换为 Batch 作业的资源组的名称。如需了解详情,请参阅本文档中的 创建资源组以过滤指标。
创建资源组以过滤指标
您可以将 资源组用作可自定义过滤条件 以用于 Metrics Explorer 图表。 如需为项目中的所有或特定 Batch 作业创建资源组,请执行以下操作:
选择一个标签作为成员资格条件,以确定要将哪些作业纳入该 组:
- 所有 Batch 作业 :使用预定义的
batch-node标签,该标签会自动应用于所有 Batch 作业的所有资源,并且具有 null 值。 特定 Batch 作业 :使用仅应用于特定 Batch 作业的资源的标签。
例如,如果您想根据完整或部分作业名称创建组,请使用预定义的
batch-job-id标签名称和特定值。batch-job-id标签会自动应用于所有 Batch 作业的所有资源,并使用作业名称进行定义。或者,如果您使用自定义标签,则必须在创建作业时将自定义标签应用于您希望纳入该组的 Batch 作业的所有资源。
- 所有 Batch 作业 :使用预定义的
确保您的项目至少有一个作业带有您选择的标签,并且此作业处于
RUNNING状态。否则,当您尝试创建资源组时,此标签不会显示为选项。创建资源组。 指定成员资格条件时,请执行以下操作:
- 将类型 设置为标记 。
将标记 字段设置为您选择的标签的名称。然后,根据您希望组包含的标签值设置以下字段。
例如,如果您希望此组包含所有 Batch 作业,请将标记 设置为
batch-node,并将运算符 设置为存在 。 或者,如果您希望此组包含名称以test开头的 Batch 作业 ,请将 标记 设置为batch-job-id, 将 运算符 设置为 以…开头,并将 值 设置为test。
后续步骤
- 详细了解作业资源指标:
- 了解监控和优化 Batch 作业的其他方法: