使用 H4D 实例增强 HPC 集群管理

增强型 HPC 集群管理功能可让您运行大规模、密集部署的 HPC 集群,并提供以下集群管理功能:

HPC 基础架构资源同位

当您使用具有增强管理功能的 H4D 实例时,可以请求 Compute Engine 将实例布置得尽可能靠近。这些机器具有以下功能:

  • Compute Engine 会以资源块的形式预配机器。

  • 通过启用 Cloud RDMA 的 200 Gbps 网络提高了工作负载可伸缩性。

这种资源安排可最大限度地减少网络跃点,并针对最短网络延迟时间进行优化。如需详细了解如何获取容量来部署密集分配的机器块,请参阅创建具有增强管理功能的 HPC 集群

集群拓扑感知布置

创建 H4D 虚拟机或 H4D 虚拟机集群后,您可以获取节点级和集群级拓扑信息。这些信息可帮助您执行以下操作:

  • 调整应用或工作负载设计,以进一步缩短网络延迟时间。

  • 了解并排查经常相互通信的虚拟机的网络延迟和性能问题。如果虚拟机意外地相距很远,则可能会出现这些问题。

如需了解详情,请参阅查看虚拟机拓扑

H4D 虚拟机的托管式维护和恢复

当您预留容量来创建 H4D 虚拟机或集群时, Google Cloud会在出现主机错误或主机故障报告后自动管理虚拟机的维护和恢复流程。这种方法称为受管模式,非常适合需要高稳定性的工作负载,并且需要自动化流程来最大限度地减少停机时间。

受管模式具有以下功能:

  • 仅使用预留容量进行恢复:Compute Engine 仅使用预留容量来重启虚拟机。如果预留中没有可用容量,则 Compute Engine 仅在您获得更多容量后才会重启虚拟机。

  • 自动重启虚拟机: Google Cloud 处理虚拟机的整个恢复过程。当需要进行主机维护时,Compute Engine 会自动将预留中的虚拟机迁移到其他可用机器上,然后重新启动这些虚拟机。

  • 块管理和可见性:您可以查看各个预留和预留块的拓扑、运行状况和维护状态。您还可以接收这些资源的维护通知,并选择在预定维护时间之前开始维护。

  • 潜在的 API 速率限制:对报告故障主机 API 的调用可能会受到每个预订的速率限制。

集群维护调度和控制

您可以在资源块中使用感知拓扑的调度来控制 H4D 实例的维护。此功能有助于同步升级,从而使工作负载更能应对主机事件,并最大限度地减少中断。

为了便于您完全控制维护事件,您可以使用以下功能:

维护调度类型

在预留容量以创建 H4D 虚拟机实例的虚拟机或集群时,您可以定义 Compute Engine 如何维护虚拟机运行的基础设施。您可以指定是否对虚拟机进行分组并同步维护调度 (grouped),也可以使虚拟机松散耦合并进行独立的维护调度 (independent)。

分组维护安排

分组维护调度类型有助于确保,无论 Compute Engine 何时预配虚拟机,运行相同工作负载的所有虚拟机都具有相同的计划维护频率。这种紧密耦合的维护可让您完全控制已用和未用容量,从而优化作业的性能。

在以下情况下,组维护调度类型非常有用:

  • 您的环境使用作业调度器,例如 Slurm 或 Google Kubernetes Engine。
  • 您希望运行高度并行化的计算工作负载。

独立维护调度

独立维护安排类型可为虚拟机提供不同的维护安排。如果您的工作负载在虚拟机具有单独的维护时间表时运行效率更高,则此配置非常适合。

管理主机活动

创建 H4D 虚拟机并启动工作负载后,您可以设置提醒,以便在虚拟机或预留块的维护安排、开始或完成时收到通知。您还可以查看虚拟机或预留块的维护时间,并在预定时间之前手动启动维护(如果需要)。这些选项可帮助您主动控制工作负载的停机时间并将其降至最低。

详情请参阅以下内容:

集群监控和诊断工具

为了便于监控和问题排查,H4D 实例包含故障主机报告服务,您可以使用该服务标记单个主机的问题。

后续步骤