H4D インスタンスによる HPC クラスタ管理の強化

強化された HPC クラスタ管理機能により、大規模で高密度にデプロイされた HPC クラスタを実行できます。次のクラスタ管理機能が提供されます。

HPC クラスタリソースのコロケーション
クラスタトポロジを考慮した配置
クラスタの運用モード
クラスタのメンテナンスのスケジュール設定と制御
クラスタモニタリングと診断ツール

HPC インフラストラクチャリソースのコロケーション

管理機能が強化された H4D インスタンスを使用すると、Compute Engine に各インスタンスをできるだけ近づけてプロビジョニングするようにリクエストできます。これらのマシンには次の機能があります。

Compute Engine は、マシンをリソースのブロックとしてプロビジョニングします。
Cloud RDMA 対応の 200 Gbps ネットワーキングにより、ワークロードの拡張性が向上しました。

このリソース構成により、ネットワークホップが最小限に抑えられ、ネットワークレイテンシが最小限になるように最適化されます。マシンの高密度で割り当てられたブロックをデプロイする容量を取得する方法については、管理機能が強化された HPC クラスタを作成するをご覧ください。

クラスタトポロジを考慮した配置

VM または H4D VM のクラスタを作成すると、ノードレベルとクラスタレベルでトポロジ情報を取得できます。この情報は、次の操作に役立ちます。

ネットワークレイテンシをさらに最小限に抑えるように、アプリケーションまたはワークロードの設計を調整する。
相互に頻繁に通信する VM のネットワークレイテンシとパフォーマンスの問題を理解し、トラブルシューティングする。この問題は、VM が予期せず離れた場所に配置されている場合に発生することがあります。

詳細については、VM のトポロジを表示するをご覧ください。

H4D VM のマネージドメンテナンスと復元

H4D VM またはクラスタを作成する容量を予約すると、 Google Cloudは、ホストエラーまたは障害のあるホストの報告の後に、VM のメンテナンスと復元プロセスを自動的に管理します。このアプローチはマネージドモードと呼ばれ、ワークロードに高い安定性が求められ、ダウンタイムを最小限に抑える自動化プロセスが必要な場合に最適です。

マネージドモードには次の機能があります。

復元にのみ予約済み容量を使用する: Compute Engine は、予約済み容量を使用して VM を再起動します。予約で使用可能な容量がない場合、Compute Engine は容量を追加取得した後にのみ VM を再起動します。
VM の自動再起動: Google Cloud は、VM の復元プロセス全体を処理します。ホストメンテナンスが必要な場合、Compute Engine は予約内の他の使用可能なマシンに VM を自動的に移行し、VM を再起動します。
ブロックの管理と可視性: 個々の予約と予約ブロックのトポロジ、健全性、メンテナンスステータスを表示できます。これらのリソースについては、メンテナンス通知を受け取ったり、必要に応じてスケジュールされたメンテナンス時刻より前にメンテナンスを開始したりすることもできます。
API レート上限の可能性: report faulty host API の呼び出しは、予約ごとにレート制限される可能性があります。

クラスタのメンテナンスのスケジュール設定と制御

リソースブロックでトポロジを考慮したスケジューリングを使用して、H4D インスタンスのメンテナンスを制御します。この機能により、アップグレードが同期され、ワークロードのホストイベントに対する復元力を高め、中断を最小限に抑えることができます。

メンテナンスイベントを完全に制御するために、次の機能を使用できます。

メンテナンスのスケジュール設定のタイプ
ホストイベントを管理する

メンテナンスのスケジュール設定のタイプ

H4D VM インスタンスの VM またはクラスタを作成するために容量を予約する際に、VM が実行されるインフラストラクチャを Compute Engine がどのように維持するかを定義できます。VM をグループ化してメンテナンスのスケジュール設定を同期させるか（グループ化）、VM を疎結合にしてメンテナンスのスケジュール設定を個別に行うか（個別）を指定できます。

グループ化されたメンテナンスのスケジュール設定

グループ化されたメンテナンスのスケジューリング設定のタイプを使用すると、Compute Engine が VM をプロビジョニングするタイミングに関係なく、同じワークロードを実行するすべての VM の計画メンテナンスの頻度が同じになります。この密結合メンテナンスにより、使用済み容量と未使用容量を完全に制御できるため、ジョブのパフォーマンスを最適化できます。

グループ化されたメンテナンスのスケジュール設定のタイプは、次のような場合に便利です。

環境で Slurm や Google Kubernetes Engine などのジョブスケジューラを使用している。
高度に並列化されたコンピューティングワークロードを実行する。

個別のメンテナンスのスケジュール設定

個別のメンテナンススケジュール設定のタイプでは、VM に異なるメンテナンススケジュールが設定されます。この構成は、VM に個別のメンテナンススケジュールを設定するとワークロードの実行効率が向上する場合に最適です。

ホストイベントを管理する

H4D VM を作成してワークロードを開始したら、アラートを設定し、VM または予約済みブロックのメンテナンスがスケジュール設定、開始、完了されたときに通知を受け取ることができます。また、スケジュール設定された時刻より前に、VM または予約済みブロックのメンテナンスを表示して、必要に応じて手動で開始することもできます。これらのオプションを使用すると、ワークロードのダウンタイムを事前に制御して最小限に抑えることができます。

詳しくは以下をご覧ください。

クラスタモニタリングと診断ツール

モニタリングとトラブルシューティングのために、H4D インスタンスには Faulty host reporting サービスが含まれています。このサービスを使用して、個々のホストマシンに関する問題を報告できます。

次のステップ

次のいずれかの方法で、クラスタ管理機能が強化された HPC クラスタを作成します。
予約の消費を確認する
H4D クラスタトポロジを表示する
VM 間でホストイベントを管理する
予約間でホストイベントを管理する
Slurm クラスタの VM を観察してモニタリングする
障害のあるホストを報告する

H4D インスタンスによる HPC クラスタ管理の強化 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

HPC インフラストラクチャ リソースのコロケーション

クラスタ トポロジを考慮した配置

H4D VM のマネージド メンテナンスと復元