H4D インスタンスによる HPC クラスタ管理の強化

強化された HPC クラスタ管理機能により、大規模で高密度の HPC クラスタを実行できます。次のクラスタ管理機能が提供されます。

HPC インフラストラクチャ リソースのコロケーション

管理機能が強化された H4D インスタンスを使用すると、Compute Engine にインスタンスをできるだけ近づけてプロビジョニングするようにリクエストできます。これらのマシンには次の機能があります。

  • Compute Engine は、マシンをリソースのブロックとしてプロビジョニングします。

  • Cloud RDMA 対応の 200 Gbps ネットワーキングにより、ワークロードの拡張性が向上しました。

このリソース構成により、ネットワーク ホップが最小限に抑えられ、ネットワーク レイテンシが最小限になるように最適化されます。マシンブロックを高密度で割り当てる容量を取得する方法については、管理機能が強化された HPC クラスタを作成するをご覧ください。

クラスタ トポロジを考慮した配置

VM または H4D VM のクラスタを作成すると、ノードレベルとクラスタレベルでトポロジ情報を取得できます。この情報は、次のことに役立ちます。

  • ネットワーク レイテンシをさらに最小限に抑えるように、アプリケーションまたはワークロードの設計を調整します。

  • 相互に頻繁に通信する VM のネットワーク レイテンシとパフォーマンスの問題を理解し、トラブルシューティングします。この問題は、VM が予期せず離れた場所に配置されている場合に発生することがあります。

詳細については、VM のトポロジを表示するをご覧ください。

H4D VM のマネージド メンテナンスと復元

H4D VM またはクラスタを作成する容量を予約すると、 Google Cloudは、ホストエラーまたはホストの障害レポートの後に、VM のメンテナンスと復元プロセスを自動的に管理します。このアプローチはマネージド モードと呼ばれ、ワークロードに高い安定性が求められ、ダウンタイムを最小限に抑える自動化プロセスが必要な場合に最適です。

マネージド モードには次の機能があります。

  • 復元にのみ予約済み容量を使用する: Compute Engine は、予約済み容量を使用して VM を再起動します。予約で使用可能な容量がない場合、Compute Engine は容量を追加取得した後にのみ VM を再起動します。

  • VM の自動再起動: Google Cloud は、VM の復元プロセス全体を処理します。ホスト メンテナンスが必要な場合、Compute Engine は予約内の他の使用可能なマシンに VM を自動的に移行し、VM を再起動します。

  • ブロックの管理と可視性: 個々の予約と予約ブロックのトポロジ、健全性、メンテナンス ステータスを表示できます。これらのリソースについては、メンテナンス通知を受け取ったり、必要に応じてスケジュールされたメンテナンス時刻より前にメンテナンスを開始したりすることもできます。

  • API レート上限の可能性: 障害のあるホスト API の呼び出しは、予約ごとにレート制限される可能性があります。

クラスタのメンテナンスのスケジュール設定と制御

リソース ブロックでトポロジ認識スケジューリングを使用して、H4D インスタンスのメンテナンスを制御します。この機能は、アップグレードを同期して、ワークロードがホスト イベントに対してより復元力があり、中断を最小限に抑えるのに役立ちます。

メンテナンス イベントを完全に制御するために、次の機能を使用できます。

メンテナンスのスケジュール設定のタイプ

H4D VM インスタンスの VM またはクラスタを作成するために容量を予約するときに、VM が実行されるインフラストラクチャを Compute Engine がどのように維持するかを定義できます。VM をグループ化してメンテナンス スケジュールを同期させるか(グループ化)、VM を疎結合にしてメンテナンス スケジュールを個別に行うか(個別)を指定できます。

グループ化されたメンテナンス スケジュール

グループ化されたメンテナンス スケジューリング タイプを使用すると、Compute Engine が VM をプロビジョニングするタイミングに関係なく、同じワークロードを実行するすべての VM の計画メンテナンスの頻度が同じになります。この密結合メンテナンスにより、使用済み容量と未使用容量を完全に制御できるため、ジョブのパフォーマンスを最適化できます。

グループ メンテナンスのスケジューリング タイプは、次のような場合に便利です。

  • 環境で Slurm や Google Kubernetes Engine などのジョブ スケジューラを使用している。
  • 高度に並列化されたコンピューティング ワークロードを実行する。

独立したメンテナンス スケジューリング

独立したメンテナンス スケジュール タイプでは、VM に異なるメンテナンス スケジュールが割り当てられます。この構成は、VM に個別のメンテナンス スケジュールを設定するとワークロードの実行効率が向上する場合に最適です。

ホスト イベントを管理する

H4D VM を作成してワークロードを開始したら、アラートを設定し、VM または予約済みブロックのメンテナンスがスケジュール設定、開始、完了したときに通知を受け取ることができます。また、スケジュールされた時刻より前に、VM または予約済みブロックのメンテナンスを表示して、必要に応じて手動で開始することもできます。これらのオプションを使用すると、ワークロードのダウンタイムを事前に制御して最小限に抑えることができます。

詳しくは以下をご覧ください。

クラスタのモニタリングと診断ツール

モニタリングとトラブルシューティングのために、H4D インスタンスには Faulty host reporting サービスが含まれています。このサービスを使用して、個々のホストマシンに関する問題を報告できます。

次のステップ