Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

クラスタ管理機能

A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High（8 個の GPU）マシンシリーズは、大規模な人工知能（AI）と ML（ML）クラスタを実行できるように設計されており、次のクラスタ管理機能を提供します。

AI インフラストラクチャリソースのコロケーション
クラスタトポロジを考慮した配置
クラスタの運用モード
クラスタのメンテナンスのスケジュール設定と制御
クラスタモニタリングと診断ツール

AI インフラストラクチャリソースのコロケーション

A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High（8 GPU）を使用する場合は、Compute Engine ができるだけ近づけてプロビジョニングするホストマシンをリクエストできます。これらのマシンには次の機能があります。

Compute Engine は、マシンをリソースのブロックとしてプロビジョニングします。
動的 ML ネットワークファブリックにより、マシンが相互接続されます。

このリソース構成により、ネットワークホップが最小限に抑えられ、ネットワークレイテンシが最小限になるように最適化されます。アクセラレータ最適化マシンの高密度で割り当てられたブロックをデプロイする容量を取得する方法については、容量の概要をご覧ください。

クラスタトポロジを考慮した配置

A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High（8 個の GPU）マシンタイプを使用してコンピューティングインスタンスを作成すると、ノードレベルとクラスタレベルでトポロジ情報を取得できます。この情報は、次の操作に役立ちます。

ネットワークレイテンシをさらに最小限に抑えるように、アプリケーションまたはワークロードの設計を調整する。
相互に頻繁に通信するインスタンスのネットワークレイテンシとパフォーマンスの問題を理解し、トラブルシューティングする。この問題は、インスタンスが予期せず離れた場所に配置されている場合に発生することがあります。

詳細については、コンピューティングインスタンスのトポロジを表示するをご覧ください。

クラスタの運用モード

A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High（8 GPU）マシンタイプを使用してコンピューティングインスタンスまたはクラスタを作成する容量を予約すると、予約したマシンタイプによってインスタンスのクラスタのオペレーションモードが決まります。このモードでは、ホストエラーまたは障害のあるホストの報告後にインスタンスがどのように動作するかを指定します。インスタンスで使用可能なオペレーションモードはマネージドモードです。このモードでは、Compute Engine が障害のあるマシンを自動的に置き換えますが、予約容量の一部を保持し、インスタンスが再起動に必要なリソースを確保できるようにします。または、予約済みの容量全体にアクセスできますが、障害と計画メンテナンスの管理はお客様の責任となる全容量モード。

詳細については、予約のオペレーションモードをご覧ください。

クラスタのメンテナンスのスケジュール設定と制御

リソースブロックでトポロジを考慮したスケジューリングを使用して、A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High（8 GPU）マシンのメンテナンスを制御します。この機能により、アップグレードが同期され、ワークロードのホストイベントに対する復元力を高め、中断を最小限に抑えることができます。このアプローチは、ワークロードのグッドプットの向上に役立ちます。

メンテナンスイベントを完全に制御するために、次の機能を使用できます。

メンテナンスのスケジュール設定のタイプ
ホストイベントを管理する

メンテナンスのスケジュール設定のタイプ

A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High（8 個の GPU）マシンのコンピューティングインスタンスまたはクラスタを作成するために容量を予約する際に、インスタンスが実行されるインフラストラクチャを Compute Engine がどのように維持するかを定義できます。インスタンスで使用するマシンタイプに基づいて、インスタンス間のメンテナンスの同期（グループ化）または異なるメンテナンススケジュール（個別）を選択できます。

詳細については、メンテナンスのスケジューリングタイプをご覧ください。

ホストイベントを管理する

A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High（8 個の GPU）インスタンスを作成してワークロードを開始したら、アラートを設定し、インスタンスまたは予約済みブロックのメンテナンスがスケジュール設定、開始、完了されたときに通知を受け取ることができます。また、スケジュール設定された時刻より前に、インスタンスまたは予約済みブロックのメンテナンスを表示して、必要に応じて手動で開始することもできます。これらのオプションを使用すると、ワークロードのダウンタイムを事前に制御して最小限に抑えることができます。

詳しくは以下をご覧ください。

クラスタモニタリングと診断ツール

モニタリングとトラブルシューティングのために、A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High（8 個の GPU）マシンには次のサービスが含まれています。

VM の健全性の低下の予測。これにより、今後 5 時間以内に健全性が低下する可能性のある VM を特定できます。
Faulty host reporting。個々のホストマシンに関する問題を報告するために使用できます。
Cloud Monitoring 指標のサポート。ネットワークと GPU のパフォーマンスをモニタリングできます。

クラスタ管理機能 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

AI インフラストラクチャ リソースのコロケーション

クラスタ トポロジを考慮した配置