A4X Max、A4X、A4、A3 Ultra、A3 Mega、およびA3 High(8 GPU)マシンシリーズは、大規模な人工知能(AI)クラスタと機械学習(ML)クラスタを実行できるように設計されており、次のクラスタ管理機能を提供します。
AI インフラストラクチャ リソースのコロケーション
A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High(8 GPU)を使用すると、Compute Engine ができるだけ近づけてプロビジョニングする ホストマシンをリクエストできます。これらのマシンには次の機能があります。
Compute Engine は、マシンを リソースのブロックとしてプロビジョニングします。
動的な ML ネットワーク ファブリック がマシンを相互接続します。
このリソース構成により、ネットワーク ホップが最小限に抑えられ、ネットワーク レイテンシが最小限になるように最適化されます。アクセラレータ最適化マシンの高密度で 割り当てられたブロックをデプロイする容量を取得する方法については、 容量の概要をご覧ください。
クラスタ トポロジを考慮した配置
A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High(8 GPU)マシンタイプを使用してコンピューティング インスタンスを作成したら、ノードレベルとクラスタレベルでトポロジ情報を取得できます。この情報は、次の操作に役立ちます。
ネットワーク レイテンシをさらに最小限に抑えるように、アプリケーションまたはワークロードの設計を調整する。
相互に頻繁に通信するインスタンスのネットワーク レイテンシとパフォーマンスの問題を理解し、トラブルシューティングする。この問題は、インスタンスが予期せず離れた場所に配置されている場合に発生することがあります。
詳細については、 コンピューティング インスタンスのトポロジを表示するをご覧ください。
クラスタの運用モード
A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High(8 GPU)マシンタイプを使用してコンピューティング インスタンスまたはクラスタを作成するために容量を予約する場合、予約するマシンタイプによって、インスタンスのクラスタの運用モード が決まります。このモードでは、ホストエラーまたは障害のあるホストの報告後にインスタンスがどのように動作するかを指定します。インスタンスで使用できる運用モードは マネージド モードです。このモードでは、Compute Engine が障害のある マシンを自動的に置き換えますが、インスタンスが再起動に必要なリソースを確保できるように、予約容量の一部を保持します。または、すべての容量モードです。このモードでは、予約済みの容量全体にアクセスできますが、障害と計画メンテナンスの管理はお客様の責任となります。
詳細については、 予約の運用モードをご覧ください。
クラスタのメンテナンスのスケジュール設定と制御
リソース ブロックでトポロジを考慮したスケジューリングを使用して、A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High(8 GPU)マシンのメンテナンスを制御します。この機能により、アップグレードが同期され、ワークロードのホストイベントに対する復元力を高め、中断を最小限に抑えることができます。このアプローチは、ワークロードの グッドプットの向上に役立ちます。
メンテナンス イベントを完全に制御するために、次の機能を使用できます。
メンテナンスのスケジュール設定のタイプ
A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High(8 GPU)マシンのコンピューティング インスタンスまたはクラスタを作成するために容量を予約する際に、インスタンスが実行されるインフラストラクチャを Compute Engine がどのように維持するかを定義できます。インスタンスに使用するマシンタイプに応じて、インスタンス間の同期メンテナンス(グループ化)または 異なるメンテナンス スケジュール(独立)を選択できます。
詳細については、 メンテナンスのスケジュール設定のタイプをご覧ください。
ホストイベントを管理する
A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High(8 GPU)インスタンスを作成してワークロードを開始したら、アラートを設定し、インスタンスまたは予約済みブロックのメンテナンスがスケジュール設定、開始、完了されたときに通知を受け取ることができます。また、スケジュール設定された時刻より前に、インスタンスまたは予約済みブロックのメンテナンスを表示して、必要に応じて手動で開始することもできます。 これらのオプションを使用すると、ワークロードのダウンタイムを事前に制御して最小限に抑えることができます。
詳しくは以下をご覧ください。
クラスタ モニタリングと診断ツール
モニタリングとトラブルシューティングのために、A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High(8 GPU)マシンには次のサービスが含まれています。
VM の健全性の低下予測。 これにより、今後 5 時間以内に低下する可能性のある VM を特定できます。
障害のあるホストの報告。 このサービスを使用して、個々のホストマシンに関する問題を報告できます。
Cloud Monitoring 指標のサポート、 ネットワークと GPU のパフォーマンスをモニタリングできます。