A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High(8 個の GPU)マシンシリーズは、大規模な人工知能(AI)と ML(ML)クラスタを実行できるように設計されており、次のクラスタ管理機能を提供します。
AI インフラストラクチャ リソースのコロケーション
A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High(8 GPU)を使用する場合は、Compute Engine ができるだけ近づけてプロビジョニングするホストマシンをリクエストできます。これらのマシンには次の機能があります。
Compute Engine は、マシンをリソースのブロックとしてプロビジョニングします。
動的 ML ネットワーク ファブリックによってマシンが相互接続されます。
このリソース構成により、ネットワーク ホップが最小限に抑えられ、ネットワーク レイテンシが最小限になるように最適化されます。アクセラレータ最適化マシンの高密度で割り当てられたブロックをデプロイする容量を取得する方法については、容量の概要をご覧ください。
クラスタ トポロジを考慮した配置
A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High(8 個の GPU)マシンタイプを使用してコンピューティング インスタンスを作成すると、ノードレベルとクラスタレベルでトポロジ情報を取得できます。この情報は、次の操作に役立ちます。
ネットワーク レイテンシをさらに最小限に抑えるように、アプリケーションまたはワークロードの設計を調整する。
相互に頻繁に通信するインスタンスのネットワーク レイテンシとパフォーマンスの問題を理解し、トラブルシューティングする。この問題は、インスタンスが予期せず離れた場所に配置されている場合に発生することがあります。
詳細については、コンピューティング インスタンスのトポロジを表示するをご覧ください。
クラスタの運用モード
A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High(8 GPU)マシンタイプを使用してコンピューティング インスタンスまたはクラスタを作成する容量を予約する場合、予約するマシンタイプによって、インスタンスのクラスタのオペレーション モードが決まります。このモードでは、ホストエラーまたは障害のあるホストの報告後にインスタンスがどのように動作するかを指定します。インスタンスで使用可能なオペレーション モードは、マネージド モードです。このモードでは、Compute Engine が障害のあるマシンを自動的に置き換えますが、インスタンスの再起動に必要なリソースを確保するために、予約容量の一部を保持します。または、予約済みの容量全体にアクセスできますが、障害と計画メンテナンスの管理はお客様の責任となる全容量モード。
詳細については、予約のオペレーション モードをご覧ください。
クラスタのメンテナンスのスケジュール設定と制御
リソース ブロックでトポロジを考慮したスケジューリングを使用して、A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High(8 GPU)マシンのメンテナンスを制御します。この機能により、アップグレードが同期され、ワークロードのホストイベントに対する復元力を高め、中断を最小限に抑えることができます。このアプローチは、ワークロードの実効スループットの向上に役立ちます。
メンテナンス イベントを完全に制御するために、次の機能を使用できます。
メンテナンスのスケジュール設定のタイプ
A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High(8 個の GPU)マシンのコンピューティング インスタンスまたはクラスタを作成するために容量を予約する際に、インスタンスが実行されるインフラストラクチャを Compute Engine がどのように維持するかを定義できます。インスタンスで使用するマシンタイプに基づいて、インスタンス間の同期メンテナンス(グループ化)または異なるメンテナンス スケジュール(独立)を選択できます。
詳細については、メンテナンスのスケジューリング タイプをご覧ください。
ホストイベントを管理する
A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High(8 個の GPU)インスタンスを作成してワークロードを開始したら、アラートを設定し、インスタンスまたは予約済みブロックのメンテナンスがスケジュール設定、開始、完了されたときに通知を受け取ることができます。また、スケジュール設定された時刻より前に、インスタンスまたは予約済みブロックのメンテナンスを表示して、必要に応じて手動で開始することもできます。これらのオプションを使用すると、ワークロードのダウンタイムを事前に制御して最小限に抑えることができます。
詳しくは以下をご覧ください。
クラスタ モニタリングと診断ツール
モニタリングとトラブルシューティングのために、A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High(8 個の GPU)マシンには次のサービスが含まれています。
VM の健全性の低下の予測。これにより、今後 5 時間以内に健全性が低下する可能性のある VM を特定できます。
Faulty host reporting。個々のホストマシンに関する問題を報告できます。
Cloud Monitoring 指標のサポート。ネットワークと GPU のパフォーマンスのモニタリングに役立ちます。