Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

クラスタ管理機能

A4X Max、A4X、A4、A3 Ultra、A3 Mega、およびA3 High（8 GPU）マシンシリーズは、大規模な人工知能（AI）クラスタと機械学習（ML）クラスタを実行できるように設計されており、次のクラスタ管理機能を提供します。

AI インフラストラクチャリソースのコロケーション
クラスタトポロジを考慮した配置
クラスタの運用モード
クラスタのメンテナンスのスケジュール設定と制御
クラスタモニタリングと診断ツール

AI インフラストラクチャリソースのコロケーション

A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High（8 GPU）を使用すると、Compute Engine ができるだけ近づけてプロビジョニングするホストマシンをリクエストできます。これらのマシンには次の機能があります。

Compute Engine は、マシンをリソースのブロックとしてプロビジョニングします。
動的な ML ネットワークファブリックがマシンを相互接続します。

このリソース構成により、ネットワークホップが最小限に抑えられ、ネットワークレイテンシが最小限になるように最適化されます。アクセラレータ最適化マシンの高密度で割り当てられたブロックをデプロイする容量を取得する方法については、容量の概要をご覧ください。

クラスタトポロジを考慮した配置

A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High（8 GPU）マシンタイプを使用してコンピューティングインスタンスを作成したら、ノードレベルとクラスタレベルでトポロジ情報を取得できます。この情報は、次の操作に役立ちます。

ネットワークレイテンシをさらに最小限に抑えるように、アプリケーションまたはワークロードの設計を調整する。
相互に頻繁に通信するインスタンスのネットワークレイテンシとパフォーマンスの問題を理解し、トラブルシューティングする。この問題は、インスタンスが予期せず離れた場所に配置されている場合に発生することがあります。

詳細については、コンピューティングインスタンスのトポロジを表示するをご覧ください。

クラスタの運用モード

A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High（8 GPU）マシンタイプを使用してコンピューティングインスタンスまたはクラスタを作成するために容量を予約する場合、予約するマシンタイプによって、インスタンスのクラスタの運用モードが決まります。このモードでは、ホストエラーまたは障害のあるホストの報告後にインスタンスがどのように動作するかを指定します。インスタンスで使用できる運用モードは マネージドモードです。このモードでは、Compute Engine が障害のあるマシンを自動的に置き換えますが、インスタンスが再起動に必要なリソースを確保できるように、予約容量の一部を保持します。または、すべての容量モードです。このモードでは、予約済みの容量全体にアクセスできますが、障害と計画メンテナンスの管理はお客様の責任となります。

詳細については、予約の運用モードをご覧ください。

クラスタのメンテナンスのスケジュール設定と制御

リソースブロックでトポロジを考慮したスケジューリングを使用して、A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High（8 GPU）マシンのメンテナンスを制御します。この機能により、アップグレードが同期され、ワークロードのホストイベントに対する復元力を高め、中断を最小限に抑えることができます。このアプローチは、ワークロードの グッドプットの向上に役立ちます。

メンテナンスイベントを完全に制御するために、次の機能を使用できます。

メンテナンスのスケジュール設定のタイプ
ホストイベントを管理する

メンテナンスのスケジュール設定のタイプ

A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High（8 GPU）マシンのコンピューティングインスタンスまたはクラスタを作成するために容量を予約する際に、インスタンスが実行されるインフラストラクチャを Compute Engine がどのように維持するかを定義できます。インスタンスに使用するマシンタイプに応じて、インスタンス間の同期メンテナンス（グループ化）または異なるメンテナンススケジュール（独立）を選択できます。

詳細については、メンテナンスのスケジュール設定のタイプをご覧ください。

ホストイベントを管理する

A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High（8 GPU）インスタンスを作成してワークロードを開始したら、アラートを設定し、インスタンスまたは予約済みブロックのメンテナンスがスケジュール設定、開始、完了されたときに通知を受け取ることができます。また、スケジュール設定された時刻より前に、インスタンスまたは予約済みブロックのメンテナンスを表示して、必要に応じて手動で開始することもできます。これらのオプションを使用すると、ワークロードのダウンタイムを事前に制御して最小限に抑えることができます。

詳しくは以下をご覧ください。

クラスタモニタリングと診断ツール

モニタリングとトラブルシューティングのために、A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High（8 GPU）マシンには次のサービスが含まれています。

VM の健全性の低下予測。これにより、今後 5 時間以内に低下する可能性のある VM を特定できます。
障害のあるホストの報告。このサービスを使用して、個々のホストマシンに関する問題を報告できます。
Cloud Monitoring 指標のサポート、ネットワークと GPU のパフォーマンスをモニタリングできます。

クラスタ管理機能 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

AI インフラストラクチャ リソースのコロケーション

クラスタ トポロジを考慮した配置