Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

コンピューティングインスタンスとクラスタの構成を確認する

このドキュメントでは、Compute Engine インスタンスとクラスタを作成する前に考慮すべき AI Hypercomputer の構成について説明します。利用可能な構成を確認することで、ワークロードの最適なパフォーマンスを確保し、ダウンタイムとパフォーマンスの問題を最小限に抑えることができます。

コンピューティングインスタンスとクラスタの作成の構成要素

ワークロードを実行するコンピューティングインスタンスとクラスタを作成する前に、使用する構成を検討してください。

プロビジョニングモデル
クラスタデプロイツール
予約にバインドされたプロビジョニングモデルを使用する場合は、次の要素も考慮する必要があります。

プロビジョニングモデル

コンピューティングインスタンスまたはクラスタの作成に選択した消費オプションに基づいて、次のいずれかのプロビジョニングモデルを使用して、インスタンスの作成に必要なリソースを取得できます。

予約バインド: 将来の日付と期間でリソースを割引価格で予約できます。予約期間の開始時に、予約済みリソースを使用してインスタンスまたはクラスタを作成できます。予約期間中は、予約したリソースに排他的にアクセスできます。
Flex Start: 割引リソースを最大 7 日間リクエストできます。Compute Engine は、リクエストされたリソースが使用可能になるとすぐに、そのプロビジョニングをベストエフォートでスケジュールします。リクエストした期間中、取得したリソースに排他的にアクセスできます。
Spot: 可用性に基づいて、大幅割引のリソースをすぐに取得できます。ただし、Compute Engine は容量を再利用するために、インスタンスを任意のタイミングで停止または削除する場合があります。

予約にバインドされたプロビジョニングモデル

予約にバインドされたプロビジョニングモデルでは、作成したコンピューティングインスタンスが以前に予約した容量にリンクされます。容量を予約すると、Compute Engine は空の予約を作成します。予約の開始時間になると、次の処理が行われます。

Compute Engine は、予約されたインスタンス数を予約に追加します。予約終了時間まで、予約した容量に排他的にアクセスできます。
Google Cloud では、容量を使用するかどうかにかかわらず、予約期間の終了まで予約済み容量に対して課金されます。

予約済みリソースを使用して、追加料金なしでインスタンスを作成できます。ディスクや IP アドレスなど、予約に含まれていないリソースについてのみ支払います。

コンピューティングインスタンスまたは MIG の作成時に予約で制限されたプロビジョニングモデルを指定するには、次の操作を行います。

Google Cloud コンソールの [プロビジョニングモデル] リストで、[予約で制限] を選択します。
Google Cloud CLI で、コマンドに --provisioning-model=RESERVATION_BOUND フラグを指定します。
Compute Engine API で、リクエスト本文に "provisioningModel": "RESERVATION_BOUND" フィールドを指定します。

容量を予約した後にインスタンスまたは MIG を作成するときにこれらのパラメータを設定する方法については、コンピューティングインスタンスとクラスタの作成の概要をご覧ください。Cluster Toolkit を使用してクラスタをデプロイする場合、クラスタブループリントによってプロビジョニングモデルが設定されます。

Flex Start プロビジョニングモデル

Flex Start プロビジョニングモデルを使用すると、リクエストした容量が使用可能になったときに、スタンドアロンの Flex Start VM を作成したり、Flex Start VM をマネージドインスタンスグループ（MIG）に追加したりできます。サイズ変更リクエストを使用して Flex Start VM を MIG に追加すると、MIG はインスタンスを一度にすべて作成します。このアプローチを使用すると、ワークロードの開始に必要な容量がすべて揃うまで、Compute Engine が提供する部分的な容量に対する不要な料金の発生を防ぐことができます。Flex Start プロビジョニングモデルは、安全な容量プールからリソースをプロビジョニングするため、GPU などの需要の高いリソースを取得できる可能性が高まります。

スタンドアロンインスタンスまたは MIG のインスタンステンプレートを作成するときに Flex Start プロビジョニングモデルを指定するには、次の操作を行います。

Google Cloud コンソールの [プロビジョニングモデル] リストで、[Flex Start] を選択します。
gcloud CLI で、コマンドに --provisioning-model=FLEX_START フラグを指定します。
Compute Engine API で、リクエスト本文に "provisioningModel": "FLEX_START" フィールドを指定します。

Flex Start プロビジョニングモデルを使用するインスタンスまたはクラスタの作成の詳細については、次のドキュメントをご覧ください。

スタンドアロンインスタンスを作成する
サイズ変更リクエストを使用して MIG を作成する
Slurm クラスタを作成します。
- フルマネージド Slurm クラスタを作成する
- セルフマネージド Slurm クラスタを作成する
GKE クラスタを作成します。
- デフォルト構成でクラスタを作成する
- カスタムクラスタを作成する

Spot プロビジョニングモデル

スポットプロビジョニングモデルを使用すると、可用性に基づいて大幅割引のコンピューティングインスタンスを作成できます。ただし、Compute Engine は容量を再利用するために、作成されたインスタンスを任意のタイミングで停止または削除する場合があります。このプロセスはプリエンプションと呼ばれます。

インスタンスまたは MIG の作成時にスポットプロビジョニングモデルを指定するには、次の操作を行います。

Google Cloud コンソールの [プロビジョニングモデル] リストで、[Spot] を選択します。
gcloud CLI で、コマンドに --provisioning-model=SPOT フラグを指定します。
Compute Engine API で、リクエスト本文に "provisioningModel": "SPOT" フィールドを指定します。

インスタンスまたは MIG の作成時にこれらのパラメータを設定する方法については、コンピューティングインスタンスとクラスタの作成の概要をご覧ください。

クラスタデプロイツール

Cluster Toolkit は、GPU アクセラレーションクラスタの作成におすすめのオープンソースのデプロイツールです。Cluster Toolkit は、Google Kubernetes Engine（GKE）クラスタと Slurm クラスタの両方をデプロイできます。

次のいずれかの方法でコンピューティングインスタンスのグループをプロビジョニングし、必要に応じて独自のワークロードスケジューラを組み込むこともできます。

予約ブロックのデプロイタイプ

A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High（8 GPU）コンピューティングインスタンスまたはクラスタの作成時に予約バインドプロビジョニングモデルを使用すると、受け取ったマシンは、高密度で割り当てられたホストのブロック内に自動的にデプロイされます。このデプロイには次の利点があります。

Google の動的機械学習（ML）ネットワークファブリックを使用して、一貫した高帯域幅と低レイテンシのインスタンス接続を実現するノンブロッキングネットワーキング。
インスタンス間の相対的な近接度を階層ビューで表示するネットワークトポロジへのアクセス。この機能は、高度なジョブスケジューリングのユースケースに役立ちます。
オーケストレータを使用する場合のきめ細かいトポロジ対応の配置。
メンテナンススケジュールに対するきめ細かいユーザー制御により、ジョブのスケジューリングと稼働時間を最大化し、ダウンタイムを最小限に抑えます。

予約の運用モード

予約にバインドされたプロビジョニングモデルを使用する場合、予約するマシンタイプによって、予約済み容量の予約の運用モードが決まります。各モードでは、ホストエラーやホストの障害レポートへの対応方法と、予約のインフラストラクチャに対する可視性と制御のレベルを定義します。

予約の運用モードごとに、次のものが定義されます。

復元を管理するユーザー: 自分または Google Cloud。
復元に使用する容量: 予約済み容量のみ、または予約の内外の容量。
配置制御のレベル: 特定の予約サブブロックの計画された時間より前にメンテナンスを表示して開始できるかどうか。

コンピューティングインスタンスまたはクラスタを作成するために容量を予約する場合は、マネージドモードまたはすべての容量モードのいずれかの予約運用モードを選択する必要があります。

管理モード

マネージドモードでは、ホストエラーまたは障害のあるホストの報告後に、 Google Cloud がコンピューティングインスタンスのメンテナンスと復元プロセスを自動的に管理します。このアプローチは、ワークロードに高い安定性が求められ、ダウンタイムを最小限に抑える自動化プロセスが必要な場合に最適です。

マネージドモードには次の機能があります。

復元にのみ予約済み容量を使用する: Compute Engine は、予約済み容量を使用してインスタンスを再起動します。予約で使用可能な容量がない場合、Compute Engine は容量を追加取得した後にのみインスタンスを再起動します。
インスタンスの自動再起動: Google Cloud は、インスタンスの復元プロセス全体を処理します。ホストメンテナンスが必要な場合、Compute Engine は予約内の他の使用可能なマシンにインスタンスを自動的に移行し、インスタンスを再起動します。
ブロックの管理と可視性: 個々の予約と予約ブロックのトポロジ、健全性、メンテナンスステータスを表示できます。これらのリソースについては、メンテナンス通知を受け取ったり、必要に応じてスケジュールされたメンテナンス時刻より前にメンテナンスを開始したりすることもできます。
API レート上限の可能性: report faulty host API の呼び出しは、予約ごとにレート制限される可能性があります。

All Capacity モード

すべての容量モードでは、コンピューティングインスタンスの復元プロセスを管理する必要があります。ホストエラーまたは障害のあるホストの報告の後、メンテナンスを手動で開始する必要があります。マネージドモードとは異なり、予約サブブロックのメンテナンスを表示して開始することもできます。これらの機能を使用すると、インスタンスのメンテナンスと復元プロセスをきめ細かく完全に制御できます。

全容量モードには次の機能があります。

復元に予約済み容量と予約なし容量を使用する: 予約済みリソースと、予約外で利用可能なリソースを使用して、ホストで障害が発生したときにインスタンスを移行して再起動できます。
インスタンスの手動再起動: インスタンスの復元プロセスはユーザーの責任となります。ホストエラーまたはホスト障害レポートが原因でホストメンテナンスが必要な場合、Compute Engine はインスタンスを停止します。インスタンスを再起動できるのは、メンテナンスが完了した後のみです。
ブロックとサブブロックの管理と可視性: 個々の予約、予約ブロック、予約サブブロックのトポロジ、健全性、メンテナンスステータスを表示できます。これらのリソースについては、メンテナンス通知を受け取ったり、必要に応じてスケジュールされたメンテナンス時刻より前にメンテナンスを開始したりすることもできます。
API レート上限なし: report faulty host API を呼び出すときにレート上限はありません。

メンテナンスのスケジュール設定のタイプ

予約バインドプロビジョニングモデルを使用する場合、Cluster Director は、クラスタで実行中のコンピューティングインスタンスのホストメンテナンスをスケジュールするオプションを提供します。容量を予約するときに、インスタンスをグループ化してメンテナンスのスケジュール設定を同期させるか（グループ化）、インスタンスを疎結合にしてメンテナンスのスケジュール設定を個別に行うか（個別）を指定できます。

グループ化されたメンテナンスのスケジュール設定

グループ化されたメンテナンスのスケジューリング設定のタイプを使用すると、Compute Engine がコンピューティングインスタンスをプロビジョニングするタイミングに関係なく、同じワークロードを実行するすべてのインスタンスの計画メンテナンスの頻度が同じになります。この密結合メンテナンスにより、使用済み容量と未使用容量を完全に制御できるため、ジョブのパフォーマンスを最適化できます。

グループ化されたメンテナンスのスケジュール設定のタイプは、次のような場合に便利です。

環境で Slurm や GKE などのジョブスケジューラを使用している。
トレーニングやその他の高度に並列化されたコンピューティングワークロードを実行する。

個別のメンテナンスのスケジュール設定

この個別のメンテナンススケジュール設定のタイプでは、インスタンスに異なるメンテナンススケジュールが設定されます。この構成は、個別のメンテナンススケジュールを設定するとワークロードの実行効率が向上する推論や限定的なスケールのトレーニングを実行する場合に最適です。

次のステップ

容量を予約する