このドキュメントでは、メンテナンス イベント中の GPU ワークロードの中断を最小限に抑える方法について説明します。
Cluster Director を使用して仮想マシン(VM)インスタンスの定期メンテナンスをモニタリング、計画、実行する方法については、代わりに VM 全体でホストイベントを管理するをご覧ください。
Compute Engine が画像処理装置(GPU)が接続されている仮想マシン(VM)でメンテナンスを実行する場合、VM を停止する必要があります。これは、GPU が接続された VM をライブ マイグレーションできないためです。
これらの VM については、ホスト メンテナンス イベントの際に停止するよう設定する必要があります。停止した VM をメンテナンス イベントの完了後に自動的に再起動するように設定できます。
ホスト メンテナンス イベントは通常 2 週間に 1 回発生しますが、これより頻繁に行われる場合もあります。
メンテナンス イベントの前に事前通知を受け取る
仮想マシン(VM)インスタンスのメンテナンス スケジュールをモニタリングし、システムの再起動でワークロードの移行準備を整えることができます。
ホストイベントについて事前に通知を受け取るようにするには、/computeMetadata/v1/instance/maintenance-event メタデータ値をモニタリングします。メタデータ サーバーに対するリクエストによって NONE が返された場合、VM は停止するようにスケジュールされていません。たとえば、VM 内から次のコマンドを実行します。
curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"
NONEメタデータ サーバーから TERMINATE_ON_HOST_MAINTENANCE が返された場合、VM の停止スケジュールが設定されています。Compute Engine は GPU VM に 1 時間の停止に関する通知を送信します。一方、通常のインスタンスが受け取るのは 60 秒間の停止に関する通知のみです。
これらの通知を使用して、ホスト メンテナンス イベントを通じて移行するようにアプリケーションを構成します。たとえば、このドキュメントのローカル SSD ディスクから一時データを移行するをご覧ください。
ローカル SSD ディスクから一時データを移行する
ローカル SSD データの永続性により、Compute Engine がホスト メンテナンス イベントのために VM を停止すると、VM にアタッチされているローカル SSD ディスクのデータは復元できません。データ損失を防止するには、VM が停止する前にローカル SSD ディスクからデータを移行するようにワークロードを構成します。たとえば、次のいずれかの方法を使用できます。
進行中の作業を Cloud Storage バケットに一時的に移動するようにアプリケーションを構成し、VM の再起動後にそのデータを取り出します。
セカンダリ Persistent Disk にデータを書き込みます。VM が自動再起動した時点で Persistent Disk を再度アタッチし、アプリケーションで作業を再開できます。
次のステップ
- GPU プラットフォームの詳細を学習する。
- VM のグループの管理とスケーリングの詳細については、グループのターゲット サイズを設定するをご覧ください。
- GPU のパフォーマンスをモニタリングする。GPU パフォーマンスのモニタリングをご覧ください。
- ネットワーク パフォーマンスを改善するには、より高いネットワーク帯域幅を使用するをご覧ください。
- VM のシャットダウンと再起動のトラブルシューティングの方法を確認する。