ピーク容量イベントに備える

このガイドでは、ピーク時の容量イベントとトラフィック増加に備えて準備することで、パフォーマンスやユーザー エクスペリエンスの低下を回避し、ダウンタイムを最小限に抑えてサービスを提供できるようにする方法について説明します。

クラウドでイベントを管理する際には、主に次の 3 つのフェーズがあります。

  1. 準備: イベントに対する準備として、アーキテクチャ レビュー、容量計画、予約の作成などのアクティビティとタスクを完了します。
  2. 実行: イベントの発生時にイベントを注意深くモニタリングし、必要に応じて対応します。
  3. 分析: イベントが終了したら、成功したこと、失敗したこと、今後のイベントを改善する方法を分析します。

このガイドでは、準備フェーズを中心に説明します。

チェックリスト

次のタスクを完了して、ピーク時の容量イベントに備える方法を学習します。


このタスクを Google Cloud コンソールで直接行う際の順を追ったガイダンスについては、[ガイドを表示] をクリックしてください。

ガイドを表示


イベント管理のベスト プラクティスを理解する

イベント管理のベスト プラクティスを理解し、それに従う必要があります。

  1. イベント計画プロセスを詳細に決める: ピーク容量イベントの準備段階では、アカウント チームまたは TAM と連携して、アーキテクチャの確認、図、タイムライン、リリース チェックリストの作成、予想されるトラフィック プロファイルに基づくサービス割り当ての確認、プロジェクトへの全体的な影響の判断を行う必要があります。

  2. 実行中にモニタリングし、対応する: 繁忙期やリリース イベントの開始時には、アクティビティを注意深くモニタリングし、必要に応じて対応する必要があります。問題が発生した場合、問題に対処して解決するために必要な労力と時間を削減するには、インシデント管理とエスカレーション プロセスを明確に定義することが重要です。

  3. 分析を確認して記録する: ピークシーズンやリリース イベントが終了したら、イベントを確認して分析し、得られた知見を記録して、次の大きなイベントに適用できるようにします。

詳細については、イベント管理のベスト プラクティスをご覧ください。

イベントに適した容量をリクエストして確保する

準備フェーズの重要なコンポーネントは、容量計画です。ここでは、ワークロードが効率的に動作するために必要なクラウド リソースの量を決定します。トラフィックの増加が予想されるイベントや繁忙期に備える際は、割り当てがリソース要件と一致していることを確認して、予期しない障害が発生しないようにしてください。詳細については、イベントの容量を確保するをご覧ください。

キャパシティ プランナーを使用する

キャパシティ プランナーを使用すると、仮想マシン(VM)インスタンス、Persistent Disk ボリューム、GPU の過去と将来の使用状況を確認できます。また、予約の表示、リソースの事前予約、プロジェクトの割り当て上限の管理、割り当ての自動増加リクエストの設定もできます。詳細については、キャパシティ プランナーで使用状況と予測データを表示するをご覧ください。

  1. Google Cloud コンソールで、[キャパシティ プランナー] ページに移動します。

    キャパシティ プランナーに移動

  2. コンソールのツールバーにあるリソース セレクタを使用して、プロジェクト、フォルダ、または組織を選択します。

  3. 使用状況データを表示する Compute Engine リソースのタイプを選択します。

    • VM の使用状況データを表示するには、[仮想マシン] タブをクリックします(まだ選択していない場合)。

    • Persistent Disk ボリュームの使用状況データを表示するには、[ディスク] タブをクリックします。

    • GPU の使用状況データを表示するには、[GPU] タブをクリックします。

  4. 要素をフィルタして、リソースの使用状況と予測データのさまざまなデータ ビジュアリゼーションを表示できます。

割り当て調整を有効にする

割り当ての調整は、リソース消費量をモニタリングし、ユーザーに代わって割り当ての調整リクエストをプロアクティブに送信します。これにより、手動でリクエストを行う必要がなくなります。詳細については、割り当て調整の仕組みをご覧ください。

  1. Google Cloud コンソールで、[IAM と管理] > [割り当てとシステム上限] ページに移動します。

    [割り当てとシステム上限] に移動

  2. [構成] タブをクリックします。

  3. 割り当て調整を有効にするには、[有効にする] をクリックしてオンにします。

[ステータス] 列に「有効」と表示されている場合、割り当て調整は使用量をモニタリングします。リソース使用量が割り当て値に近づくと、割り当て調整リクエストを発行します。

割り当ての調整をリクエストする

割り当てがニーズを満たしていない場合は、割り当ての調整をリクエストできます。詳細については、割り当ての表示と管理をご覧ください。

  1. Google Cloud コンソールで、[IAM と管理] > [割り当てとシステム上限] ページに移動します。

    [割り当てとシステム上限] に移動

  2. 更新する割り当ての横にあるチェックボックスをオンにします。

    必要に応じて、割り当てを検索するには [フィルタ] を使用します。

  3. [編集] をクリックすると、[割り当ての変更] ペインが表示されます。

  4. [新しい値] フィールドに、必要な割り当て値を入力します。割り当て値には測定単位が設定されている場合があります。この場合は、隣接するリストから必要な単位を選択します。

  5. オーバーライドよりも大きい割り当てをリクエストすると、割り当てのオーバーライドが削除されることを示すメッセージが表示された場合は、チェックボックスをオンにして続行し、[割り当ての増加を申し込む] を選択します。

  6. [リクエストの説明] フィールドに説明を入力し、[完了] をクリックします。

  7. [次へ] をクリックし、連絡先情報を入力します。

  8. [リクエストを送信] をクリックします。

リクエストが拒否された場合は、サポートケースを作成するか、アカウント チームまたは TAM に連絡して、割り当ての増加をリクエストできます。

予約を作成する

予約を使用すると、必要なときに同じハードウェア(メモリと vCPU)とオプションのリソース(GPU とローカル SSD ディスク)を使用して VM を作成するための Compute Engine リソースを確保できます。

オンデマンド予約(デフォルト)は、リクエストされた容量が利用可能な場合、リクエスト時にプロビジョニングされます。将来の予約を使用すると、容量を事前にリクエストできます。将来の予約は、イベントのかなり前に確保することをおすすめします。詳細については、Compute Engine ゾーンリソースの予約をご覧ください。

単一プロジェクトのオンデマンド予約を作成する

  1. Google Cloud コンソールで、[予約] ページに移動します。

    [予約] に移動

  2. [オンデマンド予約] タブ(デフォルト)で、[ 予約を作成] をクリックします。

    [予約の作成] ページが開きます。

  3. 予約の名前を入力します。

  4. リソースを予約するリージョンゾーンを選択します。

  5. [共有タイプ] で、[ローカル] を選択します(まだ選択されていない場合)。

  6. Vertex AI のカスタム トレーニング ジョブまたは予測ジョブで GPU VM の予約を使用できるようにするには、[Google Cloud サービス] セクションで [予約を共有] を選択します。

  7. [VM インスタンスでの使用] オプションを選択します。

    • 一致する VM が自動的にこの予約を消費できるようにするには、[予約を自動的に使用する] を選択します(まだ選択されていない場合)。

    • 一致する VM の作成時に、この予約が名前で明示的にターゲットとして指定された場合にのみ、この予約のリソースが使用されるようにするには、[特定の予約を選択する] を選択します。

  8. 予約する VM インスタンスの数を入力します。

  9. [マシンの構成] セクションで、次の操作を行います。

    1. 既存のインスタンス テンプレートから VM のプロパティを指定するには、[インスタンス テンプレートを使用] を選択します。

    2. インスタンス テンプレートを指定します。リージョン テンプレートを選択した場合は、そのリージョンのリソースのみを予約できます。

  10. 指定した時刻に予約を自動的に削除するには、[自動削除を有効にする] チェックボックスをオンにします。予約の自動削除を設定しておくと、予約の使用を停止したときに不要な料金が発生しません。

  11. 予約を作成するには、[作成] をクリックします。

    [予約] ページが開きます。予約の作成には最大で 1 分かかることがあります。

単一プロジェクトの将来の予約を作成する

  1. Google Cloud コンソールで、[予約] ページに移動します。

    [予約] に移動

  2. [将来の予約] タブをクリックします。

  3. [将来の予約を作成] をクリックします。

    [将来の予約を作成] ページが開きます。

  4. [名前] に、将来の予約リクエストの名前を入力します。

  5. [接頭辞] に、名前の接頭辞を入力します。将来の予約リクエストから自動作成された各予約の名前は、この接頭辞で始まります。

  6. [リージョン] と [ゾーン] で、リソースを予約するリージョンとゾーンを選択します。

  7. [開始時刻] に、予約期間の開始時間を入力します。開始時間は、審査を受けるために将来の予約リクエストを送信した日時から 1 年以内にしてください。ロック時間になる前に、将来の予約を変更、キャンセル、削除するために十分な時間を確保するには、開始時間の推奨値を指定します。

  8. [終了時刻] に、予約期間の終了時間を入力します。[期間の概要] セクションで、予約期間の長さを確認できます。審査を受けるために送信した将来の予約リクエストが Google Cloud で承認される可能性を高めるために、予約期間の推奨値を指定します。

  9. [共有タイプ] セクションで、[ローカル] を選択します(まだ選択されていない場合)。

  10. [必要な総容量] に、将来の予約リクエストで指定された期間、VM 構成、プロジェクトに予約する VM の合計数を入力します。

  11. [マシンの構成] セクションで、次の操作を行います。

    1. [インスタンス テンプレートを使用] を選択します。

    2. [インスタンス テンプレート] で、任意のインスタンス テンプレートを選択します。リージョン インスタンス テンプレートを指定する場合は、テンプレートのリージョンと同じリージョン内のリソースのみを予約できます。

  12. [自動生成された予約の自動削除] セクションで、次のいずれかを行います。

    • 将来の予約リクエスト用に自動作成された予約を Compute Engine が自動的に削除できるようにするには、次の手順を実施します。

      1. [自動削除を有効にする] がオンになっていない場合は、クリックしてオンにします。

      2. 省略可: [自動削除日時] に、自動作成された予約を削除する日時を入力します。日時は予約期間の終了日より後にする必要があります。このフィールドを空のままにすると、自動作成された予約は予約期間の終了時間から 2 時間以内に削除されます。

    • 自動削除しない場合は、[自動削除を有効にする] をクリックしてオフにします。

  13. 将来の予約リクエストのドラフトの作成を完了するには、[ドラフトを保存] をクリックします。

[予約] ページが開きます。将来の予約リクエストの作成が完了するまでに 1 分ほどかかることがあります。

イベント中の迅速な問題解決に備える

重大度の異なるインシデントへの対応方法、分類方法、解決方法は、イベント発生中の運用に大きな影響を与える可能性があります。インシデントのライフサイクル全体で効果的に追跡するには、一元化されたインシデント管理システムを使用します。

連絡先を確認して Personalized Service Health を有効にするだけでなく、次のことを行う必要があります。

  • カスタマーケアを利用する場合のベスト プラクティスを確認する
  • コミュニケーション計画を作成する
  • アクセス権を確保する

詳細については、イベント中に問題の解決を準備するをご覧ください。

連絡先を確認する

多くの Google Cloud サービスは、 Google Cloud ユーザーと重要な情報を共有するために通知を送信します。デフォルトでは、これらの通知は特定の Identity and Access Management(IAM)ロールを持つメンバーに送信されます。重要な連絡先を使用する場合、独自の連絡先リストを指定することで、通知を受け取るユーザーをカスタマイズできます。詳細については、通知の連絡先の管理をご覧ください。

  1. Google Cloud コンソールで、[IAM と管理] > [重要な連絡先] ページに移動します。

    [重要な連絡先] に移動

  2. コンソール ツールバーのリソース セレクタに、プロジェクト、フォルダ、または組織の名前が表示されていることを確認します。リソース セレクタは、どのプロジェクト、フォルダ、組織の連絡先を管理しているかを示します。

  3. 連絡先をカテゴリ別に一覧表示するには、[カテゴリ] を選択します。連絡先をアルファベット順で一覧表示するには、[連絡先] を選択します。

Personalized Service Health を有効にする

Personalized Service Health を使用すると、プロジェクトに関連する Google Cloud サービスの中断を特定し、効率的に管理して対応できます。詳細については、Personalized Service Health の概要をご覧ください。

イベントの前に Service Health API が有効になっていることと、組織がダッシュボードにアクセスしてアラートを構成できることを確認します。詳細については、Personalized Service Health へのアクセスを管理するをご覧ください。

  1. Google Cloud コンソールのプロジェクト セレクタページで、 Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  2. Enable the Service Health API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

クラウド リソースの管理と最適化

Google Cloudワークロードで使用されるリソースを管理して最適化します。これには、実際の使用量と需要に基づくリソースサイズの適正化、動的リソース割り当てでの自動スケーリングの使用、アーキテクチャとセキュリティの推奨事項の確認が含まれます。

Active Assist の推奨事項を確認するだけでなく、次のことも行います。

  • Google Cloud ベスト プラクティスを確認する
  • スケーラビリティを確認する
  • プロダクトのバージョンを確認する
  • アラートとダッシュボードを確認する

詳細については、クラウド リソースを最適化するをご覧ください。

Active Assist の推奨事項を確認する

Active Assist は、 Google Cloud プロジェクトの最適化に役立つ推奨事項と分析情報を生成するためにGoogle Cloud で使用されるツールのポートフォリオです。詳細については、Active Assist とはをご覧ください。

  1. Google Cloud コンソールで、[Active Assist] に移動します。

    Active Assist に移動

  2. コンソールのツールバーにあるリソース セレクタを使用して、Google Cloud プロジェクト、フォルダ、または組織を選択します。

    組織またはフォルダに対する権限がある場合、その組織またはフォルダのレベルでのみ推奨事項を確認できます。フォルダまたはプロジェクトに対する権限は関係ありません。

  3. ナビゲーション パネルで [すべての推奨事項] をクリックします。

    フィルタ、並べ替え、共有が可能な推奨事項が表示されます。推奨事項を詳細に調査し、影響を受けるリソースと推奨事項の適用が及ぼす影響を確認できます。

  4. 推奨事項の詳細を確認するには、[推奨事項] 列で推奨事項をクリックします。

    推奨事項を適用するかどうかの判断に役立つ関連データが表示されます。

  5. 権限がある場合は、該当するボタンをクリックして、推奨事項を適用または拒否できます。

    推奨事項によっては、直接適用できない場合があります。コンソールに表示された手順に沿って適用してください。

負荷テストのスケジュールを設定して実施する

負荷テストでは、本番環境での使用中にシステムが正常にスケーリングされるかどうかを判断し、スケーリングを妨げるボトルネックを特定できます。

  1. イベントの 3~5 か月前に、重要なプロジェクトとワークロードで負荷テストを実施し、ピーク時のトラフィックをシミュレートする必要があります。

  2. 負荷テストによる割り当てと費用への影響を調査し、最も負荷がかかるサービスの費用をモニタリングする Cloud Billing 予算アラートの作成を検討します。

  3. 各テストの後に結果を評価し、キャパシティ プランナーを使用して使用状況と予測データを可視化して、必要に応じて割り当ての増加をリクエストします。このドキュメントで、キャパシティ プランナーを使用する割り当ての調整をリクエストするをご覧ください。

サポートが必要な場合は、アカウント チームまたは TAM にお問い合わせください。アーキテクチャの変更をキャプチャして計画し、サービスの全体的な信頼性と可用性を向上させることができるよう支援します。

障害復旧テストのスケジュール設定と実施

堅牢で十分にテストされた障害復旧(DR)戦略を採用している組織は、異常が発生した場合に中断による影響を最小限に抑え、迅速に復旧し、コア業務を速やかに再開できます。

DR 戦略には、緊急対応の詳細な要件、バックアップ オペレーション、復旧手順を含める必要があります。

  1. イベントの 1~3 か月前に、障害シナリオのシミュレーションを実施して、DR 計画と準備のギャップを確認します。

  2. 各テストの後に結果を評価し、アーキテクチャの変更が必要かどうかを判断します。必要に応じてリソースを確認し、最適化します。このドキュメントのクラウド リソースの管理と最適化をご覧ください。

アカウント チームまたは TAM は、DR テストや、インシデント対応プロセスを理解して改善する方法についてサポートします。詳細については、障害復旧計画ガイドをご覧ください。

リソースのサマリー

次の表に、このドキュメントで参照するガイドを示します。

イベント管理のベスト プラクティスを理解する
イベントに適した容量をリクエストして確保する
イベント中の迅速な問題解決に備える
クラウド リソースの管理と最適化
負荷テストのスケジュールを設定して実施する
障害復旧テストのスケジュール設定と実施