Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

容量バッファについて

Standard Autopilot

容量バッファを使用すると、クラスタ内のアクティブまたはスタンバイの容量の階層を事前に宣言できるため、Google Kubernetes Engine（GKE）ワークロードの Pod の起動レイテンシを短縮できます。予備容量を事前に宣言することで、費用対効果の高い方法でワークロードを迅速に起動できます。

このドキュメントでは、容量バッファの仕組みについて説明します。容量バッファを有効にして使用する方法については、容量バッファを構成するをご覧ください。

容量バッファを使用する場合

起動レイテンシの影響を受けやすく、迅速なスケーリングが必要なアプリケーションには、容量バッファを使用します。トラフィックが急増した場合、アクティブバッファは、低レイテンシのスケーリング用に事前プロビジョニングされた容量を提供します。トラフィックが継続的に増加する場合は、スタンバイバッファを使用すると、事前プロビジョニングよりも低コストで Pod をスケジューリングできます。

容量バッファには次の利点があります。

スケーリングレイテンシを最小限に抑える: アクティブバッファは実行中の VM を提供するため、レイテンシを最小限に抑えることができます。スタンバイバッファは迅速に再開されるため、新しいノードよりも迅速に容量を利用できます。
費用対効果の高いオーバープロビジョニング: 容量バッファを使用すると、固定サイズのセーフティネットを維持できます。大規模なワークロードの場合、このアプローチは、クラスタの成長に伴ってアイドル状態の容量が直線的に増加する他のオーバープロビジョニング方法（HorizontalPodAutoscaler（HPA）の使用率の目標値を下げるなど）よりも費用対効果が高くなります。
ワークロードの要件を満たす: 容量バッファのサイズを完全に制御できます。カスタム DaemonSet やデータの組み込み、イメージのプリロードとワークロードの事前起動の制御など、ニーズに合わせて調整できます。

AI エージェント、AI 推論、セールイベント中の小売アプリケーション、プレーヤーアクティビティのピーク時のゲームサーバーなど、迅速なスケールアップが必要なレイテンシの影響を受けやすいワークロードには、容量バッファを使用することをおすすめします。

起動レイテンシの影響を受けないワークロード（バッチ処理ジョブなど）には、容量バッファを使用することをおすすめしません。このようなワークロードでは、リソースをオーバープロビジョニングしてもメリットはありません。

容量バッファの仕組み

容量バッファを実装するには、Kubernetes CapacityBuffer カスタムリソースを使用して、予備容量のバッファを定義します。GKE クラスタオートスケーラーは CapacityBuffer リソースをモニタリングし、保留中の需要として処理して、予備容量が使用可能であることを確認します。バッファで定義されたリソースリクエストを満たすのに十分な容量がクラスタにない場合、クラスタオートスケーラーは追加のノードをプロビジョニングします。

優先度の高いワークロードがスケールアップすると、GKE はバッファ内の使用可能な容量にワークロードをすぐにスケジューリングします。この即時スケジューリングは、バッファに予約されているレプリカ数またはリソース量に適用され、ノードのプロビジョニングに伴う一般的な遅延を回避できます。ワークロードがバッファユニットを使用すると、クラスタオートスケーラーはバッファを補充するために新しいノードをプロビジョニングします。

容量バッファの戦略

レイテンシと費用の要件に基づいて、さまざまなプロビジョニング戦略を使用して容量バッファを構成できます。

アクティブバッファ

アクティブバッファは、予約済みの容量に収まるワークロードの低レイテンシスケーリング用に実行中の VM を提供します。ノードはすでに準備が整っているため、スケールアップイベント時の最初のバッファ消費のレイテンシを最小限に抑えることができます。

この戦略は、スケールアップ時間が最優先される重要なワークロードにおすすめします。

スタンバイバッファ

スタンバイバッファは、一時停止された VM を提供します。スタンバイ戦略はアクティブ戦略よりも費用対効果が高くなりますが、ワークロードを受け入れる前に VM を再開する際に短い遅延が発生します。

この戦略は、スケーリングのわずかな遅延を許容して費用を最適化できるワークロードにおすすめします。

CapacityBuffer CRD

容量バッファを構成するには、CapacityBuffer CustomResourceDefinition（CRD）を作成します。さまざまな条件を満たすように容量バッファを構成できます。

固定レプリカ: バッファ Pod の固定数を指定します。この構成は、既知のサイズのバッファを作成する最も簡単な方法です。
割合ベース: スケールサブリソース（Deployment、 StatefulSet、ReplicaSet、Job など）を定義する既存のスケーラブルオブジェクトの割合としてバッファサイズを定義します。参照ワークロードがスケーリングされると、バッファサイズが動的に調整されます。Pod テンプレートにはレプリカフィールドがないため、割合ベースのバッファを定義することはできません。
リソース上限: バッファが予約する CPU とメモリの合計量を定義します。コントローラは、参照される Pod テンプレートのリソースリクエストに基づいて、作成するバッファ Pod の数を計算します。

詳細については、CapacityBuffer CRD のリファレンスドキュメントをご覧ください。

要件と制限事項

容量バッファには次の要件と制限があります。

容量バッファは、アクティブバッファの場合はバージョン 1.35.2-gke.1842000 以降、スタンバイバッファの場合はバージョン 1.35.2-gke.1842002 以降を実行している GKE クラスタで使用できます。
容量バッファは、ノードベースの課金モデルを使用するワークロードのみをサポートします。容量バッファは、 Pod ベースの課金モデルを使用するワークロードをサポートしていません。
クラスタでノード自動プロビジョニングを有効にすることをおすすめします。ノード自動プロビジョニングにより、クラスタオートスケーラーは CapacityBuffer のリソースリクエストに基づいて新しいノードプールを作成できます。ノード自動プロビジョニングを有効にしない場合、クラスタオートスケーラーは既存のノードプールのみをスケールアップします。

スタンバイバッファには、次の追加の制限があります。

Standard クラスタでのみサポートされます。
GPU または TPU が接続された VM はサポートされていません。
ローカル SSD は対象外です。
機密性の高い Google Kubernetes Engine ノードは対象外です。
Compute Engine の一時停止と再開のオペレーションに関連する制限事項（メモリ上限など）を理解しておく必要があります。

次のステップ

容量バッファを実装する方法については、容量バッファを構成するをご覧ください。