GKE マルチクラスタ Inference Gateway について

Autopilot Standard

Google Kubernetes Engine（GKE）マルチクラスタ推論ゲートウェイは、複数の GKE クラスタ間で AI/ML 推論ワークロードのロードバランシングを行います。GKE マルチクラスタ Gateway をクラスタ間トラフィックルーティング用に、Inference Gateway を AI/ML モデルサービング用に統合します。この統合により、デプロイのスケーラビリティと高可用性が向上します。このドキュメントでは、ゲートウェイのコアコンセプトとメリットについて説明します。

GKE マルチクラスタ Inference Gateway のデプロイ方法の詳細については、GKE マルチクラスタ Inference Gateway を設定するをご覧ください。

このドキュメントを理解するには、次のことを理解しておく必要があります。

GKE での AI / ML オーケストレーション。
生成 AI の用語。
GKE ネットワーキングのコンセプト（Service、GKE マルチクラスタゲートウェイ、Gateway API など）。
Google Cloudでのロードバランシング、特にロードバランサが GKE とやり取りする方法。

このドキュメントは、次のペルソナを対象としています。

AI / ML ワークロードの提供に Kubernetes コンテナオーケストレーション機能を使用することに関心をお持ちの ML エンジニア、プラットフォーム管理者 / オペレーター、データ / AI スペシャリスト。
Kubernetes ネットワーキングを操作するクラウドアーキテクトまたはネットワーキングスペシャリスト。

Google Cloud のコンテンツで使用されている一般的なロールとタスクの例の詳細については、一般的な GKE Enterprise ユーザーロールとタスクをご覧ください。

GKE マルチクラスタ推論 Gateway のメリット

GKE マルチクラスタ Inference Gateway には、AI/ML 推論ワークロードの管理に次のようなメリットがあります。

複数の GKE クラスタ（異なる地理的リージョン間を含む）間でインテリジェントなロードバランシングを行うことで、高可用性とフォールトトレランスが向上します。推論ワークロードは引き続き使用できます。クラスタまたはリージョンで問題が発生した場合、システムはリクエストを自動的に再ルーティングし、ダウンタイムを最小限に抑えます。
さまざまなクラスタの GPU リソースと TPU リソースをプールして需要の増加に対応することで、スケーラビリティを向上させ、リソース使用量を最適化します。このプーリングにより、ワークロードは単一クラスタの容量を超えてバーストし、フリート全体で使用可能なリソースを効率的に使用できます。
グローバルに最適化されたルーティングでパフォーマンスを最大化します。このゲートウェイは、すべてのクラスタの Key-Value（KV）キャッシュ使用率などの高度な指標を使用して、効率的なルーティングの決定を行います。このアプローチにより、リクエストを処理するのに最適なクラスタにリクエストが送信されるため、AI/ML 推論フリートの全体的なパフォーマンスを最大化できます。

制限事項

GKE マルチクラスタ Inference Gateway には次の制限があります。

Model Armor の統合: GKE マルチクラスタ Inference Gateway は、Model Armor の統合をサポートしていません。
Envoy Proxy のレイテンシレポート: Envoy Proxy は、成功した（2xx）リクエストのクエリレイテンシのみを報告します。エラーとタイムアウトは無視されます。この動作により、グローバルサーバーロードバランサ（GSLB）が、障害が発生したバックエンドの実際の負荷を過小評価し、過負荷状態のサービスにさらに多くのトラフィックを転送する可能性があります。この問題を軽減するには、リクエストタイムアウトを大きく設定します。たとえば、600s の値をおすすめします。

主要コンポーネント

GKE マルチクラスタ推論 Gateway は、いくつかの Kubernetes カスタムリソースを使用して、推論ワークロードとトラフィックルーティングを管理します。

InferencePool: ターゲットクラスタ内の同一のモデルサーバーバックエンドをグループ化します。このリソースにより、モデルサービングインスタンスの管理とスケーリングが簡素化されます。
InferenceObjective: InferencePool 内の特定のモデルのルーティング優先度を定義します。このルーティングにより、要件に基づいて特定のモデルにトラフィック優先度が確実に付与されます。
GCPInferencePoolImport: 構成クラスタで HTTPRoute を使用して、モデルバックエンドをルーティング構成で使用できるようにします。このリソースは、ターゲットクラスタから InferencePool をエクスポートすると、構成クラスタに自動的に作成されます。構成クラスタは、マルチクラスタ環境の中央制御点として機能します。
GCPBackendPolicy: バックエンドへのトラフィックのロードバランシング方法をカスタマイズします。たとえば、カスタム指標に基づいてロードバランシングを有効にしたり、エンドポイントあたりの未処理リクエスト数に上限を設定してモデルサーバーを保護したりできます。
AutoscalingMetric: モデルサーバーからエクスポートするカスタム指標（vllm:kv_cache_usage_perc など）を定義します。これらの指標を GCPBackendPolicy で使用すると、よりインテリジェントなロードバランシングの決定を行い、パフォーマンスとリソース使用率を最適化できます。

GKE マルチクラスタ Inference Gateway の仕組み

GKE マルチクラスタ Inference Gateway は、複数の GKE クラスタにデプロイされた AI/ML モデルへのトラフィックを管理し、転送します。機能は次のとおりです。

一元化されたトラフィック管理: 専用の構成クラスタでトラフィックルーティングルールを定義します。構成クラスタは、マルチクラスタ環境の中心的な制御ポイントとして機能します。フリートのマルチクラスタ Ingress を有効にするときに、GKE クラスタを構成クラスタとして指定します。この一元管理アプローチにより、GKE クラスタのフリート全体でモデルにリクエストを転送する方法を一元的に管理できます。
柔軟なモデルデプロイ: 実際の AI/ML モデルは、個別のターゲットクラスタで実行されます。この分離により、最も理にかなった場所にモデルをデプロイできます（データに近い場所や、特定のハードウェアを備えたクラスタなど）。
モデルの簡単な統合: ターゲットクラスタにモデルをデプロイするときに、InferencePool を使用してサービングインスタンスをグループ化します。この InferencePool をエクスポートすると、構成クラスタで自動的にルーティングに使用できるようになります。
インテリジェントなロードバランシング: ゲートウェイはトラフィックを分散するだけでなく、インテリジェントなルーティングの決定を行います。モデルサーバーのカスタム指標など、さまざまなシグナルを使用するように構成することで、ゲートウェイは受信リクエストが最適なクラスタまたはモデルインスタンスに送信されるようにします。これにより、パフォーマンスとリソース使用率を最大化できます。たとえば、キー値（KV）キャッシュ使用率などの指標に基づいて、使用可能な推論容量が最も多いクラスタにリクエストを転送できます。

次のステップ

Gateway をデプロイするには、GKE マルチクラスタ Inference Gateway を設定するをご覧ください。
GCPBackendPolicy リソースで scopes フィールドを使用する方法については、GCPBackendPolicy スコープを使用してバックエンド構成をカスタマイズするをご覧ください。