vLLM

このドキュメントでは、Google Cloud Managed Service for Prometheus を使用して vLLM から指標を収集できるように、Google Kubernetes Engine の Deployment を構成する方法について説明します。このドキュメントでは、次の方法について説明します。

  • vLLM の自動アプリケーション モニタリングを有効にするか、指標を報告するように vLLM を手動で設定します。
  • Cloud Monitoring の事前定義済みダッシュボードにアクセスして、指標を表示します。

以下の手順は、Managed Service for Prometheus でマネージド コレクションを使用している場合にのみ適用されます。セルフデプロイ コレクションを使用している場合は、vLLM のドキュメントでインストール情報をご覧ください。

以下の手順は一例であり、ほとんどの Kubernetes 環境で機能します。セキュリティ ポリシーや組織のポリシーの制限により、アプリケーションやエクスポータのインストールに問題がある場合は、オープンソース ドキュメントでサポート情報を確認することをおすすめします。

vLLM の詳細については、vLLM をご覧ください。Google Kubernetes Engine で vLLM を設定する方法については、GKE の vLLM ガイドをご覧ください。

前提条件

Managed Service for Prometheus とマネージド コレクションを使用して vLLM から指標を収集するには、デプロイが次の要件を満たしている必要があります。

  • クラスタで Google Kubernetes Engine バージョン 1.28.15-gke.2475000 以降を実行している必要があります。
  • マネージド コレクションを有効にして、Managed Service for Prometheus を実行する必要があります。詳細については、マネージド コレクションを使ってみるをご覧ください。

vLLM は、Prometheus 形式の指標を自動的に公開します。別途インストールする必要はありません。想定されるエンドポイントで vLLM が指標を出力していることを確認するには、次の操作を行います。

  1. 次のコマンドを使用してポート転送を設定します。
    kubectl -n NAMESPACE_NAME port-forward POD_NAME 8000
    
  2. 別のターミナル セッションでブラウザまたは curl ユーティリティを使用して、localhost:8000/metrics エンドポイントにアクセスします。

自動アプリケーション モニタリングを使用する

vLLM は、自動アプリケーション モニタリングの使用をサポートしています。自動アプリケーション モニタリングを使用すると、Google Kubernetes Engine は次の処理を行います。

  • デプロイされた vLLM ワークロードのインスタンスを検出します。
  • 検出されたワークロード インスタンスごとに PodMonitoring リソースをデプロイします。
  • vLLM 指標の Cloud Monitoring ダッシュボードをインストールします。

自動アプリケーション モニタリングを使用するには、GKE クラスタでこの機能を有効にする必要があります。 Google Cloud コンソール、Google Cloud CLI(バージョン 492.0.0 以降)、または GKE API を使用できます。詳細については、アプリケーションの自動モニタリングを有効にするをご覧ください。

PodMonitoring リソースを定義する

ターゲット ディスカバリの場合、Managed Service for Prometheus Operator には、同じ Namespace 内の vLLM に対応する PodMonitoring リソースが必要です。

次の PodMonitoring 構成を使用できます。

# Copyright 2025 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: vllm
  labels:
    app.kubernetes.io/name: vllm
    app.kubernetes.io/part-of: google-cloud-managed-prometheus
spec:
  endpoints:
  - port: 8000
    scheme: http
    interval: 30s
    path: /metrics
  selector:
    matchLabels:
      app: vllm-gemma-server
port フィールドと matchLabels フィールドの値がモニタリング対象の vLLM Pod の値と一致することを確認します。

構成の変更をローカル ファイルから適用するには、次のコマンドを実行します。

kubectl apply -n NAMESPACE_NAME -f FILE_NAME

Terraform を使用して構成を管理することもできます。

構成を確認する

Metrics Explorer を使用すると、vLLM が正しく構成されていることを確認できます。Cloud Monitoring が指標を取り込むまでに 1~2 分かかる場合があります。

指標が取り込まれていることを確認します。

  1. Google Cloud コンソールで Metrics explorer のページに移動します。

    [Metrics Explorer] に移動

    検索バーを使用してこのページを検索する場合は、小見出しが [Monitoring] である結果を選択します。

  2. クエリビルダー ペインのツールバーで、[MQL] または [PROMQL] という名前のボタンを選択します。
  3. [言語] で [PromQL] が選択されていることを確認します。言語切り替えボタンは、クエリの書式設定と同じツールバーにあります。
  4. 次のクエリを入力して実行します。
    up{job="vllm", cluster="CLUSTER_NAME", namespace="NAMESPACE_NAME"}

ダッシュボードを表示する

Cloud Monitoring インテグレーションには、vLLM Prometheus の概要ダッシュボードが含まれています。ダッシュボードは、インテグレーションを構成すると自動的にインストールされます。インテグレーションをインストールすることなく、ダッシュボードの静的プレビューを表示することもできます。

インストールされているダッシュボードを表示する手順は次のとおりです。

  1. Google Cloud コンソールで [ダッシュボード] ページに移動します。

    [ダッシュボード] に移動

    検索バーを使用してこのページを検索する場合は、小見出しが [Monitoring] の結果を選択します。

  2. [ダッシュボード リスト] タブを選択します。
  3. [統合] カテゴリを選択します。
  4. ダッシュボードの名前(vLLM Prometheus Overview など)をクリックします。

ダッシュボードの静的プレビューを表示する手順は次のとおりです。

  1. Google Cloud コンソールで [インテグレーション] ページに移動します。

    [インテグレーション] に移動

    検索バーを使用してこのページを検索する場合は、小見出しが [Monitoring] の結果を選択します。

  2. [デプロイメント プラットフォーム] フィルタの [Kubernetes Engine] をクリックします。
  3. vLLM インテグレーションを見つけ、[詳細を表示] をクリックします。
  4. [ダッシュボード] タブを選択します。

トラブルシューティング

指標の取り込みに関する問題のトラブルシューティングについては、取り込み側の問題のトラブルシューティングエクスポータからの収集に関する問題をご覧ください。