llm-d

このドキュメントでは、Google Kubernetes Engine の Deployment で Google Cloud Managed Service for Prometheus を使用して llm-d から指標を収集する方法について説明します。llm-d は、GKE Inference Gateway や vLLM などの多くのコンポーネントで構成されています。

GKE Inference Gateway と vLLM から指標を収集する方法については、次のドキュメントをご覧ください。

これらのドキュメントの手順は、Managed Service for Prometheus で マネージド コレクションを使用している場合にのみ適用されます。セルフデプロイ コレクションを使用している場合は、llm-d のドキュメントをご覧ください。

GKE Inference Gateway と vLLM を構成したら、Cloud Monitoring の事前定義のダッシュボードにアクセスして指標を表示できます。

前提条件

Managed Service for Prometheus とマネージド コレクションを使用して llm-d から指標を収集するには、デプロイが次の要件を満たしている必要があります。

  • クラスタで Google Kubernetes Engine バージョン 1.28.15-gke.2475000 以降を実行している必要があります。
  • マネージド コレクションを有効にして、Managed Service for Prometheus を実行する必要があります。詳細については、マネージド コレクションを使ってみるをご覧ください。

また、vLLM の PodMonitoring リソースの構成も変更する必要があります。次の構成を使用します。

apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: llm-d-metrics
spec:
  selector:
    matchLabels:
      llm-d.ai/model: ms-pd-llm-d-modelservice
  endpoints:
  - port: 8200
    interval: 10s
    path: /metrics
  targetLabels:
    fromPod:
    - from: llm-d.ai/role
      to: role
    metadata:
    - pod
    - container
    - node
    - top_level_controller_name
    - top_level_controller_type

ダッシュボードを表示する

Cloud Monitoring インテグレーションには、llm-d Prometheus の概要ダッシュボードが含まれています。ダッシュボードは、インテグレーションを構成すると自動的にインストールされます。インテグレーションをインストールすることなく、ダッシュボードの静的プレビューを表示することもできます。

インストールされているダッシュボードを表示する手順は次のとおりです。

  1. Google Cloud コンソールで [ダッシュボード] ページに移動します。

    [ダッシュボード] に移動

    検索バーを使用してこのページを検索する場合は、小見出しが [Monitoring] の結果を選択します。

  2. [ダッシュボード リスト] タブを選択します。
  3. [統合] カテゴリを選択します。
  4. ダッシュボードの名前(llm-d Prometheus Overview など)をクリックします。

ダッシュボードの静的プレビューを表示する手順は次のとおりです。

  1. Google Cloud コンソールで [インテグレーション] ページに移動します。

    [インテグレーション] に移動

    検索バーを使用してこのページを検索する場合は、小見出しが [Monitoring] の結果を選択します。

  2. [デプロイメント プラットフォーム] フィルタの [Kubernetes Engine] をクリックします。
  3. llm-d インテグレーションを見つけ、[詳細を表示] をクリックします。
  4. [ダッシュボード] タブを選択します。