このドキュメントでは、AI AutoMetrics を使用して Vertex AI で AI ワークロードをモニタリングする方法について説明します。
AI AutoMetrics を使用すると、最小限の構成でモデルのパフォーマンスと健全性をモニタリングできます。この機能は、Vertex AI Inference で実行されているカスタム コンテナとモデルに関する分析情報をすぐに取得できるように設計されています。
始める前に
- サポートされているフレームワークとコンテナを使用するデプロイ済みモデルを含む Vertex AI エンドポイントがあることを確認します。
- プロジェクトで Cloud Monitoring が有効になっていることを確認します。詳細については、Monitoring API を有効にするをご覧ください。
AI AutoMetrics を使用する
Metrics Explorer で AI AutoMetrics を表示する手順は次のとおりです。
Google Cloud コンソールの [Metrics Explorer] ページに移動します。
[指標を選択] で、[Prometheus Target] を選択します。
[有効な指標カテゴリ] で、[Vertex] を選択します。
[有効な指標] で、目的の指標を選択します。
[適用] をクリックします。
Grafana、または Prometheus API または UI を使用して指標をクエリすることもできます。
サポートされているフレームワーク
AI AutoMetrics は次のフレームワークをサポートしています。
| フレームワーク | 対象エンドポイント | 対象指標 |
|---|---|---|
| vLLM | Prometheus 互換の /metrics エンドポイント |
vllm: 接頭辞が付いた指標 |
仕組み
Vertex AI は、事前定義された間隔でコンテナの /metrics エンドポイントを自動的にスクレイピングします。条件を満たす指標はすべてGoogle Cloud Google Cloud Managed Service for Prometheus にエクスポートされ、そこで分析と可視化を行うことができます。
指標の名前とラベル
AI AutoMetrics によって収集された指標は、vertex_* の命名規則で Cloud Monitoring に取り込まれます。
フィルタリングとグループ化を容易にするため、AI AutoMetrics は次の Vertex AI ラベルを各指標に自動的に付加します。
deployed_model_id: 推論リクエストを処理するデプロイ済みモデルの ID。model_display_name: デプロイされたモデルの表示名。replica_id: デプロイされたモデルレプリカ(Pod 名)に対応する一意の ID。endpoint_id: モデル エンドポイントの ID。endpoint_display_name: モデル エンドポイントの表示名。product: Vertex AI の機能の名前。これは常にオンライン推論です。
次のステップ
- Metrics Explorer の詳細を確認する。