ログと指標を使用すると、サービスをモニタリングし、サービスのパフォーマンスに関する問題のトラブルシューティングを行うことができます。Vertex AI サービスのログと指標は、Google Distributed Cloud(GDC)エアギャップ アプライアンスのモニタリング リソースとロギング リソースを使用して表示できます。特定の Vertex AI 指標をモニタリングするクエリを作成することもできます。
このページでは、Grafana で Vertex AI サービスのログと指標をクエリして表示する方法について説明します。
このページには、光学式文字認識(OCR)、Speech-to-Text、Vertex AI Translation などの Vertex AI プラットフォームとサービスをモニタリングするために使用できるサンプルクエリも含まれています。
始める前に
Vertex AI のログと指標を表示するために必要な権限を取得するには、プロジェクトの IAM 管理者に、プロジェクトの Namespace でプロジェクト Grafana 閲覧者(project-grafana-viewer)ロールを付与するよう依頼してください。
ダッシュボードでログと指標を可視化する
Vertex AI の指標とログはダッシュボードで確認できます。たとえば、Vertex AI が CPU 使用率にどのように影響するかを確認するクエリを作成できます。
ダッシュボードで Vertex AI のログと指標を表示する手順は次のとおりです。
- ナビゲーション メニューで、[Vertex AI] > [事前トレーニング済み API] をクリックします。 
- [事前トレーニング済み API] ページで、モニタリングするサービスの Vertex AI API が有効になっていることを確認します。 
- [Grafana でサービスをモニタリングする] をクリックして、Grafana のホームページを開きます。 
- ホームページのナビゲーション メニューで、[探索] 探索 をクリックして、[探索] ページを開きます。 
- [Explore] ページのメニューから、次のいずれかのデータソースを選択します。 - オペレーション ログ: オペレーション ログを取得します。
- 監査ログ: 監査ログを取得します。
- Prometheus: 指標を取得します。
 
- 指標を表示する場合は、PromQL(Prometheus Query Language)式を使用してクエリを入力します。 
- ログを表示する場合は、LogQL(ログクエリ言語)式を使用してクエリを入力します。 
クエリに一致する指標またはログがページに表示されます。
サンプルクエリ
次の表に、環境内の Vertex AI プラットフォームをモニタリングするためのクエリの例を示します。
| Vertex AI プラットフォーム | |||
|---|---|---|---|
| データソース | 説明 | コンポーネント | クエリ | 
| 指標 | コンテナの CPU 使用率 | レベル 1 オペレーター | rate(container_cpu_usage_seconds_total{namespace="ai-system",container="l1operator"}[30s]) * 100 | 
| レベル 2 オペレーター | rate(container_cpu_usage_seconds_total{namespace="ai-system",container="l2operator"}[30s]) * 100 | ||
| コンテナのメモリ使用量(MB) | レベル 1 オペレーター | container_memory_usage_bytes{namespace="ai-system",container="l1operator"} * 1e-6 | |
| レベル 2 オペレーター | container_memory_usage_bytes{namespace="ai-system",container="l2operator"} * 1e-6 | ||
| オペレーション ログ | L1 オペレーター ログ | レベル 1 オペレーター | {service_name="vai-l1operator"} | 
| L2 オペレーター ログ | レベル 2 オペレーター | {service_name="vai-l2operator"} | |
| 監査ログ | プラットフォーム フロントエンドの監査ログ | Vertex AI ウェブ プラグインのフロントエンド | {service_name="istio"} |~ upstream_cluster:.*(vai-web-plugin-frontend.ai-system) | 
| プラットフォーム バックエンドの監査ログ | Vertex AI ウェブ プラグインのバックエンド | {service_name="istio"} |~ upstream_cluster:.*(vai-web-plugin-backend.ai-system) | |
次の表に、環境内の Vertex AI API サービス(OCR、Speech-to-Text、Vertex AI Translation など)をモニタリングするためのクエリの例を示します。
| Vertex AI サービス | |||
|---|---|---|---|
| データソース | 説明 | サービス | クエリ | 
| 指標 | 事前トレーニング済み API が CPU 使用率に与える影響。 | OCR | rate(container_cpu_usage_seconds_total{namespace="g-vai-ocr-sie",container="CONTAINER_NAME"}[30s]) * 100 CONTAINER_NAME values: vision-extractor | vision-frontend | vision-vms-ocr | 
| Speech-to-Text | rate(container_cpu_usage_seconds_total{namespace="g-vai-speech-sie",container="CONTAINER_NAME"}[30s]) * 100 | ||
| Vertex AI Translation | rate(container_cpu_usage_seconds_total{namespace="g-vai-translation-sie",container="CONTAINER_NAME"}[30s]) * 100 CONTAINER_NAME values: translation-aligner | translation-frontend | translation-prediction | ||
| destination_serviceフィルタ ラベルを使用して、過去 60 分間のエラー率を取得します。 | OCR | rate(istio_requests_total{destination_service=~".*g-vai-ocr-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m]) | |
| Speech-to-Text | rate(istio_requests_total{destination_service=~".*g-vai-speech-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m]) | ||
| Vertex AI Translation | rate(istio_requests_total{destination_service=~".*g-vai-translation-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m]) | ||
| オペレーション ログ | Vertex AI サービスのオペレーション ログ | OCR | {namespace="g-vai-ocr-sie"} | 
| Speech-to-Text | {namespace="g-vai-speech-sie"} | ||
| Vertex AI Translation | {namespace="g-vai-translation-sie"} | ||
| 監査ログ | Vertex AI サービスの監査ログ | OCR | {service_name="istio"} |= "vision-frontend-server" | 
| Speech-to-Text | {service_name="istio"} |= "speech-frontend-server" | ||
| Vertex AI Translation | {service_name="istio"} |= "translation-frontend-server" | ||