Vertex AI のログと指標を表示する

ログと指標を使用すると、サービスをモニタリングし、サービスパフォーマンスの問題のトラブルシューティングを行うことができます。Vertex AI サービスのログと指標は、Google Distributed Cloud（GDC）エアギャップのモニタリングリソースとロギングリソースを使用して表示できます。特定の Vertex AI 指標をモニタリングするクエリを作成することもできます。

このページでは、 Distributed Cloud のモニタリングインスタンス。

このページには、光学式文字認識（OCR）、Speech-to-Text、Vertex AI Translation などの Vertex AI プラットフォームとサービスをモニタリングするために使用できるサンプルクエリも含まれています。Distributed Cloud のロギングとモニタリングソリューションの詳細については、指標とログをモニタリングするをご覧ください。

始める前に

Vertex AI のログと指標を表示するために必要な権限を取得するには、プロジェクトの IAM 管理者に、プロジェクトの Namespace でプロジェクト Grafana 閲覧者（project-grafana-viewer）ロールを付与するよう依頼してください。

このロールの詳細については、IAM 権限を準備するをご覧ください。

ダッシュボードでログと指標を可視化する

Vertex AI の指標とログはダッシュボードで確認できます。たとえば、Vertex AI が CPU 使用率に与える影響を確認するクエリを作成できます。

ダッシュボードで Vertex AI のログと指標を表示する手順は次のとおりです。

GDC コンソールにログインして、プロジェクトを選択します。
ナビゲーションメニューで、[Vertex AI] > [事前トレーニング済み API] をクリックします。
[事前トレーニング済み API] ページで、モニタリングするサービスの Vertex AI API が有効になっていることを確認します。
[Grafana でサービスをモニタリングする] をクリックして、Grafana のホームページを開きます。
ホームページのナビゲーションメニューで、[探索] 探索をクリックして、[探索] ページを開きます。
[Explore] ページのメニューから、次のいずれかのデータソースを選択します。
- オペレーションログ: オペレーションログを取得します。
- 監査ログ: 監査ログを取得します。
- Prometheus: 指標を取得します。
指標を表示する場合は、PromQL（Prometheus Query Language）式を使用してクエリを入力します。
ログを表示する場合は、LogQL（ログクエリ言語）式を使用してクエリを入力します。

クエリに一致する指標またはログがページに表示されます。

[Explore] ページで Prometheus オプションが選択され、指標が取得されます。

図 1. Grafana で指標をクエリするためのメニューオプション。

図 1 の Prometheus オプションを選択すると、指標を取得するクエリを作成できるインターフェースが表示されます。

サンプルクエリ

次の表に、環境内の Vertex AI プラットフォームをモニタリングするためのクエリの例を示します。

Vertex AI プラットフォーム
データソース	説明	コンポーネント	クエリ
指標	コンテナの CPU 使用率	レベル 1 オペレーター	`rate(container_cpu_usage_seconds_total{namespace="ai-system",container="l1operator"}[30s]) * 100`
	コンテナの CPU 使用率	レベル 2 オペレーター	`rate(container_cpu_usage_seconds_total{namespace="ai-system",container="l2operator"}[30s]) * 100`
	コンテナのメモリ使用量（MB）	レベル 1 オペレーター	`container_memory_usage_bytes{namespace="ai-system",container="l1operator"} * 1e-6`
	コンテナのメモリ使用量（MB）	レベル 2 オペレーター	`container_memory_usage_bytes{namespace="ai-system",container="l2operator"} * 1e-6`
オペレーションログ	L1 オペレーターログ	レベル 1 オペレーター	`{service_name="vai-l1operator"}`
オペレーションログ	L2 オペレーターログ	レベル 2 オペレーター	`{service_name="vai-l2operator"}`
監査ログ	プラットフォームフロントエンドの監査ログ	Vertex AI ウェブプラグインのフロントエンド	`{service_name="istio"} \|~ upstream_cluster:.*(vai-web-plugin-frontend)`
監査ログ	プラットフォームバックエンドの監査ログ	Vertex AI ウェブプラグインのバックエンド	`{service_name="istio"} \|~ upstream_cluster:.*(vai-web-plugin-backend)`

次の表に、環境内の Vertex AI API サービス（OCR、Speech-to-Text、Vertex AI Translation など）をモニタリングするサンプルクエリを示します。

Vertex AI サービス
データソース	説明	サービス	クエリ
指標	事前トレーニング済み API が CPU 使用率に与える影響。	OCR	`rate(container_cpu_usage_seconds_total{namespace="g-vai-ocr-sie",container="CONTAINER_NAME"}[30s]) * 100 CONTAINER_NAME values: vision-extractor \| vision-frontend \| vision-vms-ocr`
		Speech-to-Text	`rate(container_cpu_usage_seconds_total{namespace="g-vai-speech-sie",container="CONTAINER_NAME"}[30s]) * 100`
		Vertex AI Translation	`rate(container_cpu_usage_seconds_total{namespace="g-vai-translation-sie",container="CONTAINER_NAME"}[30s]) * 100 CONTAINER_NAME values: translation-aligner \| translation-frontend \| translation-prediction`
	`destination_service` フィルタラベルを使用して、過去 60 分間のエラー率を取得します。	OCR	`rate(istio_requests_total{destination_service=~".*g-vai-ocr-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])`
		Speech-to-Text	`rate(istio_requests_total{destination_service=~".*g-vai-speech-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])`
		Vertex AI Translation	`rate(istio_requests_total{destination_service=~".*g-vai-translation-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])`
オペレーションログ	Vertex AI サービスのオペレーションログ注: サービスの Namespace を使用して、メインフィルタを指定します。クエリに `service_name` や `pod` などのラベルを追加すると、より詳細な結果を作成できます。	OCR	`{namespace="g-vai-ocr-sie"}`
		Speech-to-Text	`{namespace="g-vai-speech-sie"}`
		Vertex AI Translation	`{namespace="g-vai-translation-sie"}`
監査ログ	Vertex AI サービスの監査ログ	OCR	`{service_name="istio"} \|= "vision-frontend-server"`
		Speech-to-Text	`{service_name="istio"} \|= "speech-frontend-server"`
		Vertex AI Translation	`{service_name="istio"} \|= "translation-frontend-server"`

Vertex AI のログと指標を表示する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

始める前に

ダッシュボードでログと指標を可視化する

サンプルクエリ

Vertex AI のログと指標を表示する