查看 Vertex AI 記錄和指標

您可以透過記錄和指標監控服務，並排解服務效能問題。您可以使用 Google Distributed Cloud (GDC) air-gapped 的監控和記錄資源，查看 Vertex AI 服務的記錄和指標。您也可以建立查詢，監控特定的 Vertex AI 指標。

本頁面說明如何在 Distributed Cloud 的監控執行個體。

本頁面也提供範例查詢，可用於監控 Vertex AI 平台和服務，例如光學字元辨識 (OCR)、Speech-to-Text 和 Vertex AI Translation。如要進一步瞭解 Distributed Cloud 中的記錄和監控解決方案，請參閱「監控指標和記錄」。

事前準備

如要取得查看 Vertex AI 記錄和指標所需的權限，請要求專案 IAM 管理員在專案命名空間中，授予您專案 Grafana 檢視者 (project-grafana-viewer) 角色。

如要進一步瞭解這個角色，請參閱「準備 IAM 權限」。

在資訊主頁中以視覺化方式呈現記錄和指標

您可以在資訊主頁中查看 Vertex AI 指標和記錄。舉例來說，您可以建立查詢，查看 Vertex AI 對 CPU 使用率的影響。

請按照下列步驟，在資訊主頁中查看 Vertex AI 記錄和指標：

登入 GDC 控制台並選取專案。
在導覽選單中，依序點按「Vertex AI」>「預先訓練的 API」。
在「預先訓練的 API」頁面中，確認要監控的服務已啟用 Vertex AI API。
按一下「Monitor services in Grafana」(在 Grafana 中監控服務)，開啟 Grafana 首頁。
在首頁的導覽選單中，按一下「探索」探索開啟「探索」頁面。
在「探索」頁面的選單中，選取下列其中一個資料來源：
- 作業記錄：擷取作業記錄。
- 稽核記錄：擷取稽核記錄。
- Prometheus：擷取指標。
如要顯示指標，請使用 PromQL (Prometheus 查詢語言) 運算式輸入查詢。
如要顯示記錄，請使用 LogQL (記錄查詢語言) 運算式輸入查詢。

頁面會顯示與查詢相符的指標或記錄。

在「探索」頁面選取「Prometheus」選項，即可取得指標。

圖 1. Grafana 中用於查詢指標的選單選項。

如圖 1 所示，選取「Prometheus」Prometheus選項後，介面會顯示可供您建構查詢來擷取指標。

查詢範例

下表包含範例查詢，可監控環境中的 Vertex AI 平台：

Vertex AI 平台
資料來源	說明	元件	查詢
指標	容器的 CPU 使用率百分比	第 1 級接線人員	`rate(container_cpu_usage_seconds_total{namespace="ai-system",container="l1operator"}[30s]) * 100`
	容器的 CPU 使用率百分比	第 2 級接線人員	`rate(container_cpu_usage_seconds_total{namespace="ai-system",container="l2operator"}[30s]) * 100`
	容器的記憶體用量 (以 MB 為單位)	第 1 級接線人員	`container_memory_usage_bytes{namespace="ai-system",container="l1operator"} * 1e-6`
	容器的記憶體用量 (以 MB 為單位)	第 2 級接線人員	`container_memory_usage_bytes{namespace="ai-system",container="l2operator"} * 1e-6`
作業記錄	第 1 層服務專員記錄	第 1 級接線人員	`{service_name="vai-l1operator"}`
作業記錄	第 2 層服務專員記錄	第 2 級接線人員	`{service_name="vai-l2operator"}`
稽核記錄	平台前端稽核記錄	Vertex AI 網頁外掛程式前端	`{service_name="istio"} \|~ upstream_cluster:.*(vai-web-plugin-frontend)`
稽核記錄	平台後端稽核記錄	Vertex AI 網頁外掛程式後端	`{service_name="istio"} \|~ upstream_cluster:.*(vai-web-plugin-backend)`

下表包含範例查詢，可監控環境中的 Vertex AI API 服務，例如 OCR、Speech-to-Text 和 Vertex AI Translation：

Vertex AI 服務
資料來源	說明	服務	查詢
指標	預先訓練的 API 對 CPU 使用量的影響。	OCR	`rate(container_cpu_usage_seconds_total{namespace="g-vai-ocr-sie",container="CONTAINER_NAME"}[30s]) * 100 CONTAINER_NAME values: vision-extractor \| vision-frontend \| vision-vms-ocr`
		Speech-to-Text	`rate(container_cpu_usage_seconds_total{namespace="g-vai-speech-sie",container="CONTAINER_NAME"}[30s]) * 100`
		Vertex AI Translation	`rate(container_cpu_usage_seconds_total{namespace="g-vai-translation-sie",container="CONTAINER_NAME"}[30s]) * 100 CONTAINER_NAME values: translation-aligner \| translation-frontend \| translation-prediction`
	使用 `destination_service` 篩選器標籤，取得過去 60 分鐘的錯誤率。	OCR	`rate(istio_requests_total{destination_service=~".*g-vai-ocr-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])`
		Speech-to-Text	`rate(istio_requests_total{destination_service=~".*g-vai-speech-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])`
		Vertex AI Translation	`rate(istio_requests_total{destination_service=~".*g-vai-translation-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])`
作業記錄	Vertex AI 服務的作業記錄注意：使用服務的命名空間指定主要篩選器。您可以在查詢中加入其他標籤 (例如 `service_name` 或 `pod`)，產生更精細的結果。	OCR	`{namespace="g-vai-ocr-sie"}`
		Speech-to-Text	`{namespace="g-vai-speech-sie"}`
		Vertex AI Translation	`{namespace="g-vai-translation-sie"}`
稽核記錄	Vertex AI 服務的稽核記錄	OCR	`{service_name="istio"} \|= "vision-frontend-server"`
		Speech-to-Text	`{service_name="istio"} \|= "speech-frontend-server"`
		Vertex AI Translation	`{service_name="istio"} \|= "translation-frontend-server"`

查看 Vertex AI 記錄和指標 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

事前準備

在資訊主頁中以視覺化方式呈現記錄和指標

查詢範例

查看 Vertex AI 記錄和指標