您可以透過記錄和指標監控服務,並排解服務效能問題。您可以使用 Google Distributed Cloud (GDC) air-gapped 的監控和記錄資源,查看 Vertex AI 服務的記錄和指標。您也可以建立查詢,監控特定的 Vertex AI 指標。
本頁面說明如何在 Distributed Cloud 的監控執行個體。
本頁面也提供範例查詢,可用於監控 Vertex AI 平台和服務,例如光學字元辨識 (OCR)、Speech-to-Text 和 Vertex AI Translation。如要進一步瞭解 Distributed Cloud 中的記錄和監控解決方案,請參閱「監控指標和記錄」。
事前準備
如要取得權限,以便查看 Vertex AI 的記錄和指標,請要求專案 IAM 管理員在專案命名空間中,授予您專案 Grafana 檢視者 (project-grafana-viewer) 角色。
如要進一步瞭解這個角色,請參閱「準備 IAM 權限」。
在資訊主頁中以視覺化方式呈現記錄和指標
您可以在資訊主頁中查看 Vertex AI 指標和記錄。舉例來說,您可以建立查詢,查看 Vertex AI 對 CPU 使用率的影響。
請按照下列步驟在資訊主頁中查看 Vertex AI 記錄和指標:
在導覽選單中,依序點按「Vertex AI」>「預先訓練的 API」。
在「預先訓練的 API」頁面中,確認要監控的服務已啟用 Vertex AI API。
按一下「Monitor services in Grafana」(在 Grafana 中監控服務),開啟 Grafana 首頁。
在首頁的導覽選單中,按一下「探索」,開啟「探索」頁面。
在「探索」頁面的選單中,選取下列其中一個資料來源:
- 作業記錄:擷取作業記錄。
- 稽核記錄:擷取稽核記錄。
- Prometheus:擷取指標。
如要顯示指標,請使用 PromQL (Prometheus 查詢語言) 運算式輸入查詢。
如要顯示記錄,請使用 LogQL (記錄查詢語言) 運算式輸入查詢。
頁面會顯示與查詢相符的指標或記錄。

圖 1. Grafana 中用於查詢指標的選單選項。
如圖 1 所示,選取「Prometheus」選項後,系統會顯示介面,讓您建構查詢來擷取指標。
查詢範例
下表包含範例查詢,可監控您環境中的 Vertex AI 平台:
| Vertex AI 平台 | |||
|---|---|---|---|
| 資料來源 | 說明 | 元件 | 查詢 |
| 指標 | 容器的 CPU 使用率百分比 | 第 1 級接線人員 | rate(container_cpu_usage_seconds_total{namespace="ai-system",container="l1operator"}[30s]) * 100 |
| 第 2 級接線人員 | rate(container_cpu_usage_seconds_total{namespace="ai-system",container="l2operator"}[30s]) * 100 |
||
| 容器的記憶體用量 (以 MB 為單位) | 第 1 級接線人員 | container_memory_usage_bytes{namespace="ai-system",container="l1operator"} * 1e-6 |
|
| 第 2 級接線人員 | container_memory_usage_bytes{namespace="ai-system",container="l2operator"} * 1e-6 |
||
| 作業記錄 | L1 服務專員記錄 | 第 1 級接線人員 | {service_name="vai-l1operator"} |
| L2 服務人員記錄 | 第 2 級接線人員 | {service_name="vai-l2operator"} |
|
| 稽核記錄 | 平台前端稽核記錄 | Vertex AI 網頁外掛程式前端 | {service_name="istio"} |~ upstream_cluster:.*(vai-web-plugin-frontend) |
| 平台後端稽核記錄 | Vertex AI 網頁外掛程式後端 | {service_name="istio"} |~ upstream_cluster:.*(vai-web-plugin-backend) |
|
下表包含範例查詢,可監控環境中的 Vertex AI API 服務,例如 OCR、Speech-to-Text 和 Vertex AI Translation:
| Vertex AI 服務 | |||
|---|---|---|---|
| 資料來源 | 說明 | 服務 | 查詢 |
| 指標 | 預先訓練的 API 對 CPU 使用量的影響。 |
OCR | rate(container_cpu_usage_seconds_total{namespace="g-vai-ocr-sie",container="CONTAINER_NAME"}[30s]) * 100 CONTAINER_NAME values: vision-extractor | vision-frontend | vision-vms-ocr |
| Speech-to-Text | rate(container_cpu_usage_seconds_total{namespace="g-vai-speech-sie",container="CONTAINER_NAME"}[30s]) * 100 |
||
| Vertex AI Translation | rate(container_cpu_usage_seconds_total{namespace="g-vai-translation-sie",container="CONTAINER_NAME"}[30s]) * 100 CONTAINER_NAME values: translation-aligner | translation-frontend | translation-prediction |
||
使用 destination_service 篩選器標籤,取得過去 60 分鐘的錯誤率。 |
OCR | rate(istio_requests_total{destination_service=~".*g-vai-ocr-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m]) |
|
| Speech-to-Text | rate(istio_requests_total{destination_service=~".*g-vai-speech-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m]) |
||
| Vertex AI Translation | rate(istio_requests_total{destination_service=~".*g-vai-translation-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m]) |
||
| 作業記錄 | Vertex AI 服務的作業記錄 |
OCR | {namespace="g-vai-ocr-sie"} |
| Speech-to-Text | {namespace="g-vai-speech-sie"} |
||
| Vertex AI Translation | {namespace="g-vai-translation-sie"} |
||
| 稽核記錄 | Vertex AI 服務的稽核記錄 | OCR | {service_name="istio"} |= "vision-frontend-server" |
| Speech-to-Text | {service_name="istio"} |= "speech-frontend-server" |
||
| Vertex AI Translation | {service_name="istio"} |= "translation-frontend-server" |
||