查看 Vertex AI 記錄和指標

您可以透過記錄和指標監控服務,並排解服務效能問題。您可以使用 Google Distributed Cloud (GDC) air-gapped 的監控和記錄資源,查看 Vertex AI 服務的記錄和指標。您也可以建立查詢,監控特定的 Vertex AI 指標。

本頁面說明如何在 Distributed Cloud 的監控執行個體。

本頁面也提供範例查詢,可用於監控 Vertex AI 平台和服務,例如光學字元辨識 (OCR)、Speech-to-Text 和 Vertex AI Translation。如要進一步瞭解 Distributed Cloud 中的記錄和監控解決方案,請參閱「監控指標和記錄」。

事前準備

如要取得權限,以便查看 Vertex AI 的記錄和指標,請要求專案 IAM 管理員在專案命名空間中,授予您專案 Grafana 檢視者 (project-grafana-viewer) 角色。

如要進一步瞭解這個角色,請參閱「準備 IAM 權限」。

在資訊主頁中以視覺化方式呈現記錄和指標

您可以在資訊主頁中查看 Vertex AI 指標和記錄。舉例來說,您可以建立查詢,查看 Vertex AI 對 CPU 使用率的影響。

請按照下列步驟在資訊主頁中查看 Vertex AI 記錄和指標:

  1. 登入 GDC 控制台並選取專案

  2. 在導覽選單中,依序點按「Vertex AI」>「預先訓練的 API」

  3. 在「預先訓練的 API」頁面中,確認要監控的服務已啟用 Vertex AI API

  4. 按一下「Monitor services in Grafana」(在 Grafana 中監控服務),開啟 Grafana 首頁。

  5. 在首頁的導覽選單中,按一下「探索」,開啟「探索」頁面。

  6. 在「探索」頁面的選單中,選取下列其中一個資料來源:

    • 作業記錄:擷取作業記錄。
    • 稽核記錄:擷取稽核記錄。
    • Prometheus:擷取指標。
  7. 如要顯示指標,請使用 PromQL (Prometheus 查詢語言) 運算式輸入查詢。

  8. 如要顯示記錄,請使用 LogQL (記錄查詢語言) 運算式輸入查詢。

頁面會顯示與查詢相符的指標或記錄。

在「探索」頁面選取「Prometheus」選項,即可取得指標。

圖 1. Grafana 中用於查詢指標的選單選項。

如圖 1 所示,選取「Prometheus」選項後,系統會顯示介面,讓您建構查詢來擷取指標。

查詢範例

下表包含範例查詢,可監控您環境中的 Vertex AI 平台:

Vertex AI 平台
資料來源 說明 元件 查詢
指標 容器的 CPU 使用率百分比 第 1 級接線人員 rate(container_cpu_usage_seconds_total{namespace="ai-system",container="l1operator"}[30s]) * 100
第 2 級接線人員 rate(container_cpu_usage_seconds_total{namespace="ai-system",container="l2operator"}[30s]) * 100
容器的記憶體用量 (以 MB 為單位) 第 1 級接線人員 container_memory_usage_bytes{namespace="ai-system",container="l1operator"} * 1e-6
第 2 級接線人員 container_memory_usage_bytes{namespace="ai-system",container="l2operator"} * 1e-6
作業記錄 L1 服務專員記錄 第 1 級接線人員 {service_name="vai-l1operator"}
L2 服務人員記錄 第 2 級接線人員 {service_name="vai-l2operator"}
稽核記錄 平台前端稽核記錄 Vertex AI 網頁外掛程式前端 {service_name="istio"} |~ upstream_cluster:.*(vai-web-plugin-frontend)
平台後端稽核記錄 Vertex AI 網頁外掛程式後端 {service_name="istio"} |~ upstream_cluster:.*(vai-web-plugin-backend)

下表包含範例查詢,可監控環境中的 Vertex AI API 服務,例如 OCR、Speech-to-Text 和 Vertex AI Translation:

Vertex AI 服務
資料來源 說明 服務 查詢
指標 預先訓練的 API 對 CPU 使用量的影響。
OCR rate(container_cpu_usage_seconds_total{namespace="g-vai-ocr-sie",container="CONTAINER_NAME"}[30s]) * 100 CONTAINER_NAME values: vision-extractor | vision-frontend | vision-vms-ocr
Speech-to-Text rate(container_cpu_usage_seconds_total{namespace="g-vai-speech-sie",container="CONTAINER_NAME"}[30s]) * 100
Vertex AI Translation rate(container_cpu_usage_seconds_total{namespace="g-vai-translation-sie",container="CONTAINER_NAME"}[30s]) * 100 CONTAINER_NAME values: translation-aligner | translation-frontend | translation-prediction
使用 destination_service 篩選器標籤,取得過去 60 分鐘的錯誤率。 OCR rate(istio_requests_total{destination_service=~".*g-vai-ocr-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])
Speech-to-Text rate(istio_requests_total{destination_service=~".*g-vai-speech-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])
Vertex AI Translation rate(istio_requests_total{destination_service=~".*g-vai-translation-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])
作業記錄 Vertex AI 服務的作業記錄
OCR {namespace="g-vai-ocr-sie"}
Speech-to-Text {namespace="g-vai-speech-sie"}
Vertex AI Translation {namespace="g-vai-translation-sie"}
稽核記錄 Vertex AI 服務的稽核記錄 OCR {service_name="istio"} |= "vision-frontend-server"
Speech-to-Text {service_name="istio"} |= "speech-frontend-server"
Vertex AI Translation {service_name="istio"} |= "translation-frontend-server"