借助日志和指标,您可以监控服务并排查服务性能方面的问题。您可以使用 Google Distributed Cloud (GDC) 气隙设备中的监控和日志记录资源,查看 Vertex AI 服务的日志和指标。您还可以创建查询来监控特定的 Vertex AI 指标。
本页介绍了如何在 Grafana 中查询和查看 Vertex AI 服务的日志和指标。
此页面还包含一些示例查询,您可以使用这些查询来监控 Vertex AI 平台和服务,例如光学字符识别 (OCR)、Speech-to-Text 和 Vertex AI Translation。
准备工作
如需获得查看 Vertex AI 日志和指标所需的权限,请让项目 IAM 管理员在项目命名空间中向您授予 Project Grafana Viewer (project-grafana-viewer) 角色。
在信息中心内直观呈现日志和指标
您可以在信息中心内查看 Vertex AI 指标和日志。例如,您可以创建一个查询来查看 Vertex AI 对 CPU 使用率的影响。
请按照以下步骤在信息中心内查看 Vertex AI 日志和指标:
- 在导航菜单中,依次点击 Vertex AI > 预训练 API。 
- 在预训练 API 页面上,确保您要监控的服务的 Vertex AI API 已启用。 
- 点击 Monitor services in Grafana(在 Grafana 中监控服务)以打开 Grafana 首页。 
- 在首页的导航菜单中,依次点击探索 探索,打开探索页面。 
- 在探索页面上的菜单中,选择以下数据源之一: - 运维日志:检索运维日志。
- 审核日志:检索审核日志。
- Prometheus:检索指标。
 
- 如果您想显示指标,请使用 PromQL(Prometheus 查询语言)表达式输入查询。 
- 如果您想显示日志,请使用 LogQL(日志查询语言)表达式输入查询。 
该页面会显示与您的查询匹配的指标或日志。
查询示例
下表包含用于监控环境中的 Vertex AI 平台的查询示例:
| Vertex AI 平台 | |||
|---|---|---|---|
| 数据源 | 说明 | 组件 | 查询 | 
| 指标 | 容器的 CPU 使用率百分比 | 1 级运营商 | rate(container_cpu_usage_seconds_total{namespace="ai-system",container="l1operator"}[30s]) * 100 | 
| 2 级运营商 | rate(container_cpu_usage_seconds_total{namespace="ai-system",container="l2operator"}[30s]) * 100 | ||
| 容器的内存用量(以 MB 为单位) | 1 级运营商 | container_memory_usage_bytes{namespace="ai-system",container="l1operator"} * 1e-6 | |
| 2 级运营商 | container_memory_usage_bytes{namespace="ai-system",container="l2operator"} * 1e-6 | ||
| 运维日志 | L1 操作员日志 | 1 级运营商 | {service_name="vai-l1operator"} | 
| L2 操作员日志 | 2 级运营商 | {service_name="vai-l2operator"} | |
| 审核日志 | 平台前端审核日志 | Vertex AI Web 插件前端 | {service_name="istio"} |~ upstream_cluster:.*(vai-web-plugin-frontend.ai-system) | 
| 平台后端审核日志 | Vertex AI Web 插件后端 | {service_name="istio"} |~ upstream_cluster:.*(vai-web-plugin-backend.ai-system) | |
下表包含一些示例查询,可用于监控您环境中的 Vertex AI API 服务,例如 OCR、Speech-to-Text 和 Vertex AI Translation:
| Vertex AI 服务 | |||
|---|---|---|---|
| 数据源 | 说明 | 服务 | 查询 | 
| 指标 | 预训练 API 对 CPU 使用率的影响。 | OCR | rate(container_cpu_usage_seconds_total{namespace="g-vai-ocr-sie",container="CONTAINER_NAME"}[30s]) * 100 CONTAINER_NAME values: vision-extractor | vision-frontend | vision-vms-ocr | 
| Speech-to-Text | rate(container_cpu_usage_seconds_total{namespace="g-vai-speech-sie",container="CONTAINER_NAME"}[30s]) * 100 | ||
| Vertex AI Translation | rate(container_cpu_usage_seconds_total{namespace="g-vai-translation-sie",container="CONTAINER_NAME"}[30s]) * 100 CONTAINER_NAME values: translation-aligner | translation-frontend | translation-prediction | ||
| 使用 destination_service过滤条件标签可获取过去 60 分钟内的错误率。 | OCR | rate(istio_requests_total{destination_service=~".*g-vai-ocr-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m]) | |
| Speech-to-Text | rate(istio_requests_total{destination_service=~".*g-vai-speech-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m]) | ||
| Vertex AI Translation | rate(istio_requests_total{destination_service=~".*g-vai-translation-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m]) | ||
| 运维日志 | 来自 Vertex AI 服务 的操作日志 | OCR | {namespace="g-vai-ocr-sie"} | 
| Speech-to-Text | {namespace="g-vai-speech-sie"} | ||
| Vertex AI Translation | {namespace="g-vai-translation-sie"} | ||
| 审核日志 | Vertex AI 服务的审核日志 | OCR | {service_name="istio"} |= "vision-frontend-server" | 
| Speech-to-Text | {service_name="istio"} |= "speech-frontend-server" | ||
| Vertex AI Translation | {service_name="istio"} |= "translation-frontend-server" | ||