Ver las métricas automáticas de la IA de Vertex AI Inference

En este documento se describe cómo usar AI AutoMetrics para monitorizar tus cargas de trabajo de IA en Vertex AI.

La función Métricas automáticas de IA te permite monitorizar el rendimiento y el estado de tus modelos con una configuración mínima. Esta función se ha diseñado para ofrecerte información inmediata sobre tus contenedores y modelos personalizados que se ejecutan en Vertex AI Inference.

Antes de empezar

  1. Asegúrate de tener un endpoint de Vertex AI con un modelo desplegado que use un contenedor con frameworks compatibles.
  2. Asegúrate de que Cloud Monitoring esté habilitado en tu proyecto. Consulta más información en el artículo Habilitar la API Monitoring.

Usar AutoMetrics de IA

Para ver las métricas automáticas de IA en el explorador de métricas, haz lo siguiente:

  1. Ve a la página Explorador de métricas de la consola de Google Cloud .

    Ir a Explorador de métricas

  2. En Seleccionar una métrica, elija Objetivo de Prometheus.

  3. En Categorías de métricas activas, selecciona Vertex.

  4. En Métricas activas, seleccione la métrica que quiera.

  5. Haz clic en Aplicar.

También puedes consultar métricas con Grafana o la API o la interfaz de usuario de Prometheus.

Frameworks compatibles

AI AutoMetrics admite los siguientes frameworks:

Framework Endpoint cualificado Métricas cualificadas
vLLM Endpoint /metrics compatible con Prometheus Métricas con el prefijo vllm:

Cómo funciona

Vertex AI rastrea automáticamente el endpoint /metrics de tu contenedor a intervalos predefinidos. Todas las métricas aptas se exportan aGoogle Cloud Google Cloud Managed Service para Prometheus, donde puedes analizarlas y visualizarlas.

Nombres y etiquetas de las métricas

Las métricas recogidas por AI AutoMetrics se ingieren en Cloud Monitoring con la convención de nomenclatura vertex_*.

Para facilitar el filtrado y la agrupación, AI AutoMetrics añade automáticamente las siguientes etiquetas de Vertex AI a cada métrica:

  • deployed_model_id: el ID de un modelo desplegado que sirve solicitudes de inferencia.
  • model_display_name: el nombre visible de un modelo implementado.
  • replica_id: el ID único correspondiente a la réplica del modelo implementado (nombre del pod).
  • endpoint_id: el ID de un endpoint de modelo.
  • endpoint_display_name: el nombre visible de un endpoint de modelo.
  • product: el nombre de la función de Vertex AI. Siempre es Inferencia online.

Siguientes pasos