Consulta las métricas de AI AutoMetrics de Vertex AI Inference

En este documento, se describe cómo usar las métricas automáticas de AA para supervisar tus cargas de trabajo de AA en Vertex AI.

AI AutoMetrics te permite supervisar el rendimiento y el estado de tus modelos con una configuración mínima. Esta función está diseñada para brindarte estadísticas inmediatas sobre tus contenedores y modelos personalizados que se ejecutan en Vertex AI Inference.

Antes de comenzar

  1. Asegúrate de tener un extremo de Vertex AI con un modelo implementado que use un contenedor con frameworks compatibles.
  2. Asegúrate de que tu proyecto tenga habilitado Cloud Monitoring. Para obtener más información, consulta Habilita la API de Monitoring.

Cómo usar las métricas automáticas potenciadas por IA

Para ver las métricas automáticas basadas en IA en el Explorador de métricas, haz lo siguiente:

  1. Ve a la página Explorador de métricas en la consola de Google Cloud .

    Ir al Explorador de métricas

  2. En Selecciona una métrica, elige Prometheus Target.

  3. En Categorías de métricas activas, selecciona Vertex.

  4. En Métricas activas, selecciona la métrica deseada.

  5. Haz clic en Aplicar.

También puedes consultar métricas con Grafana o la API o IU de Prometheus.

Frameworks compatibles

Las métricas automáticas de IA admiten los siguientes marcos de trabajo:

Framework Extremo calificado Métricas calificadas
vLLM Extremo /metrics compatible con Prometheus Métricas con el prefijo vllm:

Cómo funciona

Vertex AI extrae automáticamente el extremo /metrics de tu contenedor en un intervalo predefinido. Luego, todas las métricas aptas se exportan aGoogle Cloud Google Cloud Managed Service para Prometheus, donde puedes analizarlas y visualizarlas.

Nombres y etiquetas de las métricas

Las métricas recopiladas por AI AutoMetrics se transfieren a Cloud Monitoring según la convención de nomenclatura vertex_*.

Para facilitar el filtrado y la agrupación, AI AutoMetrics adjunta automáticamente las siguientes etiquetas adicionales de Vertex AI a cada métrica:

  • deployed_model_id: Es el ID de un modelo implementado que procesa solicitudes de inferencia.
  • model_display_name: Es el nombre visible de un modelo implementado.
  • replica_id: Es el ID único que corresponde a la réplica del modelo implementado (nombre del pod).
  • endpoint_id: Es el ID de un extremo del modelo.
  • endpoint_display_name: Es el nombre visible de un extremo del modelo.
  • product: Es el nombre de la función en Vertex AI. Siempre es Online Inference.

¿Qué sigue?