En este documento, se describe cómo usar las métricas automáticas de AA para supervisar tus cargas de trabajo de AA en Vertex AI.
AI AutoMetrics te permite supervisar el rendimiento y el estado de tus modelos con una configuración mínima. Esta función está diseñada para brindarte estadísticas inmediatas sobre tus contenedores y modelos personalizados que se ejecutan en Vertex AI Inference.
Antes de comenzar
- Asegúrate de tener un extremo de Vertex AI con un modelo implementado que use un contenedor con frameworks compatibles.
- Asegúrate de que tu proyecto tenga habilitado Cloud Monitoring. Para obtener más información, consulta Habilita la API de Monitoring.
Cómo usar las métricas automáticas potenciadas por IA
Para ver las métricas automáticas basadas en IA en el Explorador de métricas, haz lo siguiente:
Ve a la página Explorador de métricas en la consola de Google Cloud .
En Selecciona una métrica, elige Prometheus Target.
En Categorías de métricas activas, selecciona Vertex.
En Métricas activas, selecciona la métrica deseada.
Haz clic en Aplicar.
También puedes consultar métricas con Grafana o la API o IU de Prometheus.
Frameworks compatibles
Las métricas automáticas de IA admiten los siguientes marcos de trabajo:
| Framework | Extremo calificado | Métricas calificadas |
|---|---|---|
| vLLM | Extremo /metrics compatible con Prometheus |
Métricas con el prefijo vllm: |
Cómo funciona
Vertex AI extrae automáticamente el extremo /metrics de tu contenedor en un intervalo predefinido. Luego, todas las métricas aptas se exportan aGoogle Cloud Google Cloud Managed Service para Prometheus, donde puedes analizarlas y visualizarlas.
Nombres y etiquetas de las métricas
Las métricas recopiladas por AI AutoMetrics se transfieren a Cloud Monitoring según la convención de nomenclatura vertex_*.
Para facilitar el filtrado y la agrupación, AI AutoMetrics adjunta automáticamente las siguientes etiquetas adicionales de Vertex AI a cada métrica:
deployed_model_id: Es el ID de un modelo implementado que procesa solicitudes de inferencia.model_display_name: Es el nombre visible de un modelo implementado.replica_id: Es el ID único que corresponde a la réplica del modelo implementado (nombre del pod).endpoint_id: Es el ID de un extremo del modelo.endpoint_display_name: Es el nombre visible de un extremo del modelo.product: Es el nombre de la función en Vertex AI. Siempre es Online Inference.
¿Qué sigue?
- Obtén más información sobre el Explorador de métricas.