Veja as métricas automáticas de IA do Vertex AI Inference

Este documento descreve como usar as métricas automáticas de IA para monitorizar as suas cargas de trabalho de IA no Vertex AI.

As métricas automáticas de IA permitem-lhe monitorizar o desempenho e o estado dos seus modelos com uma configuração mínima. Esta funcionalidade foi concebida para lhe dar estatísticas imediatas sobre os seus contentores e modelos personalizados em execução na inferência do Vertex AI.

Antes de começar

  1. Certifique-se de que tem um ponto final da Vertex AI com um modelo implementado que usa um contentor com frameworks suportados.
  2. Certifique-se de que o seu projeto tem o Cloud Monitoring ativado. Para mais informações, consulte o artigo Ative a API Monitoring.

Use as métricas automáticas de IA

Para ver as métricas automáticas de IA no explorador de métricas, faça o seguinte:

  1. Aceda à página Explorador de métricas na Google Cloud consola.

    Aceda ao Metrics Explorer

  2. Em Selecionar uma métrica, selecione Alvo do Prometheus.

  3. Em Categorias de métricas ativas, selecione Vertex.

  4. Em Métricas ativas, selecione a métrica pretendida.

  5. Clique em Aplicar.

Também pode consultar métricas através do Grafana, ou da API ou IU do Prometheus.

Frameworks suportados

A funcionalidade AutoMetrics de IA suporta as seguintes estruturas:

Framework Ponto final qualificado Métricas qualificadas
vLLM Ponto final /metrics compatível com o Prometheus Métricas com o prefixo vllm:

Como funciona

O Vertex AI extrai automaticamente o ponto final /metrics do seu contentor a um intervalo predefinido. Todas as métricas qualificadas são, em seguida, exportadas para o Google Cloud Google Cloud Managed Service for Prometheus, onde as pode analisar e visualizar.

Nomenclatura e etiquetas das métricas

As métricas recolhidas pelas métricas automáticas de IA são carregadas no Cloud Monitoring de acordo com a convenção de nomenclatura vertex_*.

Para facilitar a filtragem e o agrupamento, as métricas automáticas de IA associam automaticamente as seguintes etiquetas adicionais da Vertex AI a cada métrica:

  • deployed_model_id: o ID de um modelo implementado que publica pedidos de inferência.
  • model_display_name: o nome a apresentar de um modelo implementado.
  • replica_id: o ID exclusivo correspondente à réplica do modelo implementado (nome do pod).
  • endpoint_id: o ID de um ponto final do modelo.
  • endpoint_display_name: o nome a apresentar de um ponto final do modelo.
  • product: o nome da funcionalidade no Vertex AI. Esta é sempre a inferência online.

O que se segue?