Conferir o AutoMetrics de inferência da Vertex AI

Neste documento, descrevemos como usar o AI AutoMetrics para monitorar suas cargas de trabalho de IA na Vertex AI.

Com a AI AutoMetrics, é possível monitorar o desempenho e a integridade dos seus modelos com o mínimo de configuração. Esse recurso foi criado para oferecer insights imediatos sobre seus contêineres e modelos personalizados em execução na Inferência da Vertex AI.

Antes de começar

  1. Verifique se você tem um endpoint da Vertex AI com um modelo implantado que usa um contêiner com frameworks compatíveis.
  2. Verifique se o Cloud Monitoring está ativado no projeto. Para mais informações, consulte Ativar a API Monitoring.

Usar o AutoMetrics de IA

Para conferir as métricas automáticas de IA no Metrics Explorer, faça o seguinte:

  1. Acesse a página do Metrics Explorer no console do Google Cloud .

    Acessar o Metrics Explorer

  2. Em Selecionar uma métrica, escolha Destino do Prometheus.

  3. Em Categorias de métricas ativas, selecione Vertex.

  4. Em Métricas ativas, selecione a métrica desejada.

  5. Clique em Aplicar.

Também é possível consultar métricas usando o Grafana ou a API ou interface do Prometheus.

Frameworks compatíveis

O AI AutoMetrics é compatível com os seguintes frameworks:

Framework Endpoint qualificado Métricas qualificadas
vLLM Endpoint /metrics compatível com o Prometheus Métricas com prefixo vllm:

Como funciona

A Vertex AI extrai automaticamente o endpoint /metrics do seu contêiner em um intervalo predefinido. Todas as métricas qualificadas são exportadas para o Google Cloud Google Cloud Managed Service para Prometheus, onde é possível analisá-las e visualizá-las.

Nomes e rótulos de métricas

As métricas coletadas pelo AI AutoMetrics são ingeridas no Cloud Monitoring de acordo com a convenção de nomenclatura vertex_*.

Para facilitar a filtragem e o agrupamento, a AI AutoMetrics anexa automaticamente os seguintes rótulos adicionais da Vertex AI a cada métrica:

  • deployed_model_id: o ID de um modelo implantado que atende a solicitações de inferência.
  • model_display_name: o nome de exibição de um modelo implantado.
  • replica_id: o ID exclusivo correspondente à réplica do modelo implantado (nome do pod).
  • endpoint_id: o ID de um endpoint de modelo.
  • endpoint_display_name: o nome de exibição de um endpoint de modelo.
  • product: o nome do recurso na Vertex AI. É sempre Inferência on-line.

A seguir