Conferir o AutoMetrics de inferência da Vertex AI

Neste documento, descrevemos como usar o AI AutoMetrics para monitorar suas cargas de trabalho de IA na Vertex AI.

Com a AI AutoMetrics, é possível monitorar o desempenho e a integridade dos seus modelos com o mínimo de configuração. Esse recurso foi criado para oferecer insights imediatos sobre seus contêineres e modelos personalizados em execução na Inferência da Vertex AI.

Antes de começar

Verifique se você tem um endpoint da Vertex AI com um modelo implantado que usa um contêiner com frameworks compatíveis.
Verifique se o Cloud Monitoring está ativado no projeto. Para mais informações, consulte Ativar a API Monitoring.

Usar o AutoMetrics de IA

Para conferir as métricas automáticas de IA no Metrics Explorer, faça o seguinte:

Acesse a página do Metrics Explorer no console do Google Cloud .

Acessar o Metrics Explorer
Em Selecionar uma métrica, escolha Destino do Prometheus.
Em Categorias de métricas ativas, selecione Vertex.
Em Métricas ativas, selecione a métrica desejada.
Clique em Aplicar.

Também é possível consultar métricas usando o Grafana ou a API ou interface do Prometheus.

Frameworks compatíveis

O AI AutoMetrics é compatível com os seguintes frameworks:

Framework	Endpoint qualificado	Métricas qualificadas
vLLM	Endpoint `/metrics` compatível com o Prometheus	Métricas com prefixo `vllm:`

Como funciona

A Vertex AI extrai automaticamente o endpoint /metrics do seu contêiner em um intervalo predefinido. Todas as métricas qualificadas são exportadas para o Google Cloud Google Cloud Managed Service para Prometheus, onde é possível analisá-las e visualizá-las.

Nomes e rótulos de métricas

As métricas coletadas pelo AI AutoMetrics são ingeridas no Cloud Monitoring de acordo com a convenção de nomenclatura vertex_*.

Para facilitar a filtragem e o agrupamento, a AI AutoMetrics anexa automaticamente os seguintes rótulos adicionais da Vertex AI a cada métrica:

deployed_model_id: o ID de um modelo implantado que atende a solicitações de inferência.
model_display_name: o nome de exibição de um modelo implantado.
replica_id: o ID exclusivo correspondente à réplica do modelo implantado (nome do pod).
endpoint_id: o ID de um endpoint de modelo.
endpoint_display_name: o nome de exibição de um endpoint de modelo.
product: o nome do recurso na Vertex AI. É sempre Inferência on-line.

A seguir

Saiba mais sobre o Metrics Explorer.

Conferir o AutoMetrics de inferência da Vertex AI Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.