Este documento descreve como usar as métricas automáticas de IA para monitorizar as suas cargas de trabalho de IA no Vertex AI.
As métricas automáticas de IA permitem-lhe monitorizar o desempenho e o estado dos seus modelos com uma configuração mínima. Esta funcionalidade foi concebida para lhe dar estatísticas imediatas sobre os seus contentores e modelos personalizados em execução na inferência do Vertex AI.
Antes de começar
- Certifique-se de que tem um ponto final da Vertex AI com um modelo implementado que usa um contentor com frameworks suportados.
- Certifique-se de que o seu projeto tem o Cloud Monitoring ativado. Para mais informações, consulte o artigo Ative a API Monitoring.
Use as métricas automáticas de IA
Para ver as métricas automáticas de IA no explorador de métricas, faça o seguinte:
Aceda à página Explorador de métricas na Google Cloud consola.
Em Selecionar uma métrica, selecione Alvo do Prometheus.
Em Categorias de métricas ativas, selecione Vertex.
Em Métricas ativas, selecione a métrica pretendida.
Clique em Aplicar.
Também pode consultar métricas através do Grafana, ou da API ou IU do Prometheus.
Frameworks suportados
A funcionalidade AutoMetrics de IA suporta as seguintes estruturas:
| Framework | Ponto final qualificado | Métricas qualificadas |
|---|---|---|
| vLLM | Ponto final /metrics compatível com o Prometheus |
Métricas com o prefixo vllm: |
Como funciona
O Vertex AI extrai automaticamente o ponto final /metrics do seu contentor a um intervalo predefinido. Todas as métricas qualificadas são, em seguida, exportadas para o
Google Cloud Google Cloud Managed Service for Prometheus,
onde as pode analisar e visualizar.
Nomenclatura e etiquetas das métricas
As métricas recolhidas pelas métricas automáticas de IA são carregadas no Cloud Monitoring
de acordo com a convenção de nomenclatura vertex_*.
Para facilitar a filtragem e o agrupamento, as métricas automáticas de IA associam automaticamente as seguintes etiquetas adicionais da Vertex AI a cada métrica:
deployed_model_id: o ID de um modelo implementado que publica pedidos de inferência.model_display_name: o nome a apresentar de um modelo implementado.replica_id: o ID exclusivo correspondente à réplica do modelo implementado (nome do pod).endpoint_id: o ID de um ponto final do modelo.endpoint_display_name: o nome a apresentar de um ponto final do modelo.product: o nome da funcionalidade no Vertex AI. Esta é sempre a inferência online.
O que se segue?
- Saiba mais sobre o Explorador de métricas.