Neste documento, descrevemos como usar o AI AutoMetrics para monitorar suas cargas de trabalho de IA na Vertex AI.
Com a AI AutoMetrics, é possível monitorar o desempenho e a integridade dos seus modelos com o mínimo de configuração. Esse recurso foi criado para oferecer insights imediatos sobre seus contêineres e modelos personalizados em execução na Inferência da Vertex AI.
Antes de começar
- Verifique se você tem um endpoint da Vertex AI com um modelo implantado que usa um contêiner com frameworks compatíveis.
- Verifique se o Cloud Monitoring está ativado no projeto. Para mais informações, consulte Ativar a API Monitoring.
Usar o AutoMetrics de IA
Para conferir as métricas automáticas de IA no Metrics Explorer, faça o seguinte:
Acesse a página do Metrics Explorer no console do Google Cloud .
Em Selecionar uma métrica, escolha Destino do Prometheus.
Em Categorias de métricas ativas, selecione Vertex.
Em Métricas ativas, selecione a métrica desejada.
Clique em Aplicar.
Também é possível consultar métricas usando o Grafana ou a API ou interface do Prometheus.
Frameworks compatíveis
O AI AutoMetrics é compatível com os seguintes frameworks:
| Framework | Endpoint qualificado | Métricas qualificadas |
|---|---|---|
| vLLM | Endpoint /metrics compatível com o Prometheus |
Métricas com prefixo vllm: |
Como funciona
A Vertex AI extrai automaticamente o endpoint /metrics do seu
contêiner em um intervalo predefinido. Todas as métricas qualificadas são exportadas para o
Google Cloud Google Cloud Managed Service para Prometheus,
onde é possível analisá-las e visualizá-las.
Nomes e rótulos de métricas
As métricas coletadas pelo AI AutoMetrics são ingeridas no Cloud Monitoring
de acordo com a convenção de nomenclatura vertex_*.
Para facilitar a filtragem e o agrupamento, a AI AutoMetrics anexa automaticamente os seguintes rótulos adicionais da Vertex AI a cada métrica:
deployed_model_id: o ID de um modelo implantado que atende a solicitações de inferência.model_display_name: o nome de exibição de um modelo implantado.replica_id: o ID exclusivo correspondente à réplica do modelo implantado (nome do pod).endpoint_id: o ID de um endpoint de modelo.endpoint_display_name: o nome de exibição de um endpoint de modelo.product: o nome do recurso na Vertex AI. É sempre Inferência on-line.
A seguir
- Saiba mais sobre o Metrics Explorer.