Questo documento descrive come utilizzare AI AutoMetrics per monitorare i tuoi carichi di lavoro AI su Vertex AI.
AI AutoMetrics ti consente di monitorare le prestazioni e l'integrità dei tuoi modelli con una configurazione minima. Questa funzionalità è progettata per fornirti informazioni immediate sui tuoi container e modelli personalizzati in esecuzione su Vertex AI Inference.
Prima di iniziare
- Assicurati di avere un endpoint Vertex AI con un modello di cui è stato eseguito il deployment che utilizza un container con framework supportati.
- Assicurati che Cloud Monitoring sia attivato per il tuo progetto. Vedi Per saperne di più, consulta Attivare l'API Monitoring.
Utilizzare AI AutoMetrics
Per visualizzare AI AutoMetrics in Metrics Explorer:
Vai alla pagina Esplora metriche nella console Google Cloud .
Nella sezione Seleziona una metrica, seleziona Target Prometheus.
In Categorie di metriche attive, seleziona Vertex.
In Metriche attive, seleziona la metrica che preferisci.
Fai clic su Applica.
Puoi anche eseguire query sulle metriche utilizzando Grafana, o l'API o la UI di Prometheus.
Framework supportati
AI AutoMetrics supporta i seguenti framework:
| Framework | Endpoint qualificato | Metriche qualificate |
|---|---|---|
| vLLM | Endpoint /metrics compatibile con Prometheus |
Metriche con prefisso vllm: |
Come funziona
Vertex AI esegue automaticamente lo scraping dell'endpoint /metrics del tuo
container a un intervallo predefinito. Tutte le metriche qualificate vengono poi esportate in
Google Cloud Google Cloud Managed Service per Prometheus,
dove puoi analizzarle e visualizzarle.
Nomi ed etichette delle metriche
Le metriche raccolte da AI AutoMetrics vengono importate in Cloud Monitoring
in base alla convenzione di denominazione vertex_*.
Per semplificare il filtraggio e il raggruppamento, AI AutoMetrics associa automaticamente le seguenti etichette Vertex AI aggiuntive a ogni metrica:
deployed_model_id: l'ID di un modello di cui è stato eseguito il deployment che gestisce le richieste di inferenza.model_display_name: il nome visualizzato di un modello di cui è stato eseguito il deployment.replica_id: l'ID univoco corrispondente alla replica del modello di cui è stato eseguito il deployment (nome del pod).endpoint_id: l'ID di un endpoint del modello.endpoint_display_name: il nome visualizzato di un endpoint del modello.product: il nome della funzionalità in Vertex AI. È sempre inferenza online.
Passaggi successivi
- Scopri di più su Esplora metriche.