Visualizza AI AutoMetrics di Vertex AI Inference

Questo documento descrive come utilizzare AI AutoMetrics per monitorare i tuoi carichi di lavoro AI su Vertex AI.

AI AutoMetrics ti consente di monitorare le prestazioni e l'integrità dei tuoi modelli con una configurazione minima. Questa funzionalità è progettata per fornirti informazioni immediate sui tuoi container e modelli personalizzati in esecuzione su Vertex AI Inference.

Prima di iniziare

  1. Assicurati di avere un endpoint Vertex AI con un modello di cui è stato eseguito il deployment che utilizza un container con framework supportati.
  2. Assicurati che Cloud Monitoring sia attivato per il tuo progetto. Vedi Per saperne di più, consulta Attivare l'API Monitoring.

Utilizzare AI AutoMetrics

Per visualizzare AI AutoMetrics in Metrics Explorer:

  1. Vai alla pagina Esplora metriche nella console Google Cloud .

    Vai a Esplora metriche

  2. Nella sezione Seleziona una metrica, seleziona Target Prometheus.

  3. In Categorie di metriche attive, seleziona Vertex.

  4. In Metriche attive, seleziona la metrica che preferisci.

  5. Fai clic su Applica.

Puoi anche eseguire query sulle metriche utilizzando Grafana, o l'API o la UI di Prometheus.

Framework supportati

AI AutoMetrics supporta i seguenti framework:

Framework Endpoint qualificato Metriche qualificate
vLLM Endpoint /metrics compatibile con Prometheus Metriche con prefisso vllm:

Come funziona

Vertex AI esegue automaticamente lo scraping dell'endpoint /metrics del tuo container a un intervallo predefinito. Tutte le metriche qualificate vengono poi esportate in Google Cloud Google Cloud Managed Service per Prometheus, dove puoi analizzarle e visualizzarle.

Nomi ed etichette delle metriche

Le metriche raccolte da AI AutoMetrics vengono importate in Cloud Monitoring in base alla convenzione di denominazione vertex_*.

Per semplificare il filtraggio e il raggruppamento, AI AutoMetrics associa automaticamente le seguenti etichette Vertex AI aggiuntive a ogni metrica:

  • deployed_model_id: l'ID di un modello di cui è stato eseguito il deployment che gestisce le richieste di inferenza.
  • model_display_name: il nome visualizzato di un modello di cui è stato eseguito il deployment.
  • replica_id: l'ID univoco corrispondente alla replica del modello di cui è stato eseguito il deployment (nome del pod).
  • endpoint_id: l'ID di un endpoint del modello.
  • endpoint_display_name: il nome visualizzato di un endpoint del modello.
  • product: il nome della funzionalità in Vertex AI. È sempre inferenza online.

Passaggi successivi