AI AutoMetrics für Vertex AI Inference ansehen

In diesem Dokument wird beschrieben, wie Sie mit AI AutoMetrics Ihre KI-Arbeitslasten in Vertex AI überwachen.

Mit AI AutoMetrics können Sie die Leistung und den Zustand Ihrer Modelle mit minimalem Konfigurationsaufwand überwachen. Mit diesem Feature erhalten Sie sofort Einblicke in Ihre benutzerdefinierten Container und Modelle, die in Vertex AI Inference ausgeführt werden.

Hinweise

  1. Sie benötigen einen Vertex AI-Endpunkt mit einem bereitgestellten Modell, für das ein Container mit unterstützten Frameworks verwendet wird.
  2. Cloud Monitoring muss für Ihr Projekt aktiviert sein. Weitere Informationen finden Sie unter Monitoring API aktivieren.

AI AutoMetrics verwenden

So rufen Sie AI AutoMetrics im Metrics Explorer auf:

  1. Rufen Sie in der Google Cloud Console die Seite Metrics Explorer auf.

    Zum Metrics Explorer

  2. Wählen Sie unter Messwert auswählen die Option Prometheus-Ziel aus.

  3. Wählen Sie unter Aktive Messwertkategorien die Option Vertex aus.

  4. Wählen Sie unter Aktive Messwerte den gewünschten Messwert aus.

  5. Klicken Sie auf Übernehmen.

Sie können Messwerte auch mit Grafana oder der Prometheus API oder UI abfragen.

Unterstützte Frameworks

AI AutoMetrics unterstützt die folgenden Frameworks:

Framework Qualifizierter Endpunkt Qualifizierte Messwerte
vLLM Prometheus-kompatibler /metrics-Endpunkt Messwerte mit dem Präfix vllm:

Funktionsweise

Vertex AI ruft den /metrics-Endpunkt Ihres Containers automatisch in einem vordefinierten Intervall ab. Alle qualifizierten Messwerte werden dann inGoogle Cloud Google Cloud Managed Service for Prometheus exportiert, wo Sie sie analysieren und visualisieren können.

Messwertnamen und ‑labels

Die von AI AutoMetrics erfassten Messwerte werden in Cloud Monitoring unter der Namenskonvention vertex_* aufgenommen.

Um das Filtern und Gruppieren zu erleichtern, werden jedem Messwert von AI AutoMetrics automatisch die folgenden zusätzlichen Vertex AI-Labels zugewiesen:

  • deployed_model_id: Die ID eines bereitgestellten Modells, das Inferenzanfragen verarbeitet.
  • model_display_name: Der Anzeigename eines bereitgestellten Modells.
  • replica_id: Die eindeutige ID, die dem Replikat des bereitgestellten Modells entspricht (Pod-Name).
  • endpoint_id: Die ID eines Modellendpunkts.
  • endpoint_display_name: Der Anzeigename eines Modellendpunkts.
  • product: Der Name des Features in Vertex AI. Dies ist immer Online Inference.

Nächste Schritte