In diesem Dokument wird beschrieben, wie Sie Ihr Google Kubernetes Engine-Deployment so konfigurieren, dass Sie Google Cloud Managed Service for Prometheus verwenden können, um Messwerte von NVIDIA Triton zu erfassen. Dieses Dokument enthält Anleitungen für folgende Aufgaben:
- Triton so einrichten, dass Messwerte gemeldet werden.
- Auf ein vordefiniertes Dashboard in Cloud Monitoring zugreifen, um die Messwerte zu prüfen.
Diese Anleitung gilt nur, wenn Sie die verwaltete Sammlung mit Managed Service for Prometheus verwenden. Wenn Sie eine selbst bereitgestellte Sammlung verwenden, finden Sie Informationen zur Installation in der Triton-Dokumentation.
Diese Anleitung dient als Beispiel und sollte in den meisten Kubernetes-Umgebungen funktionieren. Wenn Sie aufgrund von restriktiven Sicherheits- oder Organisationsrichtlinien Probleme beim Installieren einer Anwendung oder eines Exporters haben, empfehlen wir Ihnen, die Open Source-Dokumentation für Support zu nutzen.
Informationen zu NVIDIA Triton finden Sie unter Triton. Informationen zum Einrichten von Triton in Google Kubernetes Engine, finden Sie im GKE Leitfaden für Triton.
Vorbereitung
Zum Erfassen von Messwerten aus Triton mithilfe von Managed Service for Prometheus und einer verwalteten Sammlung muss Ihr Deployment die folgenden Anforderungen erfüllen:
- Ihr Cluster muss Google Kubernetes Engine Version 1.28.15-gke.2475000 oder höher ausführen.
- Sie müssen Managed Service for Prometheus mit aktivierter verwalteter Sammlung ausführen. Weitere Informationen finden Sie unter Erste Schritte mit verwalteter Sammlung.
- Richten Sie mit dem folgenden Befehl die Portweiterleitung ein:
kubectl -n NAMESPACE_NAME port-forward POD_NAME 8002:8002
- Greifen Sie über den Browser oder das Dienstprogramm
curlin einer anderen Terminalsitzung auf den Endpunktlocalhost:8002/metricszu.
PodMonitoring-Ressource definieren
Für die Zielerkennung benötigt der Managed Service for Prometheus-Operator eine PodMonitoring-Ressource, die Triton im selben Namespace entspricht.
Sie können die folgende PodMonitoring-Konfiguration verwenden:
Achten Sie darauf, dass die Werte der Felderport und matchLabels mit denen der Triton-Pods übereinstimmen, die Sie überwachen möchten.
Führen Sie den folgenden Befehl aus, um Konfigurationsänderungen aus einer lokalen Datei anzuwenden:
kubectl apply -n NAMESPACE_NAME -f FILE_NAME
Sie können Ihre Konfigurationen auch mit Terraform verwalten.
Konfiguration prüfen
Mit dem Metrics Explorer können Sie prüfen, ob Triton richtig konfiguriert ist. Es kann ein oder zwei Minuten dauern, bis Cloud Monitoring Ihre Messwerte aufgenommen hat.
So prüfen Sie, ob die Messwerte aufgenommen wurden:
-
Rufen Sie in der Google Cloud Console das leaderboard Metrics Explorer auf:
Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Monitoring ist.
- Klicken Sie in der Symbolleiste des Bereichs "Query Builder" auf den Button dessen Name code PromQL ist.
- Geben Sie die folgende Abfrage ein und führen Sie sie aus:
up{job="triton", cluster="CLUSTER_NAME", namespace="NAMESPACE_NAME"}
Dashboards ansehen
Die Cloud Monitoring-Integration beinhaltet das Dashboard Triton Prometheus – Übersicht. Dashboards werden automatisch mitkonfiguriert, wenn Sie die Integration konfigurieren. Sie können auch eine statische Vorschau von Dashboards aufrufen, ohne die Integration zu installieren.
So rufen Sie ein installiertes Dashboard auf:
-
Öffnen Sie in der Google Cloud Console die Seite Dashboards :
Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Monitoring ist.
- Wählen Sie den Tab Dashboard-Liste aus.
- Wählen Sie die Kategorie Integrationen aus.
- Klicken Sie auf den Namen des Dashboards, z. B. Triton Prometheus – Übersicht.
So rufen Sie eine statische Vorschau des Dashboards auf:
-
Rufen Sie in der Google Cloud Console die Seite
Integrationen auf:
Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Monitoring ist.
- Klicken Sie auf den Filter für die Deployment-Plattform Kubernetes Engine.
- Suchen Sie nach der NVIDIA Triton-Integration und klicken Sie auf Details ansehen.
- Wählen Sie den Tab Dashboards aus.
Fehlerbehebung
Informationen zur Fehlerbehebung bei Problemen mit der Messwertaufnahme finden Sie unter Probleme mit der Erfassung über Exporter unter Fehlerbehebung bei Problemen mit der Aufnahme.