Auf dieser Seite wird beschrieben, wie Sie die mit Ihren Ray-Clustern verknüpften Tracking-Logs aufrufen und die Messwerte für Ray auf der Agent-Plattform überwachen. Außerdem finden Sie hier eine Anleitung zum Debuggen von Ray-Clustern.
Logs ansehen
Wenn Sie mit Ihrem Ray-Cluster in der Gemini Enterprise Agent Platform Aufgaben ausführen, werden Tracking-Logs automatisch generiert und sowohl in Cloud Logging als auch im Open-Source-Ray-Dashboard gespeichert. In diesem Abschnitt wird beschrieben, wie Sie über die Google Cloud Console auf die generierten Logs zugreifen.
Lesen Sie zuerst die Übersicht über Ray auf der Agent Platform und richten Sie alle erforderlichen Tools ein.Ray OSS-Dashboard
Sie können die Open-Source-Ray-Logdateien über das Ray OSS-Dashboard aufrufen:
Rufen Sie in der Google Cloud Console die Seite „Ray on Agent Platform“ auf.
Wählen Sie in der Zeile für den von Ihnen erstellten Cluster das Menü Weitere Aktionen aus.
Wählen Sie den Link zum Ray OSS-Dashboard aus. Das Dashboard wird in einem anderen Tab geöffnet.
Gehen Sie oben rechts im Menü zur Ansicht Logs:

Klicken Sie auf die einzelnen Knoten, um die zugehörigen Logdateien aufzurufen.
Cloud Logging Console
-
Rufen Sie in der Google Cloud Console das und die Seite Log-Explorer auf:
Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Logging ist.
Wählen Sie ein vorhandenes Projekt, einen Ordner oder eine Organisation in Google Cloud aus.
Um alle Ray-Logs anzuzeigen, geben Sie die folgende Abfrage in das Feld des Abfrageeditors ein und klicken Sie dann auf Abfrage ausführen:
resource.labels.task_name="ray-cluster-logs"
Wenn Sie die Logs auf einen bestimmten Ray-Cluster beschränken möchten, fügen Sie der Abfrage die folgende Zeile hinzu und klicken Sie dann auf Abfrage ausführen:
labels."ml.googleapis.com/ray_cluster_id"=CLUSTER_NAME
Ersetzen Sie CLUSTER_NAME durch den Namen Ihres Ray-Clusters. Rufen Sie in der Google Cloud Console Gemini Enterprise Agent Platform > Ray on Agent Platform auf. Dort sehen Sie eine Liste der Clusternamen in jeder Region.
Wenn Sie die Logs weiter auf eine bestimmte Logdatei wie
raylet.outbeschränken möchten, klicken Sie auf Logfelder -> Logname.Sie können ähnliche Logeinträge gruppieren:
Klicken Sie in den Abfrageergebnissen auf einen Logeintrag, um das Log zu maximieren.
Klicken Sie in
jsonPayloadauf den Werttailed_path. Ein Drop-down-Menü wird angezeigt.Klicken Sie auf Übereinstimmende Einträge anzeigen.
Logs deaktivieren
Cloud Logging für Ray in Vertex AI ist standardmäßig aktiviert.
Wenn Sie den Export von Ray-Protokollen in Cloud Logging deaktivieren möchten, verwenden Sie den folgenden Befehl von Agent Platform SDK for Python:
vertex_ray.create_ray_cluster(..., enable_logging=False, ...)
Sie können die Ray-Protokolldateien im Ray-Dashboard aufrufen, auch wenn die Cloud Logging-Funktion für Ray in der Agent-Plattform deaktiviert ist.
Messwerte überwachen
Mit Google Cloud Monitoring (GCM) können Sie sich die Ray-Messwerte auf der Agent-Plattform auf unterschiedliche Weise ansehen. Alternativ können Sie die Messwerte aus GCM auf Ihren eigenen Grafana-Server exportieren.
Messwerte in GCM überwachen
Es gibt zwei Möglichkeiten, sich die Ray on Agent Platform-Messwerte in GCM anzusehen.
- Verwenden Sie die direkte Ansicht im Metrics Explorer.
Importieren Sie das Grafana-Dashboard.
Metrics Explorer
So verwenden Sie die Direktansicht im Metrics Explorer:
- Gehen Sie zur Google Cloud Monitoring-Konsole.
- Wählen Sie Erkunden > Metrics Explorer aus.
- Wählen Sie unter Aktive Ressourcen die Option Prometheus-Ziel aus. Aktive Messwertkategorien wird angezeigt.
Wählen Sie Ray aus.
Es wird eine Liste mit Messwerten angezeigt:

- Wählen Sie die Messwerte aus, die Sie im Blick behalten möchten. Beispiel:
- Wählen Sie den Prozentsatz der CPU-Auslastung als überwachten Messwert aus:

- Filter auswählen. Wählen Sie beispielsweise Cluster aus:
Verwenden Sie die Cluster-ID, um nur die obigen Messwerte für einen bestimmten Cluster zu überwachen. So finden Sie Ihre Cluster-ID:
Rufen Sie in der Google Cloud Console die Seite Ray auf.
- Sie müssen sich in dem Projekt befinden, in dem Sie den Test erstellen möchten.

- Unter Name wird eine Liste mit Cluster-IDs angezeigt.
- Wählen Sie die Aggregationsmethode aus, um die Messwerte anzusehen. Sie können nicht aggregierte Messwerte auswählen, die die CPU-Auslastung jedes Ray-Prozesses zeigen:
- Wählen Sie den Prozentsatz der CPU-Auslastung als überwachten Messwert aus:
GCM-Dashboard
Wenn Sie ein Grafana-Dashboard für Ray on Vertex AI importieren möchten, folgen Sie der Anleitung im Cloud Monitoring-Dashboard unter Eigenes Grafana-Dashboard importieren.
Sie benötigen lediglich eine JSON-Datei für das Grafana-Dashboard. OSS Ray unterstützt diese manuelle Einrichtung durch Bereitstellung der standardmäßigen Dashboard-JSON-Datei für Grafana.
Messwerte überwachen
von nutzereigenen Grafana
Wenn Sie bereits einen Grafana-Server ausführen, können Sie alle Prometheus-Messwerte für Ray-Cluster in Vertex AI auch auf Ihren vorhandenen Grafana-Server exportieren. Folgen Sie dazu der Anleitung unter Abfrage mit Grafana. So können Sie Ihrem vorhandenen Grafana-Server eine neue Grafana-Datenquelle hinzufügen und den Datenquellen-Synchronizer verwenden, um die neue Grafana-Prometheus-Datenquelle mit Ray on Vertex AI-Messwerten zu synchronisieren.
Es ist wichtig, dass Sie die neu hinzugefügte Grafana-Datenquelle mit dem Datenquellensynchronisierungsdienst konfigurieren und authentifizieren. Folgen Sie dazu der Anleitung unter Grafana-Datenquelle konfigurieren und authentifizieren.
Nach der Synchronisierung können Sie beliebige Dashboards basierend auf den Ray in Vertex AI-Messwerten erstellen und hinzufügen.
Die Erfassung von Messwerten für Ray on Vertex AI ist standardmäßig aktiviert. So deaktivieren Sie sie mit dem Agent Platform SDK für Python:
vertex_ray.create_ray_cluster(..., enable_metrics_collection=False, ...)
Ray-Cluster debuggen
Verwenden Sie die interaktive Shell des Hauptknotens, um Ray-Cluster zu debuggen:
Google Cloud Console
So greifen Sie auf die interaktive Shell des Hauptknotens zu:
- Rufen Sie in der Google Cloud Console die Seite Ray in Vertex AI auf.
Zu Ray in Vertex AI - Achten Sie darauf, dass Sie sich im richtigen Projekt befinden.
- Wählen Sie den Cluster aus, den Sie untersuchen möchten. Der Abschnitt Allgemeine Informationen wird angezeigt.
- Klicken Sie im Bereich Zugriffslinks auf den Link für die interaktive Shell des Hauptknotens. Die interaktive Shell des Hauptknotens wird angezeigt.
- Folgen Sie der Anleitung unter Training mit interaktiver Shell überwachen und Fehler beheben.