Questa pagina spiega come visualizzare i log di monitoraggio associati ai cluster Ray e monitorare le metriche di Ray on Agent Platform. Vengono inoltre fornite indicazioni per il debug dei cluster Ray.
Visualizza i log
Quando esegui attività con il cluster Ray su Gemini Enterprise Agent Platform, i log di monitoraggio vengono generati e archiviati automaticamente sia in Cloud Logging sia nella dashboard Ray open source. Questa sezione descrive come accedere ai log generati tramite la Google Cloud console.
Prima di iniziare, assicurati di leggere la panoramica di Ray on Agent Platform e di configurare tutti gli strumenti prerequisiti di cui hai bisogno.Dashboard Ray OSS
Puoi visualizzare i file di log Ray open source tramite la dashboard Ray OSS:
Nella Google Cloud console, vai alla pagina Ray on Agent Platform.
Nella riga del cluster che hai creato, seleziona il menu Altre azioni.
Seleziona il link della dashboard Ray OSS. La dashboard si apre in un'altra scheda.
Vai alla visualizzazione Log nell'angolo in alto a destra del menu:

Fai clic su ogni nodo per visualizzare i file di log associati.
Console Cloud Logging
-
Nella Google Cloud console, vai alla pagina Esplora log:
Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Logging.
Seleziona un progetto, una cartella o un'organizzazioneesistente Google Cloud .
Per visualizzare tutti i log Ray, inserisci la seguente query nel campo dell'editor query, quindi fai clic su Esegui query:
resource.labels.task_name="ray-cluster-logs"
Per limitare i log a un cluster Ray specifico, aggiungi la seguente riga alla query, quindi fai clic su Esegui query:
labels."ml.googleapis.com/ray_cluster_id"=CLUSTER_NAME
Sostituisci CLUSTER_NAME con il nome del cluster Ray. Nella Google Cloud console, vai a Gemini Enterprise Agent Platform > Ray on Agent Platform dove vedrai un elenco di nomi di cluster in ogni regione.
Per limitare ulteriormente i log a un file di log specifico, ad esempio
raylet.out, fai clic sul nome del log in Campi log -> Nome log.Puoi raggruppare le voci di log simili:
In Risultati query, fai clic su una voce di log per espanderla.
In
jsonPayload, fai clic sul valoretailed_path. Viene visualizzato un menu a discesa.Fai clic su Mostra voci corrispondenti.
Disattiva log
Per impostazione predefinita, Ray on Vertex AI Cloud Logging è abilitato.
Per disabilitare l'esportazione dei log Ray in Cloud Logging, utilizza il seguente comando dell'SDK Agent Platform per Python:
vertex_ray.create_ray_cluster(..., enable_logging=False, ...)
Puoi visualizzare i file di log Ray nella dashboard Ray anche se la funzionalità Ray on Agent Platform Cloud Logging è disabilitata.
Monitora le metriche
Puoi visualizzare le metriche di Ray on Agent Platform in diversi modi utilizzando Google Cloud Monitoring (GCM). In alternativa, puoi esportare le metriche da GCM al tuo server Grafana.
Monitora le metriche in GCM
Esistono due modi per visualizzare le metriche di Ray on Agent Platform in GCM.
- Utilizza la visualizzazione diretta in Esplora metriche.
Importa la dashboard Grafana.
Esplora metriche
Per utilizzare la visualizzazione diretta in Esplora metriche, segui questi passaggi:
- Vai alla console Google Cloud Monitoring.
- In Esplora , seleziona Esplora metriche.
- In Risorse attive, seleziona Destinazione Prometheus. Categorie di metriche attive viene visualizzato.
Seleziona Ray.
Viene visualizzato un elenco di metriche:

- Seleziona le metriche che vuoi monitorare. Ad esempio:
- Scegli la percentuale di utilizzo della CPU come metrica monitorata:

- Seleziona un filtro. Ad esempio, seleziona cluster:
Utilizza l'ID cluster per monitorare solo le metriche sopra riportate per un cluster specifico. Per trovare l'ID cluster,
segui questi passaggi:
Nella Google Cloud console, vai alla pagina Ray.
- Assicurati di essere nel progetto in cui vuoi creare l'esperimento.

- In Nome viene visualizzato un elenco di ID cluster.
- Seleziona il metodo di aggregazione per visualizzare le metriche. Puoi scegliere di
visualizzare le metriche non aggregate, che mostrano l'utilizzo della CPU di ogni processo Ray:
- Scegli la percentuale di utilizzo della CPU come metrica monitorata:
Dashboard GCM
Per importare una dashboard Grafana per Ray on Vertex AI, segui le indicazioni riportate nella dashboard di Cloud Monitoring, Importa la tua dashboard Grafana.
Tutto ciò di cui hai bisogno è un file JSON della dashboard Grafana. Ray OSS supporta questa configurazione manuale fornendo il file JSON Grafana della dashboard predefinita.
Monitora le metriche
da Grafana di proprietà dell'utente
Se hai già un server Grafana in esecuzione, puoi anche esportare tutte le metriche Prometheus del cluster Ray su Vertex AI nel server Grafana esistente. Per farlo, segui le indicazioni riportate in Query GMP con Grafana. In questo modo, puoi aggiungere una nuova origine dati Grafana al server Grafana esistente e utilizzare il sincronizzatore dell'origine dati per sincronizzare la nuova origine dati Grafana Prometheus con le metriche di Ray on Vertex AI.
È importante configurare e autenticare l'origine dati Grafana appena aggiunta utilizzando il sincronizzatore dell'origine dati. Segui i passaggi descritti in Configura e autentica l'origine dati Grafana.
Una volta sincronizzata, puoi creare e aggiungere qualsiasi dashboard di cui hai bisogno in base alle metriche di Ray on Vertex AI.
Per impostazione predefinita, le raccolte di metriche di Ray on Vertex AI sono abilitate. Ecco come disabilitarle utilizzando l'SDK Agent Platform per Python:
vertex_ray.create_ray_cluster(..., enable_metrics_collection=False, ...)
Esegui il debug dei cluster Ray
Per eseguire il debug dei cluster Ray, utilizza la shell interattiva del nodo head:
Google Cloud Console
Per accedere alla shell interattiva del nodo head:
- Nella Google Cloud console, vai alla pagina Ray on Vertex AI.
Vai a Ray on Vertex AI - Assicurati di essere nel progetto corretto.
- Seleziona il cluster da esaminare. Viene visualizzata la sezione Informazioni di base.
- Nella sezione Link di accesso, fai clic sul link per la shell interattiva del nodo head. Viene visualizzata la shell interattiva del nodo head.
- Segui le istruzioni riportate in Monitoraggio e debug dell'addestramento con una shell interattiva.