Cloud Monitoring raccoglie e archivia automaticamente le informazioni sulla tua istanza Managed Lustre.
Questo documento fornisce una panoramica dettagliata delle metriche disponibili per monitorare le istanze Managed Lustre su Google Cloud. Queste metriche ti aiutano a comprendere le prestazioni, la capacità e l'integrità dei tuoi file system Managed Lustre, in modo da poter identificare i colli di bottiglia, risolvere i problemi e ottimizzare l'utilizzo delle risorse.
Puoi utilizzare queste metriche in Cloud Monitoring per creare dashboard personalizzate, configurare avvisi e ottenere informazioni più approfondite sul comportamento della tua istanza Managed Lustre.
Cloud Monitoring viene abilitato automaticamente per Managed Lustre. Non è previsto alcun costo per la raccolta dei dati o per la visualizzazione delle metriche nella consoleGoogle Cloud . Le chiamate API potrebbero comportare addebiti. Per i dettagli sui prezzi, consulta Prezzi di Cloud Monitoring.
Ruoli IAM richiesti
Sono necessari i seguenti ruoli:
- Visualizzatore Monitoring (
roles/monitoring.viewer) o autorizzazioni equivalenti, per visualizzare le metriche in Cloud Monitoring. - Monitoring Editor (
roles/monitoring.editor) o autorizzazioni equivalenti, per configurare gli avvisi.
Scopri come concedere un ruolo IAM.
Visualizza metriche
Le metriche di Cloud Monitoring sono disponibili in due posizioni nella consoleGoogle Cloud :
La pagina dei dettagli dell'istanza Managed Lustre mostra le metriche disponibili. Oltre alle metriche elencate di seguito, calcola la larghezza di banda dei byte copiati e la velocità di copia degli oggetti.
La pagina Cloud Monitoring offre diverse opzioni di grafici e personalizzazioni.
Visualizzare le metriche nella pagina dei dettagli dell'istanza
Per visualizzare le metriche di un'istanza specifica:
Vai alla pagina Istanze nella console Google Cloud .
Fai clic sull'istanza per cui visualizzare le metriche. Viene visualizzata la pagina Dettagli istanza.
Fai clic sulla scheda Monitoraggio. Viene visualizzata la dashboard predefinita.
Visualizza le metriche in Cloud Monitoring
Per visualizzare le metriche di Managed Lustre in Cloud Monitoring, procedi come segue:
Vai alla pagina Esplora metriche nella console Google Cloud .
Segui le istruzioni riportate in Crea grafici con Esplora metriche per selezionare e visualizzare le metriche.
Configurazione degli avvisi
Puoi configurare criteri di avviso in Cloud Monitoring per ricevere una notifica quando il file system Managed Lustre soddisfa condizioni specifiche, ad esempio il superamento dei limiti di capacità di archiviazione o di velocità effettiva.
Prerequisiti
Per creare criteri di avviso, devi disporre del ruolo IAM Editor Monitoring (roles/monitoring.editor) sul progetto.
Crea un criterio di avviso
Per configurare un avviso, definisci una condizione utilizzando una metrica o una query PromQL e configura i canali di notifica.
Nella console Google Cloud , vai alla pagina Avvisi nella console Google Cloud .
Fai clic su + Crea policy.
Seleziona Builder e la metrica oppure scegli Editor di codice per inserire una query con PromQL. Nel selettore delle metriche, le metriche Managed Lustre rientrano nelle risorse Istanza Lustre e Posizione Lustre.
Configura la logica di attivazione e definisci i canali di notifica e le impostazioni di notifica.
Fai clic su Crea policy.
Per saperne di più sulla creazione di trigger e su altre opzioni, consulta:
- Creare policy di avviso basate su soglie metriche
- Crea criteri di avviso per l'assenza di metriche
- Crea policy di avviso basate sui valori delle metriche previste
Esempio: creare un avviso sulla capacità di archiviazione
L'esempio seguente mostra come creare un avviso che viene attivato quando l'istanza Managed Lustre supera l'80% della capacità di cui è stato eseguito il provisioning.
Nella console Google Cloud , vai alla pagina Avvisi nella console Google Cloud .
Fai clic su + Crea policy.
Seleziona Editor di codice.
Nell'Editor di query, incolla la seguente query PromQL:
( sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) - sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes) ) / sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) > 0.8Questa query calcola il rapporto di utilizzo in tutte le istanze:
(Total - Available) / Total. Il valore0.8rappresenta il totale dei byte che raggiungono l'80% di utilizzo. Per ricevere un avviso al 90%, modifica questo valore impostandolo su0.9.Fai clic su Esegui query per verificare la sintassi e visualizzare un grafico del rapporto di utilizzo attuale.
Fai clic su Avanti e configura il trigger su Qualsiasi serie temporale viola.
Fai clic su Avanti. Nella sezione Documentazione, aggiungi le azioni consigliate per risolvere il problema di capacità. Ad esempio:
## Action Required: Lustre Capacity Warning The Managed Lustre instance is exceeding 80% capacity usage. **Metric:** Usage Ratio > 0.8 **Severity:** Warning **Recommended Actions:** 1. Check the instance details in the Google Cloud console. 2. Verify if this is expected data growth or a runaway process. 3. If valid, consider expanding the storage capacity of the instance or deleting old data to free up space. 4. Failure to address this may result in "No Space Left on Device" errors for client applications.
Crea un criterio di avviso con gcloud
Puoi creare criteri di avviso utilizzando Google Cloud CLI. Tieni presente che devi modificare l'avviso nella console Google Cloud in un secondo momento per attivare canali di notifica specifici.
L'esempio seguente crea un avviso di capacità all'80% utilizzando gcloud:
gcloud monitoring policies create \
--policy-from-file=/dev/stdin <<EOF
{
"displayName": "Lustre High Capacity Usage (>80%)",
"severity": "WARNING",
"combiner": "OR",
"conditions": [
{
"displayName": "Capacity Usage Ratio > 0.8",
"conditionPrometheusQueryLanguage": {
"query": "(sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) - sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes)) / sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) > 0.8",
"duration": "300s",
"evaluationInterval": "60s",
"alertRule": "AlwaysOn"
}
}
],
"documentation": {
"content": "Action Required: The Managed Lustre instance is exceeding 80% capacity usage. Please verify if storage expansion is required.",
"mimeType": "text/markdown"
}
}
EOF
Dettagli sulle metriche
Per le istanze Managed Lustre sono disponibili le seguenti metriche.
Ogni metrica è identificata dal tipo
(ad es. lustre.googleapis.com/instance/available_bytes), ha un nome visualizzato,
una descrizione ed etichette specifiche che forniscono un contesto aggiuntivo.
I dati vengono campionati ogni 60 secondi. Dopo il campionamento, i dati potrebbero non essere visibili per un massimo di 180 secondi.
Metriche della capacità di archiviazione
Metriche relative allo spazio di archiviazione disponibile e di cui è stato eseguito il provisioning nel file system Lustre.
Per le etichette delle metriche, il valore di target utilizza il formato
<fsname>-<TYPE><HEXA>, dove <HEXA> è l'indice in base zero della destinazione
in esadecimale. Ad esempio, se il nome del file system è filesys, il
43° OST è filesys-OST002a e il 4° MDT è filesys-MDT0003.
| Metrica | Descrizione | Dettagli |
|---|---|---|
available_bytes |
Il numero di byte di spazio di archiviazione per una determinata destinazione di archiviazione oggetti (OST) o destinazione metadati (MDT) disponibile per gli utenti non root. | Nome visualizzato: byte disponibili Tipo di metrica: GAUGE Tipo di valore: INT64 Unità: byte Etichette: component: il tipo di target: ost,
mdt o mgt.target: il nome della destinazione. |
capacity_bytes |
Il numero di byte di cui è stato eseguito il provisioning per la destinazione specificata. Lo spazio totale utilizzabile per dati o metadati del cluster per un'istanza può essere ottenuto sommando la capacità di tutte le destinazioni per un determinato tipo di destinazione. | Nome visualizzato: byte di capacità Tipo di metrica: GAUGE Tipo di valore: INT64 Unità: byte Etichette: component: il tipo di target: ost,
mdt o mgt.target: il nome della destinazione. |
free_bytes |
Il numero di byte di spazio di archiviazione per un determinato OST o MDT che è disponibile per gli utenti root. | Nome visualizzato: byte disponibili Tipo di metrica: GAUGE Tipo di valore: INT64 Unità: byte Etichette: component: il tipo di target: ost,
mdt o mgt.target: il nome della destinazione. |
Metriche inode (oggetto)
Metriche relative al numero di inode (oggetti) disponibili e alla capacità massima.
| Metrica | Descrizione | Dettagli |
|---|---|---|
inodes_free |
Il numero di inode (oggetti) disponibili nella destinazione specificata. | Nome visualizzato: Free inodes Tipo di metrica: GAUGE Tipo di valore: INT64 Unità: inode Etichette: component: il tipo di target.target: il nome della destinazione. |
inodes_maximum |
Il numero massimo di inode (oggetti) che la destinazione può contenere. | Nome visualizzato: numero massimo di inode Tipo di metrica: GAUGE Tipo di valore: INT64 Unità: inode Etichette: component: il tipo di target.target: il nome della destinazione. |
Metriche sul rendimento I/O
Metriche che forniscono informazioni su velocità di trasferimento dei dati e latenza delle operazioni.
Latenza operazione
| Metrica | Descrizione | Dettagli |
|---|---|---|
io_time_milliseconds_total |
Il numero di operazioni di lettura o scrittura la cui latenza rientra negli intervalli di latenza raggruppati. | Nome visualizzato: latenza operazione Tipo di metrica: CUMULATIVE Tipo di valore: INT64 Unità: operazioni Etichette: component: il tipo di target.operation: il tipo di operazione.size: l'intervallo di latenza raggruppato. Ad esempio, 512
include il conteggio delle operazioni che hanno richiesto tra 512 e 1024
millisecondi.target: il nome della destinazione.
|
read_bytes_total |
Il numero di byte di dati letti dall'OST specificato. | Nome visualizzato: byte letti Tipo di metrica: CUMULATIVE Tipo di valore: INT64 Unità: byte Etichette: component: il tipo di destinazione: sempre ost.operation: il tipo di operazione: read.target: il nome della destinazione. |
read_samples_total |
Il numero di operazioni di lettura eseguite sull'OST specificato. | Nome visualizzato: operazioni di lettura dei dati Tipo di metrica: CUMULATIVE Tipo di valore: INT64 Unità: operazioni Etichette: component: il tipo di target, sempre ost.operation: il tipo di operazione: read.target: il nome della destinazione. |
write_bytes_total |
Il numero di byte di dati scritti nell'OST specificato. | Nome visualizzato: byte di scrittura dei dati Tipo di metrica: CUMULATIVE Tipo di valore: INT64 Unità: byte Etichette: component: il tipo di target, sempre ost.operation: il tipo di operazione: write.target: il nome della destinazione. |
write_samples_total |
Il numero di operazioni di scrittura eseguite sull'OST specificato. | Nome visualizzato: operazioni di scrittura dei dati Tipo di metrica: CUMULATIVE Tipo di valore: INT64 Unità: operazioni Etichette: component: il tipo di target, sempre ost.operation: il tipo di operazione: write.target: il nome della destinazione. |
Metriche di connessione client
Metriche specifiche per comprendere la connettività client.
Client connessi
| Metrica | Descrizione | Dettagli |
|---|---|---|
connected_clients |
Il numero di client attualmente connessi al MDT specificato. | Nome visualizzato: client connessi Tipo di metrica: GAUGE Tipo di valore: INT64 Unità: client Etichette: component: il tipo di target. Questo valore è sempre
mdt.target: il nome del MDT. |