Cloud Monitoring erfasst und speichert automatisch Informationen zu Ihrer Managed Lustre-Instanz.
Dieses Dokument bietet einen detaillierten Überblick über die Messwerte, die für die Überwachung Ihrer Managed Lustre-Instanzen auf Google Cloudverfügbar sind. Anhand dieser Messwerte können Sie die Leistung, Kapazität und den Zustand Ihrer verwalteten Lustre-Dateisysteme nachvollziehen, um Engpässe zu erkennen, Probleme zu beheben und die Ressourcennutzung zu optimieren.
Sie können diese Messwerte in Cloud Monitoring verwenden, um benutzerdefinierte Dashboards zu erstellen, Benachrichtigungen einzurichten und detailliertere Informationen zum Verhalten Ihrer Managed Lustre-Instanz zu erhalten.
Cloud Monitoring ist für Managed Lustre automatisch aktiviert. Für die Erfassung von Daten oder die Anzeige von Messwerten in derGoogle Cloud -Konsole fallen keine Kosten an. Für API-Aufrufe können Gebühren anfallen. Weitere Informationen finden Sie unter Cloud Monitoring-Preise.
Erforderliche IAM-Rollen
Die folgenden Rollen sind erforderlich:
- Monitoring-Betrachter (
roles/monitoring.viewer) oder entsprechende Berechtigungen zum Aufrufen von Messwerten in Cloud Monitoring. - Monitoring-Bearbeiter (
roles/monitoring.editor) oder entsprechende Berechtigungen zum Konfigurieren von Benachrichtigungen.
Messwerte aufrufen
Cloud Monitoring-Messwerte sind an zwei Stellen in derGoogle Cloud Console verfügbar:
Auf der Seite mit den Details zur verwalteten Lustre-Instanz werden verfügbare Messwerte angezeigt. Zusätzlich zu den unten aufgeführten Messwerten werden die Bandbreite der kopierten Byte und die Rate der kopierten Objekte berechnet.
Die Cloud Monitoring-Seite bietet mehrere Diagrammoptionen und Anpassungen.
Messwerte auf der Seite „Instanzdetails“ ansehen
So rufen Sie die Messwerte einer bestimmten Instanz auf:
Rufen Sie in der Google Cloud Console die Seite Instanzen auf.
Klicken Sie auf die Instanz, für die Sie Messwerte aufrufen möchten. Die Seite Instanzdetails wird angezeigt.
Klicken Sie auf den Tab Monitoring. Das Standard-Dashboard wird angezeigt.
Messwerte in Cloud Monitoring ansehen
So rufen Sie Managed Lustre-Messwerte in Cloud Monitoring auf:
Rufen Sie in der Google Cloud Console die Seite Metrics Explorer auf.
Folgen Sie der Anleitung unter Diagramme mit Metrics Explorer erstellen, um Ihre Messwerte auszuwählen und anzuzeigen.
Warnungen einrichten
Sie können Benachrichtigungsrichtlinien in Cloud Monitoring konfigurieren, um benachrichtigt zu werden, wenn Ihr verwaltetes Lustre-Dateisystem bestimmte Bedingungen erfüllt, z. B. wenn die Speicherkapazität oder die Durchsatzlimits überschritten werden.
Vorbereitung
Zum Erstellen von Benachrichtigungsrichtlinien benötigen Sie die IAM-Rolle Monitoring Editor (roles/monitoring.editor) für das Projekt.
Benachrichtigungsrichtlinie erstellen
Um eine Benachrichtigung einzurichten, definieren Sie eine Bedingung mit einem Messwert oder einer PromQL-Abfrage und konfigurieren Sie Benachrichtigungskanäle.
Rufen Sie in der Google Cloud Console die Seite Benachrichtigungen in der Google Cloud Console auf.
Klicken Sie auf + Richtlinie erstellen.
Wählen Sie Builder und dann den gewünschten Messwert aus oder wählen Sie Code-Editor aus, um eine Abfrage mit PromQL einzugeben. In der Messwertauswahl fallen Managed Lustre-Messwerte unter die Ressourcen Lustre-Instanz und Lustre-Standort.
Konfigurieren Sie die Triggerlogik und definieren Sie Ihre Benachrichtigungskanäle und Benachrichtigungseinstellungen.
Klicken Sie auf Richtlinie erstellen.
Weitere Informationen zum Erstellen von Triggern und anderen Optionen finden Sie in den folgenden Artikeln:
- Benachrichtigungsrichtlinien für Messwertschwellen erstellen
- Benachrichtigungsrichtlinien für fehlende Messwerte erstellen
- Benachrichtigungsrichtlinien für prognostizierte Messwerte erstellen
Beispiel: Benachrichtigung zur Speicherkapazität erstellen
Das folgende Beispiel zeigt, wie Sie eine Benachrichtigung erstellen, die ausgelöst wird, wenn Ihre verwaltete Lustre-Instanz 80% ihrer bereitgestellten Kapazität überschreitet.
Rufen Sie in der Google Cloud Console die Seite Benachrichtigungen in der Google Cloud Console auf.
Klicken Sie auf + Richtlinie erstellen.
Wählen Sie Code-Editor aus.
Fügen Sie die folgende PromQL-Abfrage in den Abfrageeditor ein:
( sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) - sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes) ) / sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) > 0.8Mit dieser Abfrage wird das Nutzungsverhältnis für alle Instanzen berechnet:
(Total - Available) / Total. Der Wert0.8steht für die Gesamtzahl der Byte, die 80% der Nutzung erreichen. Wenn Sie bei 90 % eine Benachrichtigung erhalten möchten, ändern Sie diesen Wert in0.9.Klicken Sie auf Abfrage ausführen, um die Syntax zu prüfen und ein Diagramm des aktuellen Nutzungsverhältnisses aufzurufen.
Klicken Sie auf Weiter und konfigurieren Sie den Trigger auf Verstoß beliebiger Zeitachse.
Klicken Sie auf Weiter. Fügen Sie im Abschnitt Dokumentation empfohlene Maßnahmen zur Behebung des Kapazitätsproblems hinzu. Beispiel:
## Action Required: Lustre Capacity Warning The Managed Lustre instance is exceeding 80% capacity usage. **Metric:** Usage Ratio > 0.8 **Severity:** Warning **Recommended Actions:** 1. Check the instance details in the Google Cloud console. 2. Verify if this is expected data growth or a runaway process. 3. If valid, consider expanding the storage capacity of the instance or deleting old data to free up space. 4. Failure to address this may result in "No Space Left on Device" errors for client applications.
Benachrichtigungsrichtlinie mit gcloud erstellen
Sie können Benachrichtigungsrichtlinien mit der Google Cloud CLI erstellen. Sie müssen die Benachrichtigung später in der Google Cloud -Konsole bearbeiten, um bestimmte Benachrichtigungskanäle zu aktivieren.
Im folgenden Beispiel wird mit gcloud eine Benachrichtigung für 80% der Kapazität erstellt:
gcloud monitoring policies create \
--policy-from-file=/dev/stdin <<EOF
{
"displayName": "Lustre High Capacity Usage (>80%)",
"severity": "WARNING",
"combiner": "OR",
"conditions": [
{
"displayName": "Capacity Usage Ratio > 0.8",
"conditionPrometheusQueryLanguage": {
"query": "(sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) - sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes)) / sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) > 0.8",
"duration": "300s",
"evaluationInterval": "60s",
"alertRule": "AlwaysOn"
}
}
],
"documentation": {
"content": "Action Required: The Managed Lustre instance is exceeding 80% capacity usage. Please verify if storage expansion is required.",
"mimeType": "text/markdown"
}
}
EOF
Messwertdetails
Die folgenden Messwerte sind für Managed Lustre-Instanzen verfügbar.
Jeder Messwert wird durch seinen Typ identifiziert (z.B. lustre.googleapis.com/instance/available_bytes) hat einen Anzeigenamen, eine Beschreibung und bestimmte Labels, die zusätzlichen Kontext liefern.
Die Daten werden alle 60 Sekunden abgerufen. Nach dem Abruf werden bis zu 180 Sekunden lang keine Daten angezeigt.
Messwerte zur Speicherkapazität
Messwerte zum verfügbaren und bereitgestellten Speicherplatz in Ihrem Lustre-Dateisystem.
Bei Messwertlabels hat der Wert von target das Format <fsname>-<TYPE><HEXA>, wobei <HEXA> der nullbasierte Index des Ziels in Hexadezimal ist. Wenn Ihr Dateisystemname beispielsweise filesys ist, lautet der 43. OST filesys-OST002a und der 4. MDT filesys-MDT0003.
| Messwert | Beschreibung | Details |
|---|---|---|
available_bytes |
Die Anzahl der Byte an Speicherplatz für ein bestimmtes Object Storage Target (OST) oder Metadata Target (MDT), die für Nicht-Root-Nutzer verfügbar sind. | Anzeigename:Available bytes Messwerttyp:GAUGE Werttyp:INT64 Einheit:bytes Labels: component: Der Zieltyp: ost, mdt oder mgt.target: Der Name des Ziels. |
capacity_bytes |
Die Anzahl der für das angegebene Ziel bereitgestellten Byte. Der gesamte nutzbare Daten- oder Metadatenbereich des Clusters für eine Instanz kann durch Addieren der Kapazität aller Ziele für einen bestimmten Zieltyp ermittelt werden. | Anzeigename:Capacity bytes Messwertart:GAUGE Werttyp:INT64 Einheit:bytes Labels: component: Der Zieltyp: ost,
mdt oder mgt.target: Der Name des Ziels. |
free_bytes |
Die Anzahl der Byte an Speicherplatz für einen bestimmten OST oder MDT, die für Root-Nutzer verfügbar sind. | Anzeigename:Free bytes Messwerttyp:GAUGE Werttyp:INT64 Einheit:bytes Labels: component: Der Zieltyp: ost,
mdt oder mgt.target: Der Name des Ziels. |
Inode-Messwerte (Objekt)
Messwerte zur Anzahl der verfügbaren Inodes (Objekte) und zur maximalen Kapazität.
| Messwert | Beschreibung | Details |
|---|---|---|
inodes_free |
Die Anzahl der Inodes (Objekte), die auf dem angegebenen Ziel verfügbar sind. | Anzeigename:Free inodes Messwertart:GAUGE Werttyp:INT64 Einheit:inodes Labels: component: Der Zieltyp.target: Der Name des Ziels. |
inodes_maximum |
Die maximale Anzahl von Inodes (Objekten), die das Ziel enthalten kann. | Anzeigename:Maximum inodes Messwertart:GAUGE Werttyp:INT64 Einheit:inodes Labels: component: Der Zieltyp.target: Der Name des Ziels. |
E/A-Leistungsmesswerte
Messwerte, die Aufschluss über Datenübertragungsraten und Vorgangslatenz geben.
Vorgangslatenz
| Messwert | Beschreibung | Details |
|---|---|---|
io_time_milliseconds_total |
Die Anzahl der Lese- oder Schreibvorgänge, deren Latenz innerhalb der gruppierten Latenzbereiche liegt. | Anzeigename:Operation latency Messwertart:CUMULATIVE Werttyp:INT64 Einheit:operations Labels: component: Der Zieltyp.operation: Der Vorgangstyp.size: Der Bucket-Latenzbereich. Beispiel: „512“ umfasst die Anzahl der Vorgänge, die zwischen 512 und 1.024 Millisekunden gedauert haben.target: Der Name des Ziels.
|
read_bytes_total |
Die Anzahl der Datenbytes, die vom angegebenen OST gelesen wurden. | Anzeigename: Gelesene Daten (in Byte) Messwertart: CUMULATIVE Werttyp: INT64 Einheit: Byte Labels: component: Der Zieltyp, immer ost.operation: Der Vorgangstyp: read.target: Der Name des Ziels. |
read_samples_total |
Die Anzahl der Lesevorgänge, die für den angegebenen OST ausgeführt wurden. | Anzeigename:Data read operations Messwertart:CUMULATIVE Werttyp:INT64 Einheit:Vorgänge Labels: component: Der Zieltyp: immer ost.operation: Der Vorgangstyp: read.target: Der Name des Ziels. |
write_bytes_total |
Die Anzahl der Datenbytes, die in den angegebenen OST geschrieben wurden. | Anzeigename: „Data write bytes“ Messwertart: CUMULATIVE Werttyp: INT64 Einheit: bytes Labels: component: Der Zieltyp, immer ost.operation: Der Vorgangstyp: write.target: Der Name des Ziels. |
write_samples_total |
Die Anzahl der Schreibvorgänge, die für den angegebenen OST ausgeführt wurden. | Anzeigename:Data write operations Messwertart:CUMULATIVE Werttyp:INT64 Einheit:Vorgänge Labels: component: Der Zieltyp: immer ost.operation: Der Vorgangstyp: write.target: Der Name des Ziels. |
Messwerte für Clientverbindungen
Messwerte speziell für das Verständnis der Clientverbindung.
Verbundene Clients
| Messwert | Beschreibung | Details |
|---|---|---|
connected_clients |
Die Anzahl der Clients, die derzeit mit dem angegebenen MDT verbunden sind. | Anzeigename:Verbundene Clients Messwertart:GAUGE Werttyp:INT64 Einheit:clients Labels: component: Der Zieltyp. Dies ist immer mdt.target: Der Name des Gerätebaums. |