Instanzen und Vorgänge überwachen

Cloud Monitoring erfasst und speichert automatisch Informationen zu Ihrer Managed Lustre-Instanz.

Dieses Dokument bietet einen detaillierten Überblick über die Messwerte, die für die Überwachung Ihrer Managed Lustre-Instanzen auf Google Cloudverfügbar sind. Anhand dieser Messwerte können Sie die Leistung, Kapazität und den Zustand Ihrer verwalteten Lustre-Dateisysteme nachvollziehen, um Engpässe zu erkennen, Probleme zu beheben und die Ressourcennutzung zu optimieren.

Sie können diese Messwerte in Cloud Monitoring verwenden, um benutzerdefinierte Dashboards zu erstellen, Benachrichtigungen einzurichten und detailliertere Informationen zum Verhalten Ihrer Managed Lustre-Instanz zu erhalten.

Cloud Monitoring ist für Managed Lustre automatisch aktiviert. Für die Erfassung von Daten oder die Anzeige von Messwerten in derGoogle Cloud -Konsole fallen keine Kosten an. Für API-Aufrufe können Gebühren anfallen. Weitere Informationen finden Sie unter Cloud Monitoring-Preise.

Erforderliche IAM-Rollen

Die folgenden Rollen sind erforderlich:

Monitoring-Betrachter (roles/monitoring.viewer) oder entsprechende Berechtigungen zum Aufrufen von Messwerten in Cloud Monitoring.
Monitoring-Bearbeiter (roles/monitoring.editor) oder entsprechende Berechtigungen zum Konfigurieren von Benachrichtigungen.

IAM-Rolle zuweisen

Messwerte aufrufen

Cloud Monitoring-Messwerte sind an zwei Stellen in derGoogle Cloud Console verfügbar:

Auf der Seite mit den Details zur verwalteten Lustre-Instanz werden verfügbare Messwerte angezeigt. Zusätzlich zu den unten aufgeführten Messwerten werden die Bandbreite der kopierten Byte und die Rate der kopierten Objekte berechnet.
Die Cloud Monitoring-Seite bietet mehrere Diagrammoptionen und Anpassungen.

Messwerte auf der Seite „Instanzdetails“ ansehen

So rufen Sie die Messwerte einer bestimmten Instanz auf:

Rufen Sie in der Google Cloud Console die Seite Instanzen auf.

Zur Seite „VM-Instanzen“
Klicken Sie auf die Instanz, für die Sie Messwerte aufrufen möchten. Die Seite Instanzdetails wird angezeigt.
Klicken Sie auf den Tab Monitoring. Das Standard-Dashboard wird angezeigt.

Messwerte in Cloud Monitoring ansehen

So rufen Sie Managed Lustre-Messwerte in Cloud Monitoring auf:

Rufen Sie in der Google Cloud Console die Seite Metrics Explorer auf.

Zu „Monitoring“ → „Metrics Explorer“
Folgen Sie der Anleitung unter Diagramme mit Metrics Explorer erstellen, um Ihre Messwerte auszuwählen und anzuzeigen.

Warnungen einrichten

Sie können Benachrichtigungsrichtlinien in Cloud Monitoring konfigurieren, um benachrichtigt zu werden, wenn Ihr verwaltetes Lustre-Dateisystem bestimmte Bedingungen erfüllt, z. B. wenn die Speicherkapazität oder die Durchsatzlimits überschritten werden.

Vorbereitung

Zum Erstellen von Benachrichtigungsrichtlinien benötigen Sie die IAM-Rolle Monitoring Editor (roles/monitoring.editor) für das Projekt.

Benachrichtigungsrichtlinie erstellen

Um eine Benachrichtigung einzurichten, definieren Sie eine Bedingung mit einem Messwert oder einer PromQL-Abfrage und konfigurieren Sie Benachrichtigungskanäle.

Rufen Sie in der Google Cloud Console die Seite Benachrichtigungen in der Google Cloud Console auf.

Zu „Monitoring“ → „Benachrichtigungen“
Klicken Sie auf + Richtlinie erstellen.
Wählen Sie Builder und dann den gewünschten Messwert aus oder wählen Sie Code-Editor aus, um eine Abfrage mit PromQL einzugeben. In der Messwertauswahl fallen Managed Lustre-Messwerte unter die Ressourcen Lustre-Instanz und Lustre-Standort.
Konfigurieren Sie die Triggerlogik und definieren Sie Ihre Benachrichtigungskanäle und Benachrichtigungseinstellungen.
Klicken Sie auf Richtlinie erstellen.

Weitere Informationen zum Erstellen von Triggern und anderen Optionen finden Sie in den folgenden Artikeln:

Beispiel: Benachrichtigung zur Speicherkapazität erstellen

Das folgende Beispiel zeigt, wie Sie eine Benachrichtigung erstellen, die ausgelöst wird, wenn Ihre verwaltete Lustre-Instanz 80% ihrer bereitgestellten Kapazität überschreitet.

Rufen Sie in der Google Cloud Console die Seite Benachrichtigungen in der Google Cloud Console auf.

Zu „Monitoring“ → „Benachrichtigungen“
Klicken Sie auf + Richtlinie erstellen.
Wählen Sie Code-Editor aus.
Fügen Sie die folgende PromQL-Abfrage in den Abfrageeditor ein:
```
(
  sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes)
  -
  sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes)
)
/
sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes)
> 0.8
```
Mit dieser Abfrage wird das Nutzungsverhältnis für alle Instanzen berechnet: (Total - Available) / Total. Der Wert 0.8 steht für die Gesamtzahl der Byte, die 80% der Nutzung erreichen. Wenn Sie bei 90 % eine Benachrichtigung erhalten möchten, ändern Sie diesen Wert in 0.9.
Klicken Sie auf Abfrage ausführen, um die Syntax zu prüfen und ein Diagramm des aktuellen Nutzungsverhältnisses aufzurufen.
Klicken Sie auf Weiter und konfigurieren Sie den Trigger auf Verstoß beliebiger Zeitachse.

Klicken Sie auf Weiter. Fügen Sie im Abschnitt Dokumentation empfohlene Maßnahmen zur Behebung des Kapazitätsproblems hinzu. Beispiel:

## Action Required: Lustre Capacity Warning
The Managed Lustre instance is exceeding 80% capacity usage.

**Metric:** Usage Ratio > 0.8
**Severity:** Warning

**Recommended Actions:**
1. Check the instance details in the Google Cloud console.
2. Verify if this is expected data growth or a runaway process.
3. If valid, consider expanding the storage capacity of the instance or deleting old data to free up space.
4. Failure to address this may result in "No Space Left on Device" errors for client applications.

Benachrichtigungsrichtlinie mit gcloud erstellen

Sie können Benachrichtigungsrichtlinien mit der Google Cloud CLI erstellen. Sie müssen die Benachrichtigung später in der Google Cloud -Konsole bearbeiten, um bestimmte Benachrichtigungskanäle zu aktivieren.

Im folgenden Beispiel wird mit gcloud eine Benachrichtigung für 80% der Kapazität erstellt:

gcloud monitoring policies create \
  --policy-from-file=/dev/stdin <<EOF
{
  "displayName": "Lustre High Capacity Usage (>80%)",
  "severity": "WARNING",
  "combiner": "OR",
  "conditions": [
    {
      "displayName": "Capacity Usage Ratio > 0.8",
      "conditionPrometheusQueryLanguage": {
        "query": "(sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) - sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes)) / sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) > 0.8",
        "duration": "300s",
        "evaluationInterval": "60s",
        "alertRule": "AlwaysOn"
      }
    }
  ],
  "documentation": {
    "content": "Action Required: The Managed Lustre instance is exceeding 80% capacity usage. Please verify if storage expansion is required.",
    "mimeType": "text/markdown"
  }
}
EOF

Messwertdetails

Die folgenden Messwerte sind für Managed Lustre-Instanzen verfügbar. Jeder Messwert wird durch seinen Typ identifiziert (z.B. lustre.googleapis.com/instance/available_bytes) hat einen Anzeigenamen, eine Beschreibung und bestimmte Labels, die zusätzlichen Kontext liefern.

Die Daten werden alle 60 Sekunden abgerufen. Nach dem Abruf werden bis zu 180 Sekunden lang keine Daten angezeigt.

Messwerte zur Speicherkapazität

Messwerte zum verfügbaren und bereitgestellten Speicherplatz in Ihrem Lustre-Dateisystem.

Bei Messwertlabels hat der Wert von target das Format <fsname>-<TYPE><HEXA>, wobei <HEXA> der nullbasierte Index des Ziels in Hexadezimal ist. Wenn Ihr Dateisystemname beispielsweise filesys ist, lautet der 43. OST filesys-OST002a und der 4. MDT filesys-MDT0003.

Messwert	Beschreibung	Details
`available_bytes`	Die Anzahl der Byte an Speicherplatz für ein bestimmtes Object Storage Target (OST) oder Metadata Target (MDT), die für Nicht-Root-Nutzer verfügbar sind.	Anzeigename:Available bytes Messwerttyp:GAUGE Werttyp:INT64 Einheit:bytes Labels: `component`: Der Zieltyp: `ost`, `mdt` oder `mgt`. `target`: Der Name des Ziels.
`capacity_bytes`	Die Anzahl der für das angegebene Ziel bereitgestellten Byte. Der gesamte nutzbare Daten- oder Metadatenbereich des Clusters für eine Instanz kann durch Addieren der Kapazität aller Ziele für einen bestimmten Zieltyp ermittelt werden.	Anzeigename:Capacity bytes Messwertart:GAUGE Werttyp:INT64 Einheit:bytes Labels: `component`: Der Zieltyp: `ost`, `mdt` oder `mgt`. `target`: Der Name des Ziels.
`free_bytes`	Die Anzahl der Byte an Speicherplatz für einen bestimmten OST oder MDT, die für Root-Nutzer verfügbar sind.	Anzeigename:Free bytes Messwerttyp:GAUGE Werttyp:INT64 Einheit:bytes Labels: `component`: Der Zieltyp: `ost`, `mdt` oder `mgt`. `target`: Der Name des Ziels.

Inode-Messwerte (Objekt)

Messwerte zur Anzahl der verfügbaren Inodes (Objekte) und zur maximalen Kapazität.

Messwert	Beschreibung	Details
`inodes_free`	Die Anzahl der Inodes (Objekte), die auf dem angegebenen Ziel verfügbar sind.	Anzeigename:Free inodes Messwertart:GAUGE Werttyp:INT64 Einheit:inodes Labels: `component`: Der Zieltyp. `target`: Der Name des Ziels.
`inodes_maximum`	Die maximale Anzahl von Inodes (Objekten), die das Ziel enthalten kann.	Anzeigename:Maximum inodes Messwertart:GAUGE Werttyp:INT64 Einheit:inodes Labels: `component`: Der Zieltyp. `target`: Der Name des Ziels.

E/A-Leistungsmesswerte

Messwerte, die Aufschluss über Datenübertragungsraten und Vorgangslatenz geben.

Vorgangslatenz

Messwert	Beschreibung	Details
`io_time_milliseconds_total`	Die Anzahl der Lese- oder Schreibvorgänge, deren Latenz innerhalb der gruppierten Latenzbereiche liegt.	Anzeigename:Operation latency Messwertart:CUMULATIVE Werttyp:INT64 Einheit:operations Labels: `component`: Der Zieltyp. `operation`: Der Vorgangstyp. `size`: Der Bucket-Latenzbereich. Beispiel: „512“ umfasst die Anzahl der Vorgänge, die zwischen 512 und 1.024 Millisekunden gedauert haben. `target`: Der Name des Ziels.
`read_bytes_total`	Die Anzahl der Datenbytes, die vom angegebenen OST gelesen wurden.	Anzeigename: Gelesene Daten (in Byte) Messwertart: CUMULATIVE Werttyp: INT64 Einheit: Byte Labels: `component`: Der Zieltyp, immer `ost`. `operation`: Der Vorgangstyp: `read`. `target`: Der Name des Ziels.
`read_samples_total`	Die Anzahl der Lesevorgänge, die für den angegebenen OST ausgeführt wurden.	Anzeigename:Data read operations Messwertart:CUMULATIVE Werttyp:INT64 Einheit:Vorgänge Labels: `component`: Der Zieltyp: immer `ost`. `operation`: Der Vorgangstyp: `read`. `target`: Der Name des Ziels.
`write_bytes_total`	Die Anzahl der Datenbytes, die in den angegebenen OST geschrieben wurden.	Anzeigename: „Data write bytes“ Messwertart: CUMULATIVE Werttyp: INT64 Einheit: bytes Labels: `component`: Der Zieltyp, immer `ost`. `operation`: Der Vorgangstyp: `write`. `target`: Der Name des Ziels.
`write_samples_total`	Die Anzahl der Schreibvorgänge, die für den angegebenen OST ausgeführt wurden.	Anzeigename:Data write operations Messwertart:CUMULATIVE Werttyp:INT64 Einheit:Vorgänge Labels: `component`: Der Zieltyp: immer `ost`. `operation`: Der Vorgangstyp: `write`. `target`: Der Name des Ziels.

Messwerte für Clientverbindungen

Messwerte speziell für das Verständnis der Clientverbindung.

Verbundene Clients

Messwert	Beschreibung	Details
`connected_clients`	Die Anzahl der Clients, die derzeit mit dem angegebenen MDT verbunden sind.	Anzeigename:Verbundene Clients Messwertart:GAUGE Werttyp:INT64 Einheit:clients Labels: `component`: Der Zieltyp. Dies ist immer `mdt`. `target`: Der Name des Gerätebaums.

Instanzen und Vorgänge überwachen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.