Instanzen und Vorgänge überwachen

Cloud Monitoring erfasst und speichert automatisch Informationen zu Ihrer Managed Lustre-Instanz.

Dieses Dokument bietet einen detaillierten Überblick über die Messwerte, die für die Überwachung Ihrer Managed Lustre-Instanzen auf Google Cloudverfügbar sind. Anhand dieser Messwerte können Sie die Leistung, Kapazität und den Zustand Ihrer verwalteten Lustre-Dateisysteme nachvollziehen, um Engpässe zu erkennen, Probleme zu beheben und die Ressourcennutzung zu optimieren.

Sie können diese Messwerte in Cloud Monitoring verwenden, um benutzerdefinierte Dashboards zu erstellen, Benachrichtigungen einzurichten und detailliertere Informationen zum Verhalten Ihrer Managed Lustre-Instanz zu erhalten.

Cloud Monitoring ist für Managed Lustre automatisch aktiviert. Für die Erfassung von Daten oder die Anzeige von Messwerten in derGoogle Cloud -Konsole fallen keine Kosten an. Für API-Aufrufe können Gebühren anfallen. Weitere Informationen finden Sie unter Cloud Monitoring-Preise.

Erforderliche IAM-Rollen

Die folgenden Rollen sind erforderlich:

  • Monitoring-Betrachter (roles/monitoring.viewer) oder entsprechende Berechtigungen zum Aufrufen von Messwerten in Cloud Monitoring.
  • Monitoring-Bearbeiter (roles/monitoring.editor) oder entsprechende Berechtigungen zum Konfigurieren von Benachrichtigungen.

IAM-Rolle zuweisen

Messwerte aufrufen

Cloud Monitoring-Messwerte sind an zwei Stellen in derGoogle Cloud Console verfügbar:

  • Auf der Seite mit den Details zur verwalteten Lustre-Instanz werden verfügbare Messwerte angezeigt. Zusätzlich zu den unten aufgeführten Messwerten werden die Bandbreite der kopierten Byte und die Rate der kopierten Objekte berechnet.

  • Die Cloud Monitoring-Seite bietet mehrere Diagrammoptionen und Anpassungen.

Messwerte auf der Seite „Instanzdetails“ ansehen

So rufen Sie die Messwerte einer bestimmten Instanz auf:

  1. Rufen Sie in der Google Cloud Console die Seite Instanzen auf.

    Zur Seite „VM-Instanzen“

  2. Klicken Sie auf die Instanz, für die Sie Messwerte aufrufen möchten. Die Seite Instanzdetails wird angezeigt.

  3. Klicken Sie auf den Tab Monitoring. Das Standard-Dashboard wird angezeigt.

Messwerte in Cloud Monitoring ansehen

So rufen Sie Managed Lustre-Messwerte in Cloud Monitoring auf:

  1. Rufen Sie in der Google Cloud Console die Seite Metrics Explorer auf.

    Zu „Monitoring“ → „Metrics Explorer“

  2. Folgen Sie der Anleitung unter Diagramme mit Metrics Explorer erstellen, um Ihre Messwerte auszuwählen und anzuzeigen.

Warnungen einrichten

Sie können Benachrichtigungsrichtlinien in Cloud Monitoring konfigurieren, um benachrichtigt zu werden, wenn Ihr verwaltetes Lustre-Dateisystem bestimmte Bedingungen erfüllt, z. B. wenn die Speicherkapazität oder die Durchsatzlimits überschritten werden.

Vorbereitung

Zum Erstellen von Benachrichtigungsrichtlinien benötigen Sie die IAM-Rolle Monitoring Editor (roles/monitoring.editor) für das Projekt.

Benachrichtigungsrichtlinie erstellen

Um eine Benachrichtigung einzurichten, definieren Sie eine Bedingung mit einem Messwert oder einer PromQL-Abfrage und konfigurieren Sie Benachrichtigungskanäle.

  1. Rufen Sie in der Google Cloud Console die Seite Benachrichtigungen in der Google Cloud Console auf.

    Zu „Monitoring“ → „Benachrichtigungen“

  2. Klicken Sie auf + Richtlinie erstellen.

  3. Wählen Sie Builder und dann den gewünschten Messwert aus oder wählen Sie Code-Editor aus, um eine Abfrage mit PromQL einzugeben. In der Messwertauswahl fallen Managed Lustre-Messwerte unter die Ressourcen Lustre-Instanz und Lustre-Standort.

  4. Konfigurieren Sie die Triggerlogik und definieren Sie Ihre Benachrichtigungskanäle und Benachrichtigungseinstellungen.

  5. Klicken Sie auf Richtlinie erstellen.

Weitere Informationen zum Erstellen von Triggern und anderen Optionen finden Sie in den folgenden Artikeln:

Beispiel: Benachrichtigung zur Speicherkapazität erstellen

Das folgende Beispiel zeigt, wie Sie eine Benachrichtigung erstellen, die ausgelöst wird, wenn Ihre verwaltete Lustre-Instanz 80% ihrer bereitgestellten Kapazität überschreitet.

  1. Rufen Sie in der Google Cloud Console die Seite Benachrichtigungen in der Google Cloud Console auf.

    Zu „Monitoring“ → „Benachrichtigungen“

  2. Klicken Sie auf + Richtlinie erstellen.

  3. Wählen Sie Code-Editor aus.

  4. Fügen Sie die folgende PromQL-Abfrage in den Abfrageeditor ein:

    (
      sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes)
      -
      sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes)
    )
    /
    sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes)
    > 0.8
    

    Mit dieser Abfrage wird das Nutzungsverhältnis für alle Instanzen berechnet: (Total - Available) / Total. Der Wert 0.8 steht für die Gesamtzahl der Byte, die 80% der Nutzung erreichen. Wenn Sie bei 90 % eine Benachrichtigung erhalten möchten, ändern Sie diesen Wert in 0.9.

  5. Klicken Sie auf Abfrage ausführen, um die Syntax zu prüfen und ein Diagramm des aktuellen Nutzungsverhältnisses aufzurufen.

  6. Klicken Sie auf Weiter und konfigurieren Sie den Trigger auf Verstoß beliebiger Zeitachse.

  7. Klicken Sie auf Weiter. Fügen Sie im Abschnitt Dokumentation empfohlene Maßnahmen zur Behebung des Kapazitätsproblems hinzu. Beispiel:

    ## Action Required: Lustre Capacity Warning
    The Managed Lustre instance is exceeding 80% capacity usage.
    
    **Metric:** Usage Ratio > 0.8
    **Severity:** Warning
    
    **Recommended Actions:**
    1. Check the instance details in the Google Cloud console.
    2. Verify if this is expected data growth or a runaway process.
    3. If valid, consider expanding the storage capacity of the instance or deleting old data to free up space.
    4. Failure to address this may result in "No Space Left on Device" errors for client applications.
    

Benachrichtigungsrichtlinie mit gcloud erstellen

Sie können Benachrichtigungsrichtlinien mit der Google Cloud CLI erstellen. Sie müssen die Benachrichtigung später in der Google Cloud -Konsole bearbeiten, um bestimmte Benachrichtigungskanäle zu aktivieren.

Im folgenden Beispiel wird mit gcloud eine Benachrichtigung für 80% der Kapazität erstellt:

gcloud monitoring policies create \
  --policy-from-file=/dev/stdin <<EOF
{
  "displayName": "Lustre High Capacity Usage (>80%)",
  "severity": "WARNING",
  "combiner": "OR",
  "conditions": [
    {
      "displayName": "Capacity Usage Ratio > 0.8",
      "conditionPrometheusQueryLanguage": {
        "query": "(sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) - sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes)) / sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) > 0.8",
        "duration": "300s",
        "evaluationInterval": "60s",
        "alertRule": "AlwaysOn"
      }
    }
  ],
  "documentation": {
    "content": "Action Required: The Managed Lustre instance is exceeding 80% capacity usage. Please verify if storage expansion is required.",
    "mimeType": "text/markdown"
  }
}
EOF

Messwertdetails

Die folgenden Messwerte sind für Managed Lustre-Instanzen verfügbar. Jeder Messwert wird durch seinen Typ identifiziert (z.B. lustre.googleapis.com/instance/available_bytes) hat einen Anzeigenamen, eine Beschreibung und bestimmte Labels, die zusätzlichen Kontext liefern.

Die Daten werden alle 60 Sekunden abgerufen. Nach dem Abruf werden bis zu 180 Sekunden lang keine Daten angezeigt.

Messwerte zur Speicherkapazität

Messwerte zum verfügbaren und bereitgestellten Speicherplatz in Ihrem Lustre-Dateisystem.

Bei Messwertlabels hat der Wert von target das Format <fsname>-<TYPE><HEXA>, wobei <HEXA> der nullbasierte Index des Ziels in Hexadezimal ist. Wenn Ihr Dateisystemname beispielsweise filesys ist, lautet der 43. OST filesys-OST002a und der 4. MDT filesys-MDT0003.

Messwert Beschreibung Details
available_bytes Die Anzahl der Byte an Speicherplatz für ein bestimmtes Object Storage Target (OST) oder Metadata Target (MDT), die für Nicht-Root-Nutzer verfügbar sind. Anzeigename:Available bytes
Messwerttyp:GAUGE
Werttyp:INT64
Einheit:bytes
Labels:
component: Der Zieltyp: ost, mdt oder mgt.
target: Der Name des Ziels.
capacity_bytes Die Anzahl der für das angegebene Ziel bereitgestellten Byte. Der gesamte nutzbare Daten- oder Metadatenbereich des Clusters für eine Instanz kann durch Addieren der Kapazität aller Ziele für einen bestimmten Zieltyp ermittelt werden. Anzeigename:Capacity bytes
Messwertart:GAUGE
Werttyp:INT64
Einheit:bytes
Labels:
component: Der Zieltyp: ost, mdt oder mgt.
target: Der Name des Ziels.
free_bytes Die Anzahl der Byte an Speicherplatz für einen bestimmten OST oder MDT, die für Root-Nutzer verfügbar sind. Anzeigename:Free bytes
Messwerttyp:GAUGE
Werttyp:INT64
Einheit:bytes
Labels:
component: Der Zieltyp: ost, mdt oder mgt.
target: Der Name des Ziels.

Inode-Messwerte (Objekt)

Messwerte zur Anzahl der verfügbaren Inodes (Objekte) und zur maximalen Kapazität.

Messwert Beschreibung Details
inodes_free Die Anzahl der Inodes (Objekte), die auf dem angegebenen Ziel verfügbar sind. Anzeigename:Free inodes
Messwertart:GAUGE
Werttyp:INT64
Einheit:inodes
Labels:
component: Der Zieltyp.
target: Der Name des Ziels.
inodes_maximum Die maximale Anzahl von Inodes (Objekten), die das Ziel enthalten kann. Anzeigename:Maximum inodes
Messwertart:GAUGE
Werttyp:INT64
Einheit:inodes
Labels:
component: Der Zieltyp.
target: Der Name des Ziels.

E/A-Leistungsmesswerte

Messwerte, die Aufschluss über Datenübertragungsraten und Vorgangslatenz geben.

Vorgangslatenz

Messwert Beschreibung Details
io_time_milliseconds_total Die Anzahl der Lese- oder Schreibvorgänge, deren Latenz innerhalb der gruppierten Latenzbereiche liegt. Anzeigename:Operation latency
Messwertart:CUMULATIVE
Werttyp:INT64
Einheit:operations
Labels:
component: Der Zieltyp.
operation: Der Vorgangstyp.
size: Der Bucket-Latenzbereich. Beispiel: „512“ umfasst die Anzahl der Vorgänge, die zwischen 512 und 1.024 Millisekunden gedauert haben.
target: Der Name des Ziels.
read_bytes_total Die Anzahl der Datenbytes, die vom angegebenen OST gelesen wurden. Anzeigename: Gelesene Daten (in Byte)
Messwertart: CUMULATIVE
Werttyp: INT64
Einheit: Byte
Labels:
component: Der Zieltyp, immer ost.
operation: Der Vorgangstyp: read.
target: Der Name des Ziels.
read_samples_total Die Anzahl der Lesevorgänge, die für den angegebenen OST ausgeführt wurden. Anzeigename:Data read operations
Messwertart:CUMULATIVE
Werttyp:INT64
Einheit:Vorgänge
Labels:
component: Der Zieltyp: immer ost.
operation: Der Vorgangstyp: read.
target: Der Name des Ziels.
write_bytes_total Die Anzahl der Datenbytes, die in den angegebenen OST geschrieben wurden. Anzeigename: „Data write bytes“
Messwertart: CUMULATIVE
Werttyp: INT64
Einheit: bytes
Labels:
component: Der Zieltyp, immer ost.
operation: Der Vorgangstyp: write.
target: Der Name des Ziels.
write_samples_total Die Anzahl der Schreibvorgänge, die für den angegebenen OST ausgeführt wurden. Anzeigename:Data write operations
Messwertart:CUMULATIVE
Werttyp:INT64
Einheit:Vorgänge
Labels:
component: Der Zieltyp: immer ost.
operation: Der Vorgangstyp: write.
target: Der Name des Ziels.

Messwerte für Clientverbindungen

Messwerte speziell für das Verständnis der Clientverbindung.

Verbundene Clients

Messwert Beschreibung Details
connected_clients Die Anzahl der Clients, die derzeit mit dem angegebenen MDT verbunden sind. Anzeigename:Verbundene Clients
Messwertart:GAUGE
Werttyp:INT64
Einheit:clients
Labels:
component: Der Zieltyp. Dies ist immer mdt.
target: Der Name des Gerätebaums.