Managed Lustre-Speicher in GKE skalieren

In diesem Dokument wird beschrieben, wie Sie die Speicherkapazität von Managed Lustre-Volumes für Ihre zustandsorientierten Arbeitslasten in Google Kubernetes Engine (GKE) dynamisch erhöhen können, ohne Ihre Anwendungen zu unterbrechen.

Wenn Ihre zeitaufwendigen KI-/ML-Trainingsjobs beispielsweise dynamische und unvorhersehbare Speicheranforderungen haben, aktivieren Sie die Erweiterung von Managed Lustre-Volumes, um die Speicherkapazität Ihres vorhandenen Managed Lustre-PersistentVolume (PV) zu erhöhen.

Dieses Dokument richtet sich an Plattformadministratoren und ‑operatoren, DevOps-Experten, Speicheradministratoren und Entwickler für maschinelles Lernen (ML), die Speicher für zustandsorientierte Arbeitslasten in GKE verwalten.

Wenn Sie ein Volume erweitern, steigen Ihre Kosten entsprechend der neuen, größeren Kapazität gemäß der Standardpreisgestaltung für Google Cloud Managed Lustre.

Hinweise

Umgebung vorbereiten

Voraussetzungen

Sie müssen die folgenden Anforderungen erfüllen:

  • Sie benötigen einen GKE-Cluster mit Version 1.35.0-gke.2331000 oder höher.
  • Sie müssen den verwalteten Lustre-CSI-Treiber auf einem vorhandenen Cluster aktivieren. Der Treiber ist in Standard- und Autopilot-Clustern standardmäßig deaktiviert.

Beschränkungen

  • Sie können die Größe eines vorhandenen Volumes nur erhöhen, nicht verringern.
  • Sie können die Volume-Erweiterung nicht mit dem Zugriffsmodus ReadOnlyMany verwenden.
  • Wenn Sie die Größe von Lustre-Volumes ändern, müssen Sie die Mindest- und Höchstkapazitätslimits sowie die Schrittgrößen einhalten, die von der Leistungsstufe Ihres Volumes festgelegt werden. Weitere Informationen finden Sie unter Überlegungen zur Leistung.
  • Geben Sie die Größe von Lustre-Volumes in GiB als Vielfache von 1.000 an. Kubernetes übersetzt Einheiten wie Ti in Binärwerte (z. B. wird 18 Ti als 18.432 GiB interpretiert), was dazu führt, dass die Lustre API die Anfrage ablehnt.

Volume-Erweiterung für eine StorageClass aktivieren

  1. Prüfen Sie, ob Ihre StorageClass die Volume-Erweiterung unterstützt:

    kubectl get sc STORAGECLASS_NAME -o jsonpath='{.allowVolumeExpansion}{"\n"}'
    

    Ersetzen Sie STORAGECLASS_NAME durch den Namen Ihrer StorageClass.

    Wenn der Befehl nichts ausgibt oder false zurückgibt, müssen Sie die StorageClass-Konfiguration explizit aktualisieren, um die Erweiterung zuzulassen.

  2. Öffnen Sie die StorageClass-Konfiguration zum Bearbeiten:

    kubectl edit storageclass STORAGECLASS_NAME
    
  3. Fügen Sie im Editor das Feld allowVolumeExpansion: true zur StorageClass-Konfiguration hinzu:

    apiVersion: storage.k8s.io/v1
    kind: StorageClass
    metadata:
      name: lustre-sc
    provisioner: lustre.csi.storage.gke.io
    ...
    allowVolumeExpansion: true

PersistentVolumeClaim erweitern

Um die Volume-Erweiterung zu starten, bearbeiten Sie Ihren PersistentVolumeClaim (PVC), um eine Erhöhung der Volume-Größe anzufordern.

  1. Ermitteln Sie die neue, gültige Größe für die Erweiterung, wie unter Gültige Erweiterungsgrößen ermitteln beschrieben.
  2. Öffnen Sie die PVC-Konfiguration zum Bearbeiten:

    kubectl edit pvc PVC_NAME
    

    Ersetzen Sie PVC_NAME durch den Namen Ihres PVC.

  3. Aktualisieren Sie im Editor das Feld spec.resources.requests.storage mit der gültigen Erweiterungsgröße. Wenn Sie beispielsweise ein Volume von 9000Gi auf 18000Gi erweitern möchten, ändern Sie das Feld storage so:

    spec:
      accessModes:
      - ReadWriteOnce
      resources:
        requests:
          storage: 18000Gi # Changed from 9000Gi
    

Volume-Erweiterung überprüfen

  1. Überwachen Sie den Fortschritt der Erweiterung, indem Sie die Ereignisse des PVC prüfen:

    kubectl describe pvc PVC_NAME
    

    Die folgenden Ereignisse in der Ausgabe des PVC geben den aktuellen Fortschritt oder das Ergebnis der Anfrage zur Volume-Erweiterung an:

    • ExternalExpanding: Gibt an, dass Kubernetes darauf wartet, dass der external-resizer den PVC erweitert.
    • Resizing: Gibt an, dass die Größenänderung läuft. Bei größeren Kapazitätssteigerungen kann dieser Vorgang bis zu 90 Minuten dauern.
    • VolumeResizeSuccessful: Bestätigt, dass das Volume erfolgreich erweitert wurde.
    • VolumeResizeFailed: Gibt an, dass ein Fehler aufgetreten ist. Die Ereignisnachricht enthält Details aus der Google Cloud Managed Lustre API. Dieser Status ist möglicherweise vorübergehend und wird automatisch behoben.
  2. Prüfen Sie nach Abschluss der Erweiterung die aktualisierte Konfiguration des PVC:

    kubectl get pvc PVC_NAME -o yaml
    
  3. Prüfen Sie, ob das Feld status.capacity die neue, erhöhte Größe widerspiegelt.

Sollten Probleme auftreten, lesen Sie die Informationen unter Fehlerbehebung.

Gültige Erweiterungsgrößen ermitteln

Um die neue Volume-Größe zu ermitteln, müssen Sie zuerst die Leistungsstufe Ihres Volumes und die entsprechende Schrittgröße ermitteln.

Leistungsstufe des Volumes ermitteln

Sie können die Leistungsstufe Ihres Volumes mit einer der folgenden Optionen ermitteln:

StorageClass

Führen Sie den folgenden Befehl aus und suchen Sie nach dem Wert perUnitStorageThroughput (z. B. 1000). Dieser Wert gibt die Leistungsstufe in MBps pro TiB an.

kubectl get sc STORAGECLASS_NAME -o yaml

Ersetzen Sie STORAGECLASS_NAME durch den Namen Ihrer StorageClass.

Lustre-Instanz

So ermitteln Sie die Leistungsstufe Ihres Volumes, indem Sie die Eigenschaften der zugrunde liegenden Managed Lustre-Instanz direkt prüfen:

  1. Suchen Sie den Namen des PV, der an Ihren PVC gebunden ist:

    kubectl get pvc PVC_NAME
    

    Ersetzen Sie PVC_NAME durch den Namen Ihres PVC.

    Die entsprechende Ausgabe sieht etwa so aus: Notieren Sie sich den Namen des PV in der Spalte VOLUME, z. B. pv-lustre.

    NAME         STATUS   VOLUME      CAPACITY   ACCESS MODES   STORAGECLASS   VOLUMEATTRIBUTESCLASS   AGE
    pvc-lustre   Bound    pv-lustre   9000Gi     RWX            lustre-rwx     <unset>                 26m
    
  2. Suchen Sie im Feld volumeHandle nach dem Speicherort des Volumes und dem Instanznamen:

    kubectl get pv PV_NAME -o yaml
    

    Ersetzen Sie PV_NAME durch den Namen des PV aus dem vorherigen Schritt.

    Der Wert für volumeHandle hat das Format PROJECT_ID/LOCATION/INSTANCE_NAME. Notieren Sie sich die INSTANCE_NAME und LOCATION für den nächsten Schritt.

  3. Prüfen Sie die Eigenschaften der Leistungsstufe, indem Sie die Managed Lustre-Instanz beschreiben:

    gcloud lustre instances describe INSTANCE_NAME --location=LOCATION
    

    Ersetzen Sie INSTANCE_NAME und LOCATION durch die Werte aus dem vorherigen Schritt.

    Suchen Sie in der Ausgabe nach dem Feld perUnitStorageThroughput. Dieser Wert gibt die Leistungsstufe in MBps pro TiB an.

Kapazitätslimits und Schrittgrößen

Nachdem Sie die Leistungsstufe ermittelt haben, können Sie der folgenden Tabelle die zugehörigen Kapazitätslimits und die erforderliche Schrittgröße entnehmen.

Stufe (perUnitStorageThroughput) Minimale Kapazität Maximale Kapazität Schrittgröße
1.000 MB/s pro TiB 9.000 GiB 954.000 GiB (~1 PiB) 9.000 GiB
500 MB/s pro TiB 18.000 GiB 1.908.000 GiB (~2 PiB) 18.000 GiB
250 MB/s pro TiB 36.000 GiB 3.816.000 GiB (~4 PiB) 36.000 GiB
125 MB/s pro TiB 72.000 GiB 7.632.000 GiB (~8 PiB) 72.000 GiB

Die Volumina müssen entsprechend der Schrittgröße erhöht werden, die ihrer Stufe zugewiesen ist. Jede Erhöhung der Kapazität muss ein Vielfaches dieser Schrittgröße sein. Wenn Ihr Volume mit 1.000 MB/s beispielsweise eine Kapazität von 9.000 GiB hat, können Sie es auf 18.000 GiB, 27.000 GiB und andere Vielfache erhöhen.

Fehlerbehebung

In diesem Abschnitt finden Sie Lösungen für häufige Probleme, die beim Erweitern von Lustre-Volumes auftreten können.

Die Erweiterung schlägt mit dem Fehler „Ungültiges Argument“ fehl

Symptom

  • Der PVC wechselt in den Status Resizing, schlägt dann aber fehl.
  • Wenn Sie den Befehl kubectl describe pvc PVC_NAME ausführen, wird ein Fehler ähnlich dem folgenden angezeigt: VolumeResizeFailed: rpc error: code = InvalidArgument desc = ....

Ursache

Dieser Fehler bedeutet in der Regel, dass die angeforderte Speichergröße aus einem der folgenden Gründe nicht für die Leistungsstufe des Lustre-Volumes gültig ist:

  • Die angeforderte Größe ist kein Vielfaches der erforderlichen Schrittgröße für die Stufe.
  • Die angeforderte Größe liegt unter der Mindest- oder über der maximalen Kapazität für die Stufe.

Lösung

  1. Unter Kapazitätslimits und Schrittgrößen finden Sie die gültigen Schrittgrößen und Kapazitätslimits für die Leistungsstufe Ihres Volumes.
  2. Bearbeiten Sie den PVC noch einmal, um eine gültige Speichergröße anzufordern, die den Schrittgrößen- und Kapazitätsbeschränkungen entspricht.

Die Erweiterung schlägt mit einem „Internal Error“ fehl.

Symptom

  • Die Größenänderung des PVC schlägt fehl.
  • Wenn Sie den Befehl kubectl describe pvc PVC_NAME ausführen, wird möglicherweise ein VolumeResizeFailed-Ereignis mit einer Fehlermeldung angezeigt, die code = Internal enthält.

Ursache

Dieser Fehler weist auf ein Problem mit dem zugrunde liegenden Managed Lustre-Dienst hin.

Lösung

  1. Wiederholen Sie die Erweiterung, indem Sie das PVC-Manifest noch einmal mit der neuen, angeforderten Größe anwenden. Dadurch können vorübergehende Backend-Probleme behoben werden.
  2. Wenn der Wiederholungsversuch fehlschlägt, wenden Sie sich an Cloud Customer Care.

Die Erweiterung bleibt im Status „Wird angepasst“ hängen

Symptom

  • Der PVC bleibt für längere Zeit im Status Resizing (mehr als 30 Minuten bei kleineren Erweiterungen oder mehr als 90 Minuten bei größeren Erweiterungen).
  • Möglicherweise wird ein VolumeResizeFailed-Ereignis mit der Fehlermeldung DEADLINE_EXCEEDED angezeigt.

Ursache

Dieses Problem kann bei großen Kapazitätserhöhungen auftreten, die bis zu 90 Minuten dauern können. Für die csi-external-resizer-Komponente kann ein Zeitlimit überschritten werden, während sie auf die Antwort der Google Cloud Managed Lustre API wartet, obwohl der zugrunde liegende Erweiterungsvorgang noch läuft.

Lösung

  • Der csi-external-resizer wiederholt den Vorgang nach einer Backoff-Periode automatisch. Behalten Sie die PVC-Ereignisse für ein VolumeResizeSuccessful-Ereignis im Blick.
  • Wenn sich das PVC länger als 90 Minuten im Status Resizing befindet, wenden Sie sich an Cloud Customer Care.

Die Erweiterung wird nicht gestartet oder hängt im Status „ExternalExpanding“ fest

Symptom

  • Sie aktualisieren das Feld spec.resources.requests.storage in Ihrem PVC, aber der PVC-Status ändert sich nicht in Resizing.
  • Wenn Sie den Befehl kubectl describe pvc PVC_NAME ausführen, wird im Ereignisprotokoll nur der Status ExternalExpanding angezeigt. Der Status Resizing wird nicht erreicht:
Events:
  Type    Reason             Age                From             Message
  ----    ------             ----               ----             -------
  Normal  ExternalExpanding  21m (x2 over 58m)  volume_expand    waiting for an external controller to expand this PVC

Ursache

Dieses Verhalten weist in der Regel auf eines der folgenden Probleme hin:

  • Die mit dem PVC verknüpfte StorageClass lässt keine Volume-Erweiterung zu.
  • Es gibt ein Problem mit dem csi-external-resizer-Sidecar-Container, der für das Starten der Erweiterung zuständig ist.

Lösung

  1. Prüfen Sie die StorageClass-Konfiguration und vergewissern Sie sich, dass das Feld allowVolumeExpansion: true festgelegt ist:

    kubectl get sc STORAGECLASS_NAME -o jsonpath='{.allowVolumeExpansion}{"\n"}'
    
  2. Wenn allowVolumeExpansion fehlt oder auf false gesetzt ist, aktualisieren Sie die StorageClass, um die Volume-Erweiterung zuzulassen.

  3. Wenn die StorageClass richtig konfiguriert ist, liegt das Problem wahrscheinlich an den GKE-Steuerungsebenenkomponenten, die den Vorgang zum Ändern der Größe verwalten. Wenden Sie sich an Cloud Customer Care.

Die Erweiterung schlägt aufgrund eines Kontingent- oder Kapazitätsproblems fehl

Symptom

  • Die PVC-Größenanpassung schlägt fehl und im PVC wird ein VolumeResizeFailed-Ereignis angezeigt.
  • Wenn Sie den Befehl kubectl describe pvc PVC_NAME ausführen, weist die Ereignismeldung aus dem Managed Lustre-Backend auf ein Kontingent- oder Kapazitätsproblem hin.

Ursache

Die angeforderte gültige Erweiterung kann nicht ausgeführt werden, da sie die Gesamtkapazität oder das Gesamtkontingent überschreitet, die für den Managed Lustre-Dienst in Ihrem Projekt oder Ihrer Region verfügbar sind.

Lösung

  • Bearbeiten Sie das PVC noch einmal und beantragen Sie eine geringere Speichererhöhung.
  • Wenden Sie sich an den Google Cloud Administrator Ihrer Organisation, um eine Erhöhung der allgemeinen Lustre-Dienstkontingente oder der Kapazität für Ihr Projekt anzufordern.

Bereinigen

Löschen Sie den PVC, damit Ihrem Google Cloud -Konto die in diesem Dokument verwendeten Ressourcen nicht in Rechnung gestellt werden. Bei diesem Vorgang werden auch das zugehörige PV und die zugrunde liegende Managed Lustre-Instanz gelöscht, wenn reclaimPolicy auf Delete festgelegt ist.

kubectl delete pvc PVC_NAME

Ersetzen Sie PVC_NAME durch den Namen Ihres PVC.

Nächste Schritte