Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

GKE Volume Populator

Autopilot Standard

Mit dem GKE-Volume-Populator können Sie das Vorabladen von Daten aus Cloud Storage-Buckets in PersistentVolumeClaims (PVCs) während der dynamischen Bereitstellung automatisieren und optimieren.

Funktionsweise von GKE Volume Populator

GKE Volume Populator basiert auf dem Kubernetes Volume Populator-Kernkonzept. Anstatt ein leeres Volume bereitzustellen, kann ein PVC mit dem GKE Volume Populator auf eine benutzerdefinierte GCPDataSource-Ressource verweisen. In dieser benutzerdefinierten Ressource werden der Cloud Storage-Quell-Bucket und die erforderlichen Anmeldedaten angegeben.

Wenn Sie einen PVC mit einem dataSourceRef erstellen, der auf eine GCPDataSource-Ressource verweist, initiiert der GKE-Volume-Populator die Datenübertragung. Dabei werden Daten aus dem angegebenen Cloud Storage-Bucket-URI in das zugrunde liegende persistente Speichervolume kopiert, bevor das Volume für Ihre Pods verfügbar gemacht wird.

Dadurch müssen Sie weniger manuelle Datenübertragungsskripts oder CLI-Befehle verwenden und die Übertragung großer Datasets auf persistente Volumes wird automatisiert. GKE Volume Populator unterstützt Datenübertragungen zwischen den folgenden Quell- und Zieltypen:

Cloud Storage zu Hyperdisk ML

GKE Volume Populator ist eine von GKE verwaltete Komponente, die standardmäßig sowohl in Autopilot- als auch in Standard-Clustern aktiviert ist. Die Interaktion mit GKE Volume Populator erfolgt hauptsächlich über die gcloud CLI und die kubectl CLI.

Architektur

Das folgende Diagramm zeigt, wie Daten vom Quellspeicher zum Zielspeicher fließen und wie das PersistentVolume für den Zielspeicher mit GKE Volume Populator erstellt wird.

Sie erstellen einen PVC, der auf eine benutzerdefinierte GCPDataSource-Ressource verweist.
Der GKE Volume Populator erkennt das PVC und initiiert einen Datenübertragungsjob.
Der Übertragungsjob wird in einem vorhandenen Knotenpool ausgeführt. Wenn die automatische Knotenbereitstellung aktiviert ist, wird ein neuer Knotenpool erstellt.
Mit dem Übertragungsjob werden Daten aus dem in der GCPDataSource-Ressource angegebenen Cloud Storage-Bucket in das Zielspeichervolume kopiert.
Nach Abschluss der Übertragung wird der PVC an das Zielspeichervolume gebunden, sodass die Daten für den Arbeitslast-Pod verfügbar sind.

Datenübertragung vom Quelldatenspeicher und Erstellung von PV für den Zielspeicher mit dem GKE Volume Populator

Hauptvorteile

Der GKE Volume Populator bietet mehrere Vorteile:

Automatisches Befüllen von Daten: Volumes werden während der Bereitstellung automatisch mit Daten aus Cloud Storage befüllt, was den Betriebsaufwand reduziert.
Nahtlose Datenportabilität: Sie können Daten aus dem Objektspeicher in leistungsstarke Blockspeichersysteme (Hyperdisk) verschieben, um je nach den Anforderungen Ihrer Arbeitslast den Preis oder die Leistung zu optimieren.
Vereinfachte Workflows: Sie benötigen weniger separate Jobs zum Laden von Daten oder manuelle Eingriffe zum Vorbereiten von persistenten Volumes.
Integration mit Identity and Access Management (IAM): Verwenden Sie die IAM-basierte Authentifizierung über Workload Identity Federation for GKE, um für eine sichere Datenübertragung mit detaillierter Zugriffssteuerung zu sorgen.
Beschleunigte KI/ML-Arbeitslasten: Große Datasets, Modelle und Gewichte lassen sich schnell direkt in den Hochleistungsspeicher vorab laden, um Trainings- und Inferenzaufgaben zu beschleunigen.

Anwendungsfälle für GKE Volume Populator

Mit GKE Volume Populator können Sie große Trainingsdatasets für KI/ML laden. Angenommen, Sie haben ein Dataset mit einer Größe von mehreren Terabyte zum Trainieren eines Large Language Model (LLM), das in einem Cloud Storage-Bucket gespeichert ist. Ihr Trainingsjob wird in GKE ausgeführt und erfordert eine hohe E/A-Leistung. Anstatt die Daten manuell zu kopieren, können Sie den GKE Volume Populator verwenden, um beim Erstellen des PVC automatisch ein Hyperdisk ML-Volume bereitzustellen und mit dem Dataset aus Cloud Storage zu füllen. Dieser automatisierte Prozess sorgt dafür, dass Ihre Trainings-Pods sofortigen Hochgeschwindigkeitszugriff auf die Daten haben.

Hier sind einige weitere Beispiele für die Verwendung des GKE Volume Populator:

Vorab-Caching von KI-/ML-Modellgewichten und ‑Assets aus Cloud Storage in Hyperdisk ML-Volumes, um die Modellladezeiten für die Inferenzbereitstellung zu verkürzen.
Daten aus Cloud Storage in nichtflüchtige Volumes für zustandsorientierte Anwendungen migrieren, die einen leistungsstarken Festplattenzugriff erfordern.

GKE Volume Populator Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Funktionsweise von GKE Volume Populator

Architektur

Hauptvorteile

Anwendungsfälle für GKE Volume Populator

Nächste Schritte

GKE Volume Populator