Speicheroptionen für Cloud TPU-Daten

In diesem Dokument werden Datenspeicheroptionen beschrieben, die Sie beim Training von Modellen in der Cloud TPU verwenden können.

Einführung

Die Cloud TPU benötigt für folgende Aufgaben Datenspeicher:

  • Herunterladen und Vorverarbeiten von Datasets
  • Verarbeiten der Host-Eingabepipeline
  • Modelltrainingseingabe
  • Modelltrainingsausgabe

Die Speicheroptionen für TPU-Anwendungsdaten und Trainingsdatasets sind:

Weitere Informationen zur Speicherverwaltung finden Sie auf den folgenden Seiten:

Langlebiger Blockspeicher

Langlebiger Blockspeicher, auch als Laufwerke oder Volumes bezeichnet, ist für Daten bestimmt, die Sie beibehalten möchten, nachdem Sie Ihre TPU-VM angehalten, ausgesetzt oder gelöscht haben. Langlebiger Blockspeicher bleibt verfügbar, auch wenn die TPU-VM abstürzt oder ausfällt. Sie können das Bootlaufwerk der TPU-VM nutzen oder Ihrer TPU zusätzlichen Blockspeicher anhängen.

In den folgenden Fällen empfiehlt es sich, ein zusätzliches Laufwerk anzuhängen:

  • Ihr Trainingsdatensatz übersteigt die Kapazität des TPU-Bootlaufwerks.
  • Sie haben schreibgeschützte Daten und möchten mit einem Hyperdisk ML-Volume einen schnelleren Lesezugriff erzielen.

TPU-Generation und unterstützte Laufwerkstypen

In der folgenden Tabelle sind die Laufwerkstypen aufgeführt, die von den einzelnen TPU-Generationen unterstützt werden:

TPU-Generation Unterstützte Laufwerkstypen
TPU7x Hyperdisk Balanced, Hyperdisk ML
TPU v6e Hyperdisk Balanced, Hyperdisk ML
TPU v5p Abgestimmter nichtflüchtiger Speicher, Hyperdisk ML
TPU v5e Abgestimmter nichtflüchtiger Speicher, Hyperdisk ML

TPU-VM-Bootlaufwerk

Standardmäßig hat jede TPU-VM ein einzelnes Bootlaufwerk mit 10 GB. Beim Erstellen der VMs können Sie ein größeres Bootlaufwerk konfigurieren. Weitere Informationen finden Sie unter Benutzerdefiniertes Bootlaufwerk erstellen. Das Bootlaufwerk enthält das Betriebssystem, TPU-Treiber und Bibliotheken. Auf dem Bootlaufwerk können auch heruntergeladene Datasets vorübergehend für die Vorverarbeitung sowie für Modelleingabe- und Modellausgabedaten gespeichert werden, sofern die Gesamtgröße der Daten den verfügbaren Speicherplatz auf dem Bootlaufwerk nicht überschreitet.

Wenn Ihre Anwendung zusätzlichen Speicherplatz über die Standardgröße des Bootlaufwerks hinaus benötigt, können Sie Ihrer TPU-VM-Instanz ein oder mehrere langlebige Laufwerke hinzufügen. Weitere Informationen finden Sie unter:

Angehängter Speicher

Sowohl Hyperdisks als auch Persistent Disks sind langlebige Netzwerkspeichergeräte, auf die Ihre VM-Instanzen wie auf physische Laufwerke auf einem Computer oder Server zugreifen können. Beide Arten von Laufwerken werden unabhängig von Ihren VM-Instanzen erstellt, sodass Ihre Daten auch nach dem Löschen der VM erhalten bleiben.

Zu den Vorteilen von Hyperdisk gegenüber Persistent Disk gehören die anpassbare Leistung sowie die höheren IOPS- und Durchsatzlimits. Weitere Informationen zu Hyperdisk und Persistent Disk finden Sie unter Laufwerkstyp auswählen.

Wenn Sie ein Laufwerk an eine MIG mit einem Multi-Host-TPU-VM-Slice anhängen, wird das Laufwerk an jede VM in diesem TPU-Slice angehängt. Damit nicht zwei oder mehr TPU-VMs gleichzeitig auf ein Laufwerk schreiben, müssen Sie alle Laufwerke, die Sie an einen Multi-Host-TPU-Slice anhängen, als schreibgeschützt konfigurieren. Schreibgeschützte Laufwerke sind nützlich, um ein Dataset für die Verarbeitung auf einem TPU-Slice zu speichern. Da Hyperdisk Balanced den Lesemodus nicht unterstützt, können Sie ein Hyperdisk Balanced-Volume nur an eine einzelne TPU-VM-Instanz anhängen.

Weitere Informationen zur Verwendung von langlebigem Blockspeicher finden Sie unter Nichtflüchtigen Speicher zu Instanz hinzufügen und Hyperdisk hinzufügen.

Laufwerkssicherungen

Nicht immer lassen sich Daten problemlos vom Bootlaufwerk abrufen. Schwierig wird es zum Beispiel, wenn die TPU-VM im Status „Unbekannt“ hängen bleibt, oder gelöschte Daten wiederhergestellt werden müssen. Sichern Sie Ihre Daten daher unbedingt mit einer anderen Speicheroption, z. B. mit Cloud Storage-Buckets.

Wenn Sie Ihre Daten auf einem angehängten Laufwerk speichern, können Sie mit Laufwerk-Snapshots inkrementelle Sicherungen der Daten erstellen. Das Bootlaufwerk der TPU-VM unterstützt keine Laufwerk-Snapshots. Weitere Informationen finden Sie unter Laufwerk-Snapshots.

Cloud Storage-Buckets

Cloud Storage-Buckets sind flexible, skalierbare und langlebige Speicheroptionen für Ihre VM-Instanzen. Wenn Ihr Trainingsjob nicht die geringere Latenz eines langlebigen Blockspeichers benötigt, können Sie Ihr Dataset in einem Cloud Storage-Bucket speichern.

Die Leistung von Cloud Storage-Buckets hängt von der Speicherklasse ab, die Sie auswählen, und dem Ort des Buckets relativ zu Ihrer Instanz.

Wenn Sie Ihren Cloud Storage-Bucket in derselben Zone wie Ihre TPU-VM erstellen, ist die Leistung mit der eines langlebigen Blockspeichers vergleichbar, jedoch mit höherer Latenz und weniger konsistenten Durchsatzmerkmalen.

Alle Cloud Storage-Buckets haben eine integrierte Redundanz, um ihre Daten vor Geräteausfällen zu schützen und auch während Wartungsarbeiten im Rechenzentrum Datenverfügbarkeit zu ermöglichen. Cloud Storage berechnet Prüfsummen für alle Vorgänge, um dafür zu sorgen, dass die gelesenen Daten mit den geschriebenen Daten übereinstimmen.

Im Gegensatz zum langlebigen Blockspeicher sind Cloud Storage-Buckets nicht auf die Zone beschränkt, in der sich Ihre Instanz befindet. Außerdem können Daten von mehreren Instanzen gleichzeitig auf einem Bucket gelesen und geschrieben werden. Konfigurieren Sie zum Beispiel Instanzen in mehreren Zonen so, dass sie Daten im selben Bucket lesen und schreiben, anstatt diese auf langlebigen Blockspeichern in mehreren Zonen zu replizieren.

Weitere Informationen finden Sie unter Mit Cloud Storage-Buckets verbinden.

Cloud Storage FUSE

Mit Cloud Storage FUSE können Sie Cloud Storage-Buckets als lokale Dateisysteme bereitstellen und auf sie zugreifen. Auf diese Weise können Anwendungen mithilfe der Standard-Semantik des Dateisystems Objekte aus Ihrem Bucket lesen und Objekte in Ihren Bucket schreiben.

Weitere Informationen zur Funktionsweise von Cloud Storage FUSE und eine Beschreibung der Zuordnung von Cloud Storage FUSE-Vorgängen zu Cloud Storage-Vorgängen finden Sie unter Cloud Storage FUSE. Weitere Informationen zur Verwendung von Cloud Storage FUSE, z. B. zur Installation der Befehlszeile von Cloud Storage FUSE-und zur Bereitstellung von Buckets, finden Sie unter GitHub.

Filestore-Dateifreigabe

Die Filestore-Dateifreigabe ist ein vollständig verwalteter NAS-Speicher (Network Attached Storage) für Compute Engine. Filestore ist mit bestehenden Unternehmensanwendungen kompatibel und unterstützt alle NFSv3-kompatiblen Clients.

Cloud Filestore bietet eine niedrige Latenz für Dateivorgänge. Für latenzempfindliche Arbeitslasten unterstützt Filestore eine Kapazität von bis zu 100 TiB, einen Durchsatz von 25 GiB pro Sekunde und 720.000 IOPS bei minimalen Leistungsschwankungen.

Mit Filestore können Sie Dateifreigaben auf TPU-VMs bereitstellen.

Managed Lustre-Dateifreigabe

Managed Lustre ist ein vollständig verwaltetes paralleles Dateisystem für datenintensive KI- und HPC-Arbeitslasten. Es bietet hohe Leistung, eine Kapazität im Multi-Petabyte-Bereich und POSIX-Kompatibilität.

Mit Managed Lustre können Sie Dateifreigaben auf TPU-VMs bereitstellen. Es ist besonders nützlich für die Verarbeitung großer Datasets und hoher Durchsatzanforderungen von Arbeitslasten für maschinelles Lernen und ermöglicht effizientes Training und Inferenz.

Weitere Informationen finden Sie in der Dokumentation zu Managed Lustre.

Nächste Schritte