Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Dateicaching in Cloud Storage FUSE

In diesem Dokument finden Sie einen Überblick über das Datei-Caching mit Cloud Storage FUSE sowie eine Anleitung zum Konfigurieren und Verwenden des Datei-Cachings.

Das Datei-Caching von Cloud Storage FUSE ist ein clientseitiger Lese-Cache, der die Leistung von Lesevorgängen verbessert, indem wiederholte Dateilesevorgänge von einem schnelleren Cache-Speicher Ihrer Wahl bereitgestellt werden. Wenn das Datei-Caching aktiviert ist, speichert Cloud Storage FUSE Kopien von häufig aufgerufenen Dateien lokal. Dadurch können nachfolgende Lesevorgänge direkt aus dem Cache bereitgestellt werden, was die Latenz verringert und den Durchsatz verbessert.

Vorteile des Datei-Caching

Das Datei-Caching bietet folgende Vorteile:

Verbesserte Leistung für kleine und zufällige E/A-Vorgänge: Datei-Caching verbessert Latenz und Durchsatz, da Lesevorgänge direkt aus den Cache-Medien bereitgestellt werden. Kleine und zufällige E/A-Vorgänge können erheblich schneller sein, wenn sie aus dem Cache bereitgestellt werden.
Parallele Downloads werden automatisch aktiviert: Parallele Downloads werden in Cloud Storage FUSE-Versionen 2.12 und höher automatisch aktiviert, wenn der Dateicache aktiviert ist. Bei parallelen Downloads werden mehrere Worker verwendet, um eine Datei parallel herunterzuladen. Dabei wird das Dateicache-Verzeichnis als Prefetch-Puffer verwendet. Dies kann zu einer bis zu neunmal schnelleren Ladezeit des Modells führen. Wir empfehlen, parallele Downloads für Szenarien mit nur einem Lese-Thread zu verwenden, bei denen große Dateien geladen werden, z. B. bei der Modellbereitstellung und beim Wiederherstellen von Checkpoints.
Vorhandene Kapazität nutzen: Beim Datei-Caching kann die vorhandene bereitgestellte Maschinenkapazität für das Cache-Verzeichnis verwendet werden, ohne dass zusätzlicher Speicher in Rechnung gestellt wird. Hierzu gehören lokale SSDs, die im Lieferumfang von Cloud GPU-Maschinentypen enthalten sind, z. B. a2-ultragpu und a3-highgpu, Persistent Disk (also das Bootlaufwerk, das von jeder VM verwendet wird) oder In-Memory-/tmpfs.
Reduzierte Gebühren: Cache-Treffer werden lokal bereitgestellt und es fallen keine Cloud Storage-Vorgangs- oder Netzwerkgebühren an.
Verbesserte Gesamtbetriebskosten für KI- und ML-Training: Datei-Caching erhöht die Cloud-GPUs und die Cloud TPU-Auslastung, da Daten schneller geladen werden, was die Trainingszeit verkürzt und ein höheres Preis-Leistungs-Verhältnis für KI- und ML-Trainingsarbeitslasten bietet.

Parallele Downloads

Parallele Downloads können die Leseleistung verbessern, indem mehrere Worker verwendet werden, um mehrere Teile einer Datei parallel herunterzuladen. Dabei wird das Dateicache-Verzeichnis als Prefetch-Puffer verwendet. Wir empfehlen parallele Downloads für Leseszenarien, bei denen große Dateien geladen werden, z. B. bei der Modellbereitstellung, beim Wiederherstellen von Checkpoints und beim Training mit großen Objekten.

Anwendungsfälle für das Aktivieren des Datei-Cachings mit parallelen Downloads:

Art des Anwendungsfalls Beschreibung

Training

Art des Anwendungsfalls	Beschreibung
Training	Aktivieren Sie das Dateicaching, wenn auf die Daten, auf die Sie zugreifen möchten, mehrmals zugegriffen wird, entweder auf dieselbe Datei mehrmals oder auf verschiedene Offsets derselben Datei. Wenn der Datensatz größer als der Datei-Cache ist, sollte der Datei-Cache deaktiviert bleiben. Verwenden Sie stattdessen eine der folgenden Methoden: Option `--file-cache-cache-file-for-range-read` `gcsfuse` `file-cache:cache-file-for-range-read`-Konfigurationsdateifeld
Bereitstellung von Modellgewichten und Lesen von Prüfpunkten	Aktivieren Sie das Datei-Caching mit parallelen Downloads, um parallele Downloads nutzen zu können. Dadurch werden große Dateien viel schneller geladen als ohne Datei-Caching und parallele Downloads.

Aktivieren Sie das Dateicaching, wenn auf die Daten, auf die Sie zugreifen möchten, mehrmals zugegriffen wird, entweder auf dieselbe Datei mehrmals oder auf verschiedene Offsets derselben Datei. Wenn der Datensatz größer als der Datei-Cache ist, sollte der Datei-Cache deaktiviert bleiben. Verwenden Sie stattdessen eine der folgenden Methoden:

Bereitstellung von Modellgewichten und Lesen von Prüfpunkten Aktivieren Sie das Datei-Caching mit parallelen Downloads, um parallele Downloads nutzen zu können. Dadurch werden große Dateien viel schneller geladen als ohne Datei-Caching und parallele Downloads.

Hinweise

Gültigkeitsdauer (TTL) des Datei-Cache: Wenn ein Datei-Cache-Eintrag noch nicht anhand seiner TTL abgelaufen ist und sich die Datei im Cache befindet, werden Lesevorgänge für diese Datei aus dem lokalen Client-Cache bereitgestellt, ohne dass eine Anfrage an Cloud Storage gesendet wird.
Ablauf von Datei-Cache-Einträgen: Wenn ein Datei-Cache-Eintrag abgelaufen ist, wird zuerst ein GET-Dateiattributaufruf an Cloud Storage gesendet. Wenn die Datei fehlt oder sich ihre Attribute oder Inhalte geändert haben, werden die neuen Inhalte abgerufen. Wenn die Attribute nur ungültig gemacht wurden, der Inhalt aber weiterhin gültig ist, d. h., die Objektgenerierung sich nicht geändert hat, wird der Inhalt erst dann aus dem Cache bereitgestellt, wenn durch den Attributaufruf seine Gültigkeit bestätigt wird. Beide Vorgänge unterliegen Netzwerklatenzen.
Ungültigmachen des Dateicache: Wenn ein Cloud Storage FUSE-Client eine im Cache gespeicherte Datei oder ihre Attribute ändert, wird der Cache-Eintrag dieses Clients zur Gewährleistung der Konsistenz sofort ungültig gemacht. Andere Clients, die auf dieselbe Datei zugreifen, lesen jedoch weiterhin ihre im Cache gespeicherten Versionen, bis ihre individuellen TTL-Einstellungen eine Ungültigkeit verursachen.
Dateigröße und verfügbare Kapazität: Die gelesene Datei muss in die verfügbare Kapazität des Dateicache-Verzeichnisses passen, das Sie entweder mit der Option --file-cache-max-size-mb oder mit dem Feld file-cache:max-size-mb steuern können. Sie können keine maximale Größe pro Datei festlegen.
Cache-Entfernung: Das Entfernen von im Cache gespeicherten Metadaten und Daten basiert auf einem LRU-Algorithmus (Least Recently Used, am weitesten in der Vergangenheit verwendet), der beginnt, sobald der pro --file-cache-max-size-mb-Limit konfigurierte Speicherplatzgrenzwert erreicht ist. Wenn der Eintrag basierend auf seiner TTL abläuft, wird zuerst ein GET-Metadatenaufruf an Cloud Storage ausgeführt, der Netzwerklatenzen unterliegt. Da die Daten und Metadaten separat verwaltet werden, kann es sein, dass eine Entität entfernt oder ungültig wird und die andere nicht.
Cache-Persistenz: Cloud Storage FUSE-Caches werden beim Trennen und Neustart nicht beibehalten. Beim Dateicaching werden die Metadateneinträge, die zum Bereitstellen von Dateien aus dem Cache erforderlich sind, beim Unmounten und Neustarten entfernt. Daten im Dateicache sind jedoch möglicherweise weiterhin im Dateiverzeichnis vorhanden. Wir empfehlen, Daten im Dateicacheverzeichnis nach dem Aushängen oder Neustarten zu löschen.
Verwaltung von zufälligen und teilweisen Lesevorgängen: Wenn der erste Dateilesevorgang am Anfang der Datei (dem Offset 0) beginnt, nimmt der Cloud Storage FUSE-Dateicache die gesamte Datei auf und lädt sie in den Cache, auch wenn Sie nur aus einer kleinen Bereichsuntergruppe lesen. Dadurch können nachfolgende zufällige oder partielle Lesevorgänge aus demselben Objekt direkt aus dem Cache bereitgestellt werden.

Standardmäßig wird durch das Lesen von einem anderen Offset kein asynchroner vollständiger Dateiabruf ausgelöst. Um dieses Verhalten zu ändern, sodass Cloud Storage FUSE bei einem ersten zufälligen Lesevorgang eine Datei in den Cache aufnimmt, setzen Sie entweder die Option --file-cache-cache-file-for-range-read oder das Feld file-cache:cache-file-for-range-read auf true.

Wir empfehlen, diese Property zu aktivieren, wenn viele verschiedene zufällige oder partielle Lesevorgänge für dasselbe Objekt ausgeführt werden.
Datensicherheit: Wenn Sie das Caching aktivieren, verwendet Cloud Storage FUSE das Cache-Verzeichnis, das Sie entweder mit der Option --cache-dir oder dem Feld cache-dir angegeben haben, als zugrunde liegendes Verzeichnis für den Cache, um Dateien aus Ihrem Cloud Storage-Bucket in einem verschlüsselten Format zu speichern. Jeder Nutzer oder Prozess, der Zugriff auf dieses Cache-Verzeichnis hat, kann auf diese Dateien zugreifen. Wir empfehlen, den Zugriff auf dieses Verzeichnis einzuschränken.
Direkter oder Mehrfachzugriff auf den Dateicache: Die Verwendung eines anderen Prozesses als Cloud Storage FUSE für den Zugriff auf oder die Änderung einer Datei im Cache-Verzeichnis kann zu Datenbeschädigungen führen. Cloud Storage FUSE-Caches sind für jeden ausgeführten Cloud Storage FUSE-Prozess spezifisch, ohne Kenntnis der verschiedenen Cloud Storage FUSE-Prozesse, die auf demselben oder verschiedenen Computern ausgeführt werden. Daher empfehlen wir, nicht dasselbe Cache-Verzeichnis für verschiedene Cloud Storage FUSE-Prozesse zu verwenden.
Mehrere Cloud Storage FUSE-Prozesse auf demselben Computer ausführen: Wenn mehrere Cloud Storage FUSE-Prozesse auf demselben Computer ausgeführt werden müssen, sollte jeder Cloud Storage FUSE-Prozess ein eigenes spezifisches Cache-Verzeichnis erhalten oder eine der folgenden Methoden verwenden, um sicherzustellen, dass Ihre Daten nicht beschädigt werden:
- Alle Buckets mit einem freigegebenen Cache bereitstellen: Verwenden Sie die dynamische Bereitstellung, um alle Buckets, auf die Sie Zugriff haben, in einem einzigen Prozess mit einem freigegebenen Cache bereitzustellen. Weitere Informationen finden Sie unter Dynamische Bereitstellung von Cloud Storage FUSE.
- Caching für einen bestimmten Bucket aktivieren: Sie können das Caching nur für einen bestimmten Bucket mithilfe der statischen Bereitstellung aktivieren. Weitere Informationen finden Sie unter Statische Bereitstellung von Cloud Storage FUSE.
- Nur einen bestimmten Ordner oder ein bestimmtes Verzeichnis im Cache speichern: Sie können nur einen bestimmten Ordner auf Bucket-Ebene bereitstellen und im Cache speichern, anstatt einen ganzen Bucket bereitzustellen. Weitere Informationen finden Sie unter Verzeichnis in einem Bucket bereitstellen.

Hinweis

Der Dateicache erfordert einen Verzeichnispfad, um Dateien im Cache zu speichern. Sie können ein neues Verzeichnis in einem vorhandenen Dateisystem erstellen oder ein neues Dateisystem im bereitgestellten Speicher erstellen. Wenn Sie neuen Speicher zur Verwendung bereitstellen, erstellen Sie mit der folgenden Anleitung ein neues Dateisystem:

Informationen zu Google Cloud Hyperdisk finden Sie unter Neues Google Cloud Hyperdisk-Volume erstellen.
Informationen zu Persistent Disk finden Sie unter Neues Persistent Disk-Volume erstellen.
Informationen zu lokalen SSDs finden Sie unter Lokale SSD zu VM hinzufügen.
Informationen zu speicherinternen RAM-Disks finden Sie unter Speicherinterne RAM-Disks erstellen.

Dateicaching-Verhalten aktivieren und konfigurieren

Wählen Sie eine der folgenden Methoden aus, um das Dateicaching zu aktivieren und zu konfigurieren:
- Geben Sie ihn als Wert für eine gcsfuse-Option an.
- Geben Sie sie in einer Cloud Storage FUSE-Konfigurationsdatei an.
Hinweis :Sie können auch Beispielkonfigurationen verwenden, um das Dateicaching zu aktivieren und zu konfigurieren. Weitere Informationen finden Sie unter Beispielkonfiguration zum Aktivieren des Dateicachings und paralleler Downloads.
Geben Sie das Cache-Verzeichnis an, das Sie verwenden möchten, indem Sie eine der folgenden Methoden verwenden. So können Sie den Datei-Cache für Bereitstellungen aktivieren, die nicht in Google Kubernetes Engine erfolgen:
- Option gcsfuse: --cache-dir
- Feld in der Konfigurationsdatei: cache-dir
Wenn Sie eine Google Kubernetes Engine-Bereitstellung mit dem Cloud Storage FUSE-CSI-Treiber für Google Kubernetes Engine verwenden, geben Sie eine der folgenden Methoden an:
- Option gcsfuse: --file-cache-max-size-mb
- Feld in der Konfigurationsdatei: file-cache:max-size-mb
Hinweis :Weitere Informationen zum Aktivieren des Datei-Cachings in Google Kubernetes Engine finden Sie unter Datei-Caching aktivieren und verwenden.
Optional: Aktivieren Sie parallele Downloads, indem Sie eine der folgenden Methoden auf true setzen, wenn parallele Downloads nicht automatisch aktiviert wurden:
- Option gcsfuse: --file-cache-enable-parallel-downloads
- Feld in der Konfigurationsdatei: file-cache:enable-parallel-downloads
Sie können die Gesamtkapazität begrenzen, die der Cloud Storage FUSE-Cache in seinem bereitgestellten Verzeichnis verwenden kann, indem Sie eine der folgenden Optionen anpassen, die automatisch auf den Wert -1 festgelegt wird, wenn Sie ein Cache-Verzeichnis angeben:
- Option gcsfuse: --file-cache-max-size-mb
- Feld in der Konfigurationsdatei: file-cache:max-size-mb
Sie können auch einen Wert in MiB oder GiB angeben, um die Cachegröße zu begrenzen.

Hinweis :Wenn Sie Compute Engine-VMs wie eigenständige Cloud Storage FUSE- oder nicht auf der Google Kubernetes Engine basierende Bereitstellungen verwenden, wird die Option --file-cache-max-size-mb oder das Feld file-cache:max-size-mb automatisch aktiviert und auf -1 festgelegt, wenn Sie cache-dir aktivieren.
Optional: Umgehen Sie den TTL-Ablauf von Cache-Einträgen und stellen Sie Dateimetadaten aus dem Cache bereit, sofern verfügbar. Verwenden Sie dazu eine der folgenden Methoden und legen Sie den Wert -1 fest:
- Option gcsfuse: --metadata-cache-ttl-secs
- Feld in der Konfigurationsdatei: metadata-cache:ttl-secs
Der Standardwert ist 60 Sekunden. Mit dem Wert -1 wird die Zeit auf unbegrenzt festgelegt. Sie können auch einen hohen Wert angeben, der Ihren Anforderungen entspricht. Wir empfehlen, den Wert ttl-secs so hoch wie möglich für Ihre Arbeitslast festzulegen. Weitere Informationen zur TTL für im Cache gespeicherte Einträge finden Sie unter Überlegungen.
Optional: Aktivieren Sie die Möglichkeit des Dateicaches, die gesamte Datei asynchron in den Cache zu laden, wenn der erste Lesevorgang der Datei an einer anderen Stelle als offset 0 beginnt, damit nachfolgende Lesevorgänge verschiedener Offsets aus derselben Datei auch aus dem Cache bereitgestellt werden können. Wenden Sie eine der folgenden Methoden an und legen Sie die Option auf true fest:
- Option gcsfuse: --file-cache-cache-file-for-range-read
- Feld in der Konfigurationsdatei: file-cache:cache-file-for-range-read
Optional: Statistik-Caching konfigurieren. Weitere Informationen zum Statistik-Cache finden Sie unter Übersicht über das Statistik-Caching.
Führen Sie den Befehl ls -R in Ihrem bereitgestellten Bucket manuell aus, bevor Sie die Arbeitslast ausführen, um Metadaten vorab auszufüllen. So wird sichergestellt, dass der Statistik-Cache vor dem ersten Lesevorgang mit einer schnelleren Batchmethode gefüllt wird. Weitere Informationen zur Verbesserung der Leseleistung beim ersten Mal finden Sie unter Leseleistung beim ersten Mal verbessern.

Wenn Sie das Datei-Caching aktivieren, werden parallele Downloads in Cloud Storage FUSE-Versionen 2.12 und höher automatisch aktiviert. Wenn Sie eine ältere Version von Cloud Storage FUSE verwenden, legen Sie die Option enable-parallel-downloads auf true fest, um parallele Downloads zu aktivieren.

Unterstützende Eigenschaften für parallele Downloads konfigurieren

Sie können die folgenden unterstützenden Eigenschaften für parallele Downloads optional mit der Cloud Storage FUSE-Befehlszeile oder einer Cloud Storage FUSE-Konfigurationsdatei konfigurieren:

Beschreibung des Attributs	`gcsfuse`-Option	Feld der Konfigurationsdatei
Die maximale Anzahl von Workern, die pro Datei erstellt werden können, um das Objekt aus Cloud Storage in den Dateicache herunterzuladen.	`--file-cache-parallel-downloads-per-file`	`file-cache:parallel-downloads-per-file`
Die maximale Anzahl von Workern, die jederzeit für alle Dateidownloadjobs erstellt werden können. Die Standardeinstellung ist auf die doppelte Anzahl der CPU-Kerne auf Ihrer Maschine festgelegt. Wenn Sie kein Limit angeben möchten, geben Sie den Wert „-1“ ein.	`--file-cache-max-parallel-downloads`	`file-cache:max-parallel-downloads`
Die Größe jeder Leseanfrage in MiB, die jeder Worker an Cloud Storage sendet, wenn er das Objekt in den Dateicache herunterlädt. Beachten Sie, dass ein paralleler Download nur ausgelöst wird, wenn die gelesene Datei die angegebene Größe hat.	`--file-cache-download-chunk-size-mb`	`file-cache:download-chunk-size-mb`

Parallele Downloads deaktivieren

Wenn Sie parallele Downloads deaktivieren möchten, legen Sie einen der folgenden Werte auf false fest:

Option gcsfuse: --file-cache-enable-parallel-downloads
Feld in der Konfigurationsdatei: file-cache:enable-parallel-downloads

Cachefähigkeit auf Dateiebene mit regulären Ausdrücken steuern

Standardmäßig werden alle gelesenen Dateien im Cache gespeichert. Mit den optionalen Feldern include-regex und exclude-regex in der file-cache-Konfiguration können Sie steuern, welche Dateien auf Dateiebene im Cache gespeichert werden. In diesen Feldern können Sie reguläre Ausdrücke angeben, die mit Dateipfaden im Format bucket_name/object_key übereinstimmen.

Bestimmte Dateien für das Caching einbeziehen

Wenn Sie nur Dateien im Cache speichern möchten, die einem bestimmten Muster entsprechen, verwenden Sie die Option include-regex. Alle Dateien, die nicht mit diesem regulären Ausdruck übereinstimmen, werden nicht im Cache gespeichert. Wenn Sie beispielsweise nur .tfrecord-Dateien aus Ihrem Trainingsdatensatz im Cache speichern möchten, geben Sie Folgendes in Ihrer Konfigurationsdatei an:

file-cache:
  include-regex: ".*\\.tfrecord$"

Alternativ können Sie das Flag --file-cache-include-regex verwenden:

gcsfuse --file-cache-include-regex ".*\\.(tfrecord)$" ..

Bestimmte Dateien vom Caching ausschließen

Wenn Sie verhindern möchten, dass bestimmte Dateien im Cache gespeichert werden, verwenden Sie die Option exclude-regex. Alle Dateien, die mit diesem regulären Ausdruck übereinstimmen, werden nicht im Cache gespeichert. Wenn Sie beispielsweise alle Dateien in einem Verzeichnis mit dem Namen logs/ ausschließen möchten, geben Sie Folgendes in Ihrer Konfigurationsdatei an:

file-cache:
  exclude-regex: ".*/logs/.*"

Alternativ können Sie das Flag --file-cache-exclude-regex verwenden:

gcsfuse --file-cache-exclude-regex ".*/logs/.*" ..

Einschluss- und Ausschlussregeln zusammen verwenden

Sie können sowohl include-regex als auch exclude-regex gleichzeitig verwenden. Die Regel mit der Priorität exclude-regex wird immer zuerst ausgewertet. Wenn eine Datei mit exclude-regex übereinstimmt, wird sie nicht im Cache gespeichert, auch wenn sie auch mit include-regex übereinstimmt. Wenn Sie beispielsweise alle .tfrecord-Dateien mit Ausnahme der Dateien im output/-Verzeichnis im Cache speichern möchten, geben Sie Folgendes in Ihrer Konfigurationsdatei an:

file-cache:
  include-regex: ".*\\.tfrecord$"
  exclude-regex: ".*/output/.*"

Oder verwenden Sie beide Flags:

gcsfuse --file-cache-include-regex ".*\\.tfrecord$" --file-cache-exclude-regex ".*/output/.*" ..