Présentation de la mise en cache dans Cloud Storage FUSE

Ce document fournit des informations détaillées sur les options de mise en cache disponibles pour Cloud Storage FUSE et sur la façon de configurer chaque type de cache.

Pour améliorer les performances de récupération des données, Cloud Storage FUSE propose quatre types de mise en cache facultatifs. Consultez le tableau suivant pour en savoir plus sur chaque type de mise en cache :

Type de mise en cache Description
Mise en cache des fichiers

Accélère les lectures de données de fichiers pour les charges de travail à forte intensité de lecture qui accèdent de manière répétitive aux données, en particulier l'entraînement de l'intelligence artificielle et du machine learning, où les mêmes fichiers volumineux sont lus plusieurs fois, ce qui réduit considérablement la latence.

Mise en cache des listes

Accélère les opérations de listage de répertoires pour les charges de travail qui listent fréquemment l'intégralité du contenu d'un répertoire, par exemple en itérant sur un grand ensemble de fichiers au début d'un job de traitement, ce qui améliore la vitesse de parcours des répertoires.

Mise en cache de statistiques

Accélère les opérations sur les métadonnées de fichiers pour les applications qui vérifient fréquemment les attributs de fichiers, ce qui est courant pour de nombreuses applications qui vérifient à plusieurs reprises si un fichier a été modifié, ce qui réduit le nombre d'appels `GetMetadata` pour Cloud Storage.

Mise en cache de types

Accélère les vérifications de l'existence de fichiers ou de répertoires pour les charges de travail qui effectuent de nombreuses vérifications d'existence ou recherches de chemins d'accès, ce qui améliore la latence en réduisant le nombre de requêtes adressées à Cloud Storage pour vérifier si un chemin d'accès existe.

Remarques

  • L'activation de la mise en cache peut améliorer les performances, mais réduire la cohérence. Cela se produit généralement lorsque vous accédez au même bucket à l'aide de plusieurs clients avec un taux de modification élevé. Pour réduire l'impact sur la cohérence, nous vous recommandons de monter les buckets en lecture seule. Pour en savoir plus sur le comportement de la mise en cache, consultez la section Sémantique de Cloud Storage FUSE dans la documentation GitHub de Cloud Storage FUSE.

  • Pour éviter le thrashing du cache, assurez-vous que l'intégralité de votre ensemble de données est adaptée à la capacité de cache. Tenez également compte de la capacité et des performances maximales que votre support de cache peut fournir. Si vous atteignez les performances maximales, la limite de capacité ou les deux, il est avantageux de lire directement depuis Cloud Storage, qui présente des limites beaucoup plus élevées que Cloud Storage FUSE.

Chemin de lecture des données mises en cache

Le cache Cloud Storage FUSE accélère les lectures répétées une fois qu'elles ont été ingérées dans le cache. Les premières lectures et les échecs de cache sont directement envoyés à Cloud Storage et sont soumis aux latences réseau normales de Cloud Storage. Pour améliorer les performances de la première lecture, consultez Préremplir le cache de métadonnées.

Étapes suivantes