Options de stockage pour les données Cloud TPU
Ce document décrit les options de stockage de données que vous pouvez utiliser pour entraîner des modèles sur Cloud TPU.
Introduction
Cloud TPU nécessite de stocker des données pour les opérations suivantes :
- Téléchargement et prétraitement des ensembles de données
- Traitement du pipeline d'entrée de l'hôte
- Entrées pour l'entraînement de modèle
- Résultats de l'entraînement de modèle
Voici les options de stockage pour les données d'application et les ensembles de données d'entraînement TPU :
- Stockage de blocs durable, y compris pour le disque de démarrage et les disques de stockage associés
- Buckets Cloud Storage
- Cloud Storage FUSE
- Un partage de fichiers Filestore sur une VM TPU
- Partage de fichiers Managed Lustre
Pour en savoir plus sur la gestion du stockage, consultez les pages suivantes :
- Sélectionner un type de disque
- Configurer les disques pour répondre aux exigences de performances
- Tarifs des disques et des images
Stockage de blocs durable
Le stockage de blocs durable, également désigné par les termes disques ou volumes, est destiné aux données que vous souhaitez conserver après avoir arrêté, suspendu ou supprimé votre VM TPU. Le stockage de blocs durable reste disponible même en cas de plantage ou de défaillance de votre VM TPU. Vous pouvez utiliser le disque de démarrage de la VM TPU ou associer un stockage de blocs supplémentaire à votre TPU.
Vous pouvez associer un disque supplémentaire dans les cas suivants :
- La taille de votre ensemble de données d'entraînement dépasse celle du disque de démarrage du TPU.
- Vous disposez de données en lecture seule et souhaitez bénéficier d'un accès en lecture plus rapide en utilisant un volume Hyperdisk ML.
Génération de TPU et types de disques compatibles
Le tableau suivant indique les types de disques compatibles avec chaque génération de TPU :
| Génération de TPU | Types de disques compatibles |
|---|---|
| TPU7x | Hyperdisk Balanced, Hyperdisk ML |
| TPU v6e | Hyperdisk Balanced, Hyperdisk ML |
| TPU v5p | Disque persistant avec équilibrage, Hyperdisk ML |
| TPU v5e | Disque persistant avec équilibrage, Hyperdisk ML |
Disque de démarrage de la VM TPU
Par défaut, chaque VM TPU dispose d'un unique disque de démarrage de 10 Go. Lorsque vous créez vos VM, vous pouvez configurer un disque de démarrage plus grand. Pour en savoir plus, consultez Créer un disque de démarrage personnalisé. Le disque de démarrage contient le système d'exploitation, les pilotes TPU et les bibliothèques. Le disque de démarrage peut également stocker temporairement des ensembles de données téléchargés à des fins de prétraitement, ainsi que des données d'entrée et de sortie de modèle, à condition que la taille totale des données ne dépasse pas l'espace disponible sur le disque de démarrage.
Si votre application nécessite plus d'espace de stockage que ce qu'offre par défaut le disque de démarrage, vous pouvez ajouter un ou plusieurs disques durables à votre instance de VM TPU. Pour en savoir plus, consultez les pages suivantes :
- Ajouter un disque persistant à votre VM
- Ajouter un Google Cloud Hyperdisk
- Modifier des hyperdisques
- Redimensionner un disque persistant
Stockage associé
Hyperdisk et Persistent Disk sont des dispositifs de stockage réseau durables auxquels vos instances de VM peuvent accéder comme s'il s'agissait de disques physiques sur un ordinateur ou un serveur. Les deux types de disques sont créés indépendamment de vos instances de VM. Vous pouvez donc conserver vos données même après avoir supprimé votre VM.
Si vous utilisez Hyperdisk plutôt que Persistent Disk, vous avez la possibilité de personnaliser les performances et bénéficiez de limites d'IOPS et de débit plus élevées. Pour en savoir plus sur Hyperdisk et Persistent Disk, consultez Choisir un type de disque.
Lorsque vous associez un disque à un MIG avec une tranche de VM TPU multi-hôte, le système associe le disque à chaque VM de cette tranche de TPU. Pour empêcher deux VM TPU ou plus d'écrire sur un disque en même temps, vous devez configurer tous les disques que vous associez à une tranche de TPU multi-hôte en lecture seule. Les disques en lecture seule sont utiles pour stocker un ensemble de données à traiter sur une tranche de TPU. Étant donné qu'Hyperdisk Balanced n'est pas compatible avec le mode lecture seule, vous ne pouvez associer un volume Hyperdisk Balanced qu'à une seule instance de VM TPU.
Pour en savoir plus sur l'utilisation du stockage de blocs durable, consultez Ajouter un disque persistant à votre VM et Ajouter un disque Hyperdisk.
Sauvegardes de disque
Il peut être difficile de récupérer les données du disque de démarrage si la VM TPU est bloquée dans un état "inconnu" ou de récupérer des données supprimées. Sauvegardez vos données à l'aide d'une autre option de stockage, par exemple des buckets Cloud Storage.
Si vous stockez des données sur un disque associé, vous pouvez utiliser des instantanés de disque, qui sauvegardent les données d'un disque de manière incrémentielle. Le disque de démarrage de la VM TPU n'est pas compatible avec les instantanés de disque. Pour en savoir plus, consultez À propos des instantanés de disque.
Buckets Cloud Storage
Les buckets Cloud Storage sont des options de stockage flexibles, évolutives et durables pour vos instances de VM. Si votre tâche d'entraînement ne nécessite pas la latence réduite qu'offre le stockage de blocs durable, vous pouvez stocker votre ensemble de données dans un bucket Cloud Storage.
Les performances des buckets Cloud Storage dépendent de la classe de stockage que vous sélectionnez et de l'emplacement où se situe le bucket par rapport à votre instance.
Le fait de créer votre bucket Cloud Storage dans la même zone que votre VM TPU permet de bénéficier de performances comparables à celles du stockage de blocs durable, mais avec une latence plus élevée et des caractéristiques de débit moins constantes.
Tous les buckets Cloud Storage sont dotés d'une fonction de redondance intégrée qui protège vos données contre les pannes de matériel et permet d'assurer leur disponibilité lors des événements de maintenance du centre de données. Cloud Storage calcule des sommes de contrôle pour toutes les opérations afin de s'assurer que les données lues sont bien identiques à celles qui ont été écrites.
Contrairement au stockage de blocs durable, les buckets Cloud Storage ne vous limitent pas à la zone dans laquelle se situe votre instance. Vous pouvez également lire et écrire des données dans un bucket à partir de plusieurs instances simultanément. Par exemple, vous pouvez configurer des instances dans plusieurs zones pour lire et écrire des données dans le même bucket au lieu de répliquer les données sur un stockage de blocs durable dans plusieurs zones.
Pour en savoir plus, consultez Se connecter aux buckets Cloud Storage.
Cloud Storage FUSE
Cloud Storage FUSE vous permet d'installer des buckets Cloud Storage et d'y accéder comme s'il s'agissait de systèmes de fichiers locaux. Cela permet aux applications de lire et d'écrire des objets dans votre bucket à l'aide d'une sémantique standard de système de fichiers.
Pour en savoir plus sur le fonctionnement de Cloud Storage FUSE et sur la correspondance entre les opérations Cloud Storage FUSE et les opérations Cloud Storage, consultez la documentation FUSE de Cloud Storage. Vous trouverez des informations supplémentaires sur l'utilisation de Cloud Storage FUSE sur GitHub, par exemple pour ce qui concerne l'installation de la CLI Cloud Storage FUSE et l'installation de buckets.
Partage de fichiers Filestore
Un partage de fichiers Filestore est un stockage en réseau (NAS) entièrement géré pour Compute Engine. Filestore offre une compatibilité avec les applications d'entreprise existantes et prend en charge tous les clients compatibles avec NFSv3.
Filestore offre une latence faible pour les opérations de fichiers. Pour les charges de travail sensibles à la latence, Filestore accepte des capacités allant jusqu'à 100 Tio, des débits de 25 Gio/s et 720 000 IOPS, avec une variabilité minimale des performances.
Filestore vous permet d'installer des partages de fichiers sur des VM TPU.
Partage de fichiers Managed Lustre
Managed Lustre est un système de fichiers parallèle entièrement géré pour les charges de travail d'IA et de HPC gourmandes en données. Il offre des performances élevées, une capacité de plusieurs pétaoctets et une conformité POSIX.
Managed Lustre vous permet d'installer des partages de fichiers sur des VM TPU. Il est particulièrement utile pour gérer les grands ensembles de données et les exigences de haut débit des charges de travail de machine learning, ce qui permet un entraînement et une inférence efficaces.
Pour en savoir plus, consultez la documentation Managed Lustre.
Étapes suivantes
- Découvrez comment ajouter un disque persistant à votre VM.
- Découvrez comment ajouter un Google Cloud Hyperdisk à votre VM.
- Découvrez comment connecter votre instance à un bucket Cloud Storage.
- Découvrez comment installer un partage de fichiers Filestore.