Ce document décrit les opérations Storage par lot, une fonctionnalité Cloud Storage qui vous permet d'effectuer des opérations sur des milliards d'objets de manière serverless. Grâce aux opérations par lot de stockage, vous pouvez automatiser les opérations d'API à grande échelle sur des milliards d'objets, ce qui réduit le temps de développement nécessaire pour écrire et gérer des scripts pour chaque requête.
Pour savoir comment créer des jobs d'opérations par lot de stockage, consultez Créer et gérer des jobs d'opérations par lot de stockage.
Présentation
Les opérations par lot Storage vous permettent d'exécuter l'une des quatre transformations suivantes sur plusieurs objets à la fois : placer une obligation de conservation sur un objet, supprimer un objet, mettre à jour les métadonnées d'un objet et réécrire des objets. Pour utiliser les opérations par lot de stockage, vous devez créer une configuration de job qui définit les transformations à appliquer aux objets.
La création d'une opération par lot renvoie une opération de longue durée (OLD) qui indique l'état de votre requête : si la transformation a été appliquée à tous les objets spécifiés dans votre requête.
Avantages
- Évolutivité : effectuez des transformations sur des millions d'objets avec un seul job d'opérations de stockage par lot.
- Exécution sans serveur : exécutez des jobs par lot dans un environnement sans serveur, ce qui élimine la nécessité de gérer l'infrastructure.
- Automatisation : automatisez les tâches complexes et répétitives pour améliorer l'efficacité opérationnelle.
- Réduire le temps de développement : évitez d'écrire et de gérer des scripts personnalisés complexes.
- Performances : effectuez les opérations urgentes dans le délai requis. Si plusieurs jobs par lot s'exécutent simultanément sur un bucket, vous pouvez traiter jusqu'à un milliard d'objets en trois heures.
- Nouvelles tentatives automatiques : nouvelles tentatives automatiques pour les opérations ayant échoué.
- Surveillance des jobs : suivi détaillé de la progression pour surveiller l'état et l'achèvement de tous les jobs.
Cas d'utilisation
Lorsqu'elles sont utilisées avec les ensembles de données Storage Insights, les opérations de stockage par lot vous permettent d'effectuer les tâches suivantes :
Gestion de la sécurité :
- Définissez des clés de chiffrement sur plusieurs objets à l'aide de la méthode rewrite object.
- Appliquez ou supprimez des obligations de conservation d'objets pour contrôler leur immuabilité.
Conformité :
- Utilisez des mesures conservatoires d'objets pour répondre aux exigences de conservation des données liées à la conformité réglementaire.
- Définissez des configurations de conservation des objets pour gérer les cycles de vie des données et les règles de conformité.
- Supprimez les données entre des périodes spécifiques pour répondre aux exigences de conformité en matière d'effacement.
Transformation des données : effectuez des mises à jour groupées des métadonnées des objets.
Optimisation des coûts : supprimez des objets par lot dans les buckets Cloud Storage pour réduire les coûts de stockage.
Configurations de tâches
Pour créer un job d'opérations de stockage par lot, vous devez définir les configurations de job suivantes. Les configurations de job sont des paramètres qui contrôlent la façon dont le job est défini pour différentes exigences de traitement.
Nom du job : nom unique permettant d'identifier le job d'opérations par lot Storage. Il est utilisé pour suivre, surveiller et référencer le job. Les noms de tâches sont alphanumériques, par exemple
job-01.Description du job (facultatif) : brève description de l'objectif du job. Cela permet de comprendre et de documenter les détails du job. Par exemple,
Deletes all objects in a bucket.Nom du bucket : nom du bucket de stockage contenant les objets à traiter. C'est essentiel pour localiser les données d'entrée. Par exemple,
my-bucket. Vous ne pouvez spécifier qu'un seul nom de bucket par job.Sélection d'objets : critères de sélection qui définissent les objets à traiter. Vous pouvez spécifier les critères à l'aide de l'une des options suivantes :
Fichier manifeste : créez un fichier manifeste et spécifiez son emplacement lorsque vous créez le job d'opérations de stockage par lot. Le fichier manifeste est un fichier CSV importé dans Google Cloud. Il contient un ou plusieurs objets que vous souhaitez traiter. Chaque ligne du fichier manifeste doit inclure le
bucketet le nom (name) de l'objet. Vous pouvez éventuellement spécifier lagenerationde l'objet. Si vous ne spécifiez pas lageneration, la version actuelle de l'objet est utilisée.Le fichier doit inclure une ligne d'en-tête au format suivant :
bucket,name,generationVoici un exemple de fichier manifeste :
bucket,name,generation bucket_1,object_1,generation_1 bucket_1,object_2,generation_2 bucket_1,object_3,generation_3
Vous pouvez également créer un fichier manifeste à l'aide des ensembles de données Storage Insights. Pour en savoir plus, consultez Créer un fichier manifeste à l'aide des ensembles de données Storage Insights.
Préfixes d'objet : spécifiez une liste de préfixes pour filtrer les objets dans le bucket. Seuls les objets ayant ces préfixes sont traités. Si ce champ est vide, tous les objets du bucket sont traités.
Type de job : les opérations de stockage par lot sont compatibles avec les types de jobs suivants, qui exécutent un seul job par opération par lot.
Suppression d'objets : vous pouvez supprimer des objets dans un bucket. C'est essentiel pour optimiser les coûts, gérer le cycle de vie des données et respecter les règles de suppression des données.
Mises à jour des métadonnées : vous pouvez modifier les métadonnées d'objet suivantes :
Métadonnées personnalisées : vous pouvez mettre à jour toutes les paires clé/valeur définies par l'utilisateur et associées à l'objet.
Métadonnées fixes : vous pouvez mettre à jour
Cache-Control,Content-Disposition,Content-Encoding,Content-Language,Content-Type,Custom-TimeetRetention configuration. Pour modifier les préservations à titre conservatoire des objets, utilisez le type de jobobject hold.
Mises à jour des obligations de conservation d'objets : vous pouvez activer ou désactiver les obligations de conservation d'objets. Les préservations d'objets empêchent la suppression ou la modification d'objets, ce qui est essentiel pour la conformité et la conservation des données.
Mises à jour des clés de chiffrement des objets : vous pouvez gérer les clés de chiffrement gérées par le client pour un ou plusieurs objets. Cela inclut l'application ou la modification de clés de chiffrement à l'aide de la méthode rewrite object.
Mode dry run (facultatif) : vous pouvez créer un job d'opérations par lot Storage en mode dry run pour comprendre le champ d'application et le résultat de votre opération sans modifier vos objets. Une simulation simule l'opération, mais n'effectue aucune transformation. Elle vous aide à valider la configuration de votre job avant de l'exécuter. Le résultat de la simulation fournit les informations suivantes :
Nombre d'objets qui seront affectés.
les éventuelles erreurs qui pourraient se produire.
Si vous utilisez des préfixes d'objet pour sélectionner des objets, la sortie inclut également la taille totale des objets qui seront concernés.
Tarifs
Pour estimer les frais d'opération liés à l'exécution d'un job d'opérations par lot de stockage et pour vérifier les frais de listage d'objets pour un test à blanc, consultez les tarifs de Cloud Storage.
Une simulation vous permet de valider à l'avance la configuration de votre tâche d'opérations par lot de stockage, sans engendrer de coûts d'opération réels, bien qu'elle puisse entraîner des coûts de liste d'objets.
Limites
Les opérations de stockage par lot sont soumises aux limites suivantes :
La durée de vie maximale des jobs d'opérations de stockage par lot est de 14 jours. Toute tâche en cours qui n'est pas terminée dans les 14 jours suivant sa création est automatiquement annulée.
Lorsque vous spécifiez des préfixes d'objet pour une tâche, vous pouvez inclure un maximum de 1 000 préfixes.
Nous vous déconseillons d'exécuter plus de 20 jobs d'opérations par lot simultanément sur le même bucket.
Les opérations de stockage par lot ne sont pas compatibles avec les buckets suivants :
Buckets pour lesquels l'option Paiements du demandeur est activée.
Buckets situés dans la région
us-west8.