Sauvegarder un service Dataproc Metastore

Cette page explique comment créer une sauvegarde d'un service Dataproc Metastore.

Une sauvegarde prend un instantané de votre service, enregistre ses paramètres de configuration actuels et toutes les métadonnées stockées.

Une fois la sauvegarde créée, vous pouvez utiliser la fonctionnalité Restaurer à partir d'une sauvegarde pour remplir un nouveau service Dataproc Metastore avec les données enregistrées dans l'instantané.

Avant de commencer

Rôles requis

Pour obtenir les autorisations nécessaires pour sauvegarder un service Dataproc Metastore, demandez à votre administrateur de vous accorder les rôles IAM suivants :

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Ces rôles prédéfinis contiennent les autorisations requises pour sauvegarder un service Dataproc Metastore. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

Autorisations requises

Les autorisations suivantes sont requises pour sauvegarder un service Dataproc Metastore :

  • Pour sauvegarder un service de métadonnées : metastore.backups.create
  • Pour utiliser l'objet Cloud Storage :
    • orgpolicy.policy.get
    • resourcemanager.projects.get
    • resourcemanager.projects.list
    • storage.managedFolders.create
    • storage.managedFolders.delete
    • storage.managedFolders.get
    • storage.managedFolders.list
    • storage.multipartUploads.*
    • storage.objects.create
    • storage.objects.delete
    • storage.objects.get
    • storage.objects.list
    • storage.objects.restore
    • storage.objects.update

Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Pour en savoir plus sur les rôles et autorisations spécifiques de Dataproc Metastore, consultez la présentation d'IAM pour Dataproc Metastore.

Considérations concernant la sauvegarde

Avant d'exécuter une opération de sauvegarde, tenez compte des points suivants :

  • Pour chaque service Dataproc Metastore, vous pouvez créer et stocker jusqu'à sept sauvegardes à la fois. Si vous essayez de dépasser cette limite, le processus de sauvegarde échoue. Si vous souhaitez créer une autre sauvegarde, vous devez d'abord supprimer manuellement l'un de vos fichiers de sauvegarde stockés.
  • Lorsqu'une opération de sauvegarde est en cours d'exécution, vous ne pouvez pas mettre à jour votre service Dataproc Metastore. Par exemple, vous ne pouvez pas modifier les paramètres de configuration. Toutefois, vous pouvez toujours utiliser votre service pour des opérations normales, telles que l'accès aux métadonnées à partir de clusters Managed Service pour Apache Spark ou autogérés associés.
  • Vous pouvez créer des sauvegardes planifiées qui s'exécutent à différents intervalles Cron, par exemple tous les jours.

Créer une sauvegarde

Pour sauvegarder un service Dataproc Metastore, suivez les étapes décrites dans l'un des onglets suivants :

Console

  1. Dans la Google Cloud console, ouvrez la page Dataproc Metastore :

    Ouvrir Dataproc Metastore

  2. Sur la page Dataproc Metastore, cliquez sur le nom du service que vous souhaitez sauvegarder.

    La page Service detail (Informations sur le service) s'affiche.

    Page d'information sur le service
    Figure 1. Page d'informations sur le service Dataproc Metastore
  3. En haut de la page, cliquez sur Sauvegarder.

    La page Sauvegarde s'affiche.

  4. Saisissez le nom de la sauvegarde.

  5. (Facultatif) Saisissez une description de la sauvegarde.

  6. Pour démarrer l'opération de sauvegarde, cliquez sur Sauvegarder.

    Revenez à la page Dataproc Metastore et vérifiez que votre service a bien été sauvegardé.

    Une fois la sauvegarde terminée, Dataproc Metastore revient automatiquement à l'état actif, que l'opération ait réussi ou non.

Gcloud CLI

  1. Pour sauvegarder un service Dataproc Metastore, exécutez la commande suivante gcloud metastore services backups create :

    gcloud metastore services backups create BACKUP \
        --location=LOCATION \
        --service=SERVICE \
        --description=DESCRIPTION
    

    Remplacez les éléments suivants :

    • BACKUP: ID ou identifiant complet de la sauvegarde.
    • LOCATION :région dans laquelle réside votre service Dataproc Metastore. Google Cloud
    • SERVICE: nom de votre service Dataproc Metastore.
    • DESCRIPTION : description de votre sauvegarde.
  2. Vérifiez que votre service a bien été sauvegardé.

    Une fois la sauvegarde terminée, Dataproc Metastore revient automatiquement à l'état actif, que l'opération ait réussi ou non.

REST

Suivez les instructions de l'API pour sauvegarder les métadonnées d'un service à l'aide de l'APIs Explorer.

Une fois la sauvegarde terminée, Dataproc Metastore revient automatiquement à l'état actif, que l'opération ait réussi ou non.

Afficher l'historique des sauvegardes

Pour afficher l'historique des sauvegardes d'un service Dataproc Metastore dans la Google Cloud console, procédez comme suit :

  1. Dans la Google Cloud console, ouvrez la page Dataproc Metastore.
  2. Dans la barre de navigation, cliquez sur Backup/Restore (Sauvegarde/Restauration).

    L'historique de vos sauvegardes s'affiche dans un tableau sous Backups (Sauvegardes).

    L'historique affiche les sept dernières sauvegardes.

    La suppression d'un service Dataproc Metastore supprime également tout l'historique des sauvegardes associé.

Supprimer une sauvegarde

Pour supprimer une sauvegarde Dataproc Metastore dans la Google Cloud console, procédez comme suit :

  1. Dans la Google Cloud console, ouvrez la page Dataproc Metastore.
  2. Dans la barre de navigation, cliquez sur Backup/Restore (Sauvegarde/Restauration).
  3. Recherchez la sauvegarde que vous souhaitez supprimer, puis cliquez sur le bouton des paramètres.
  4. Cliquez sur Supprimer.

Programmer une sauvegarde

Les sauvegardes peuvent être programmées pour s'exécuter à des intervalles de job Cron spécifiés par l'utilisateur, y compris quotidiennement, hebdomadairement ou mensuellement. Une programmation Cron utilise le format de chaîne unix-cron (* * * * *), qui est un ensemble de cinq champs sur une ligne indiquant quand la tâche doit être exécutée.

Par exemple, vous pouvez définir un intervalle personnalisé pour créer une sauvegarde chaque semaine, par exemple tous les mercredis à 14h00 PST.

Considérations concernant les sauvegardes planifiées

  • Les sauvegardes planifiées doivent spécifier un emplacement de sauvegarde, qui doit être un chemin d'accès Cloud Storage.
  • Les sauvegardes planifiées sont toujours créées au format de fichier Avro.
  • Les sauvegardes planifiées sont configurées par défaut dans le fuseau horaire UTC. Vous pouvez modifier le fuseau horaire lors de la première création de la sauvegarde.
  • Les sauvegardes planifiées peuvent être configurées pour s'exécuter à des intervalles horaires, quotidiens, hebdomadaires ou mensuels. L'intervalle horaire minimal que vous pouvez définir est de quatre heures.

Créer une sauvegarde planifiée

Les programmations de sauvegarde peuvent être définies lorsque vous créez votre service pour la première fois ou ajoutées ultérieurement lorsque vous le mettez à jour.

Pour créer un service Dataproc Metastore 2 avec une sauvegarde planifiée, suivez les étapes décrites dans l'un des onglets suivants :

Console

  1. Dans la Google Cloud console, ouvrez la page**Dataproc Metastore**.

  2. En haut de la page Dataproc Metastore, cliquez sur le bouton Créer.

    La page Create service (Créer un service) s'ouvre.

  3. Sélectionnez Dataproc Metastore 2.

  4. Sous Scheduled Backups (Sauvegardes planifiées), définissez le bouton bascule sur Enable (Activer).

  5. Sous Location (Emplacement), sélectionnez l'emplacement Cloud Storage dans lequel vous souhaitez stocker votre sauvegarde planifiée.

  6. Facultatif : sous "Schedule" (Planification), sélectionnez les options suivantes :

    1. Pour Repeats (Répétitions), sélectionnez la récurrence, par exemple Daily (Tous les jours) ou Weekly (Toutes les semaines).
    2. Pour At time (À l'heure), sélectionnez l'heure de récurrence, par exemple 00h00.
    3. Pour Timezone (Fuseau horaire), sélectionnez le fuseau horaire approprié, par exemple UTC-8.
  7. Pour les autres options de configuration de service, utilisez les valeurs par défaut fournies.

  8. Cliquez sur Envoyer.

Gcloud CLI

  1. Pour planifier une sauvegarde d'un service Dataproc Metastore, exécutez la gcloud metastore services backups create commande suivante :

    gcloud metastore services create SERVICE \
       --location=LOCATION \
       --enable-scheduled-backup \
       --scheduled-backup-cron=SCHEDULED_BACKUP_CRON \
       --scheduled-backup-location=SCHEDULED_BACKUP_LOCATION
    

    Remplacez les éléments suivants :

    • SERVICE: ID ou identifiant complet de la sauvegarde.
    • LOCATION :région dans laquelle réside votre service Dataproc Metastore. Google Cloud
    • SCHEDULED_BACKUP_CRON : fréquence de votre sauvegarde, spécifiée au format horaire Cron. Par exemple, une valeur Cron de 0 0 * * * planifie une sauvegarde quotidienne.
    • SCHEDULED_BACKUP_LOCATION: emplacement Cloud Storage de votre sauvegarde. Exemple : gs://my-bucket/path/to/location.

    ou

    Vous pouvez également planifier une sauvegarde en stockant les valeurs précédentes dans un fichier de configuration :

    gcloud metastore services create SERVICE \
       --location=LOCATION \
       --scheduled-backup-configs-from-file=SCHEDULED_BACKUP_CONFIGS_FROM_FILE
    

    Remplacez les éléments suivants :

    • SCHEDULED_BACKUP_CONFIGS_FROM_FILE: chemin d'accès à un fichier JSON contenant les valeurs de configuration de sauvegarde enabled, cron_schedule, time_zone et backup_location.

    L'exemple suivant montre un fichier de configuration de sauvegarde qui active les sauvegardes planifiées, définit la planification de sauvegarde sur toutes les heures, spécifie le fuseau horaire PST et définit l'emplacement de sauvegarde comme un bucket Cloud Storage. Vous pouvez choisir des fuseaux horaires dans la liste des fuseaux horaires courants de la base de données tz.

    {
    "enabled": true,
    "cron_schedule": "0 0 * * *",
    "time_zone": "PST",
    "backup_location": "gs://my-bucket/path/to/location"
    }
    

REST

Suivez les instructions de l'API pour créer une sauvegarde planifiée à l'aide de l'APIs Explorer.

Mettre à jour une sauvegarde planifiée

Pour mettre à jour un service Dataproc Metastore 2 configuré avec une sauvegarde planifiée, suivez les étapes décrites dans l'un des onglets suivants :

Console

  1. Dans la Google Cloud console, ouvrez la page**Dataproc Metastore**.

  2. Sur la page Dataproc Metastore, cliquez sur le nom du service pour lequel vous souhaitez planifier une sauvegarde.

  3. Sous Scheduled Backups (Sauvegardes planifiées), définissez le bouton bascule sur Enabled (Activer).

  4. Sous Location (Emplacement), sélectionnez l'emplacement Cloud Storage dans lequel vous souhaitez stocker votre sauvegarde planifiée.

  5. Facultatif : sous Schedule (Planification), sélectionnez des valeurs pour les champs suivants :

    1. Pour Repeats (Répétitions), sélectionnez la récurrence, par exemple Daily (Tous les jours) ou Weekly (Toutes les semaines).
    2. Pour At time (À l'heure), sélectionnez l'heure de récurrence, par exemple 00h00.
    3. Pour Timezone (Fuseau horaire), sélectionnez le fuseau horaire approprié, par exemple UTC-8.

Gcloud CLI

  1. Pour planifier une sauvegarde d'un service Dataproc Metastore, exécutez la gcloud metastore services backups update commande suivante :

    gcloud metastore services update SERVICE \
       --location=LOCATION \
       --enable-scheduled-backup \
       --scheduled-backup-cron=SCHEDULED_BACKUP_CRON \
       --scheduled-backup-location=SCHEDULED_BACKUP_LOCATION \
    

    Remplacez les éléments suivants :

    • SERVICE: ID ou identifiant complet de la sauvegarde planifiée.
    • LOCATION :région dans laquelle réside votre service Dataproc Metastore. Google Cloud
    • SCHEDULED_BACKUP_CRON : fréquence de votre sauvegarde, spécifiée au format horaire Cron. Par exemple, une valeur Cron de 0 0 * * * planifie une sauvegarde quotidienne.
    • SCHEDULED_BACKUP_LOCATION: emplacement Cloud Storage de votre sauvegarde planifiée. Exemple : gs://my-bucket/path/to/location.

    Vous pouvez également mettre à jour une sauvegarde planifiée à l'aide des valeurs précédentes stockées dans un fichier de configuration :

    gcloud metastore services update SERVICE \
       --location=LOCATION \
       --scheduled-backup-configs-from-file=SCHEDULED_BACKUP_CONFIGS_FROM_FILE
    

    Remplacez les éléments suivants :

    • SCHEDULED_BACKUP_CONFIGS_FROM_FILE: chemin d'accès à un fichier JSON contenant la configuration de sauvegarde.

    L'exemple suivant montre un fichier de configuration de sauvegarde qui désactive une sauvegarde planifiée.

    {
    "enabled": false,
    }
    

REST

Suivez les instructions de l'API pour mettre à jour une sauvegarde planifiée à l'aide de l'APIs Explorer.

Afficher une sauvegarde planifiée

Pour afficher un service Dataproc Metastore 2 configuré avec une sauvegarde planifiée, suivez les étapes décrites dans l'un des onglets suivants :

Console

  1. Dans la Google Cloud console, ouvrez la page**Dataproc Metastore**.

  2. En haut de la page, cliquez sur Sauvegarder.

    La page Sauvegarde s'ouvre et affiche vos sauvegardes planifiées. Notez que les sauvegardes sont en fait stockées dans le bucket Cloud Storage que vous avez fourni dans la configuration de sauvegarde planifiée.

Gcloud CLI

  1. Exécutez la commande gcloud storage ls suivante :

    gcloud storage ls gs://BUCKET_NAME/SERVICE/LOCATION
    

    Remplacez les éléments suivants :

    • BUCKET_NAME: chemin d'accès au bucket Cloud Storage qui stocke la sauvegarde planifiée que vous souhaitez afficher.
    • SERVICE: ID ou identifiant complet de la sauvegarde planifiée.
    • LOCATION :région dans laquelle réside votre service Dataproc Metastore. Google Cloud

REST

Suivez les instructions de l'API pour afficher une sauvegarde planifiée à l'aide de l'APIs Explorer.

Résoudre les problèmes courants

Étape suivante