Cette page explique comment exporter les informations de vos jobs stockées dans Batch vers une table BigQuery à l'aide de Workflows. Plus précisément, vous découvrirez comment exécuter l'exemple de workflow export-jobs et comment afficher les informations de job résultantes dans BigQuery.
L'exportation des informations d'un job est utile lorsque vous souhaitez les conserver après la suppression automatique ou manuelle d'un job ou les analyser en dehors de Batch. Si vous ne souhaitez exporter que les informations sur les modifications d'état des tâches et des jobs vers BigQuery, consultez Surveiller les jobs à l'aide de notifications plutôt.
Pour savoir comment exporter des informations de job stockées dans d'autres Google Cloud services, consultez la documentation d'exportation de ce service. Par exemple, consultez les pages suivantes :
Avant de commencer
- Si vous n'avez jamais utilisé Batch, consultez Premiers pas avec Batch et activez Batch en remplissant les prérequis pour les projets et les utilisateurs.
Activez les API BigQuery et Workflows.
Rôles requis pour activer les API
Pour activer les API, vous avez besoin du rôle IAM Administrateur d'utilisation du service (
roles/serviceusage.serviceUsageAdmin), qui contient l'autorisationserviceusage.services.enable. Découvrez comment attribuer des rôles.Facultatif : identifiez un ensemble de données ou une table BigQuery existant dans votre projet dans lequel vous souhaitez stocker les informations du job. Une table existante doit avoir un schéma correspondant.
Sinon, vous pouvez utiliser le workflow export-jobs pour créer un ensemble de données ou une table.
-
Préparez un compte de service pour le workflow export-jobs en procédant comme suit :
- Créez un compte de service ou identifiez-en un existant.
-
Pour vous assurer que le compte de service dispose des autorisations nécessaires pour exécuter le workflow export-jobs, demandez à votre administrateur d'accorder les rôles IAM suivants au compte de service dans le projet :
-
Écrire des journaux :
Rédacteur de journaux (
roles/logging.logWriter) -
Créer et modifier des ensembles de données et des tables BigQuery:
Administrateur BigQuery (
roles/bigquery.admin) -
Afficher et supprimer des jobs Batch:
Éditeur de jobs Batch (
roles/batch.jobsEditor)
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Votre administrateur peut également attribuer au compte de service les autorisations requises à l'aide de rôles personnalisés ou d'autres rôles prédéfinis.
-
Écrire des journaux :
Rédacteur de journaux (
-
Pour obtenir les autorisations nécessaires pour créer, déployer et exécuter le workflow export-jobs, demandez à votre administrateur de vous accorder les rôles IAM suivants dans le projet :
-
Afficher les jobs:
Lecteur de jobs Batch (
roles/batch.jobsViewer) -
Afficher les comptes de service:
Lecteur de comptes de service (
roles/iam.serviceAccountViewer) -
Afficher les ensembles de données et les tables BigQuery:
Lecteur de données BigQuery (
roles/bigquery.dataViewer) -
Créer, déployer et exécuter des workflows:
Éditeur de workflows (
roles/workflows.editor)
-
Afficher les jobs:
Lecteur de jobs Batch (
-
Assurez-vous que les utilisateurs de votre projet peuvent afficher les informations de job exportées.
Pour vous assurer qu'un utilisateur dispose des autorisations nécessaires pour exporter des informations de job, demandez à votre administrateur de lui accorder le rôle IAM Lecteur de données BigQuery (
roles/bigquery.dataViewer) sur la table, l'ensemble de données ou le projet.
Exporter des informations de job
Cette section explique comment exporter des informations de job à l'aide du
workflow export-jobs, qui provient de l'exemple de code
export-to-bigquery.
Le workflow export-jobs exporte les informations des jobs de votre projet qui se trouvent dans la région spécifiée et qui répondent aux critères de filtrage spécifiés.
Le workflow export-jobs exporte les informations de job vers une table spécifiée dans un ensemble de données spécifié, qui sont créés automatiquement par le workflow s'ils n'existent pas déjà dans votre projet. Par défaut, le workflow export-jobs supprime également les jobs exportés de Batch, mais vous pouvez éventuellement modifier le workflow export-jobs pour ne pas supprimer les jobs.
Pour chaque workflow export-jobs que vous souhaitez utiliser, procédez comme suit :
- Configurez la définition du workflow.
- Créez et déployez le workflow.
- Exécutez le workflow. Répétez cette étape chaque fois que vous souhaitez exporter les jobs spécifiés.
Configurer la définition du workflow
Téléchargez le
export-to-bigquery-delete-batch-jobs.yamlfichier depuis GitHub.Ouvrez le fichier
export-to-bigquery-delete-batch-jobs.yamldans un éditeur de texte. Effectuez ensuite les modifications suivantes :Remplacez
sys.get_env("GOOGLE_CLOUD_PROJECT_ID")par l'ID de votre projet au format chaîne, par exemple"my-project-id".Remplacez
sys.get_env("GOOGLE_CLOUD_LOCATION")par la région contenant les jobs que vous souhaitez exporter, au format chaîne, par exemple"us-central1".Facultatif : modifiez les critères de filtrage qui spécifient les jobs à exporter.
Par défaut, le workflow export-jobs spécifie les critères de filtrage
"(status.state:SUCCEEDED OR status.state:FAILED OR status.state:CANCELLED) AND create_time<=\"2023-05-01T00:00:00Z\"". Ces critères de filtrage par défaut n'exportent des informations que pour les jobs dont l'état estSUCCEEDED,FAILEDouCANCELLED, et qui ont été créés avant ou par le2023-05-01T00:00:00Zcode temporel RFC 3339.Facultatif : remplacez
default_dataset_idpar un autre nom pour l'ensemble de données que vous souhaitez que le workflow export-jobs utilise ou crée.Facultatif : remplacez
default_table_idpar un autre nom pour la table que vous souhaitez que le workflow export-jobs utilise ou crée.Si vous ne souhaitez pas que les jobs exportés soient supprimés par le workflow, procédez comme suit :
Supprimez les lignes suivantes :
- log_delete_step: call: sys.log args: text: ${"Deleting Batch job " + j.name} severity: NOTICE - delete_job: call: googleapis.batch.v1.projects.locations.jobs.delete args: name: ${j.name}Supprimez
+ " and deleted".
Enregistrez le fichier. Laissez le fichier ouvert.
Créer et déployer le workflow
Dans la Google Cloud console, accédez à la page Workflows.
Sur la page Workflows, cliquez sur Créer.
Dans le champ Nom du workflow, saisissez un nom pour le workflow, par exemple
export-batch-jobs-us-central1.Dans la liste Compte de service, sélectionnez le compte de service que vous avez préparé.
Cliquez sur Suivant.
Dans l'éditeur de workflow, remplacez l'exemple de workflow par le contenu du fichier
export-to-bigquery-delete-batch-jobs.yaml. Vous pouvez ensuite fermer le fichier.Cliquez sur Déployer. La page Détails du workflow s'ouvre.
Exécuter le workflow
Sur la page Détails du workflow, cliquez sur Exécuter. La page Exécuter le workflow s'ouvre.
Sur la page Exécuter le workflow qui s'ouvre, cliquez sur Exécuter.
Sur la page Détails de l'exécution qui s'ouvre, attendez que le workflow ait terminé son exécution. Par exemple, le temps d'exécution pour exporter et supprimer quelques jobs est généralement de quelques secondes, mais l'exécution peut prendre plus de temps si vous exportez et supprimez de nombreux jobs.
Une fois l'exécution du workflow terminée, le volet Output (Sortie) affiche les résultats.
Afficher les informations de job exportées
Cette section explique comment afficher les données de table créées par le workflow export-jobs. Par exemple, vous pouvez suivre les étapes ci-dessous pour vérifier que le workflow a été exécuté correctement et parcourir les données de la table. Pour en savoir plus sur l'affichage et l'utilisation des informations de job exportées, par exemple pour écrire des requêtes, consultez Gérer les données de table dans la documentation BigQuery.
Dans la Google Cloud console, accédez à la BigQuery.
Dans le panneau Explorateur, ouvrez la table contenant les informations de job exportées :
- Dans le champ Rechercher des ressources BigQuery, saisissez le nom de la table de votre workflow export-jobs. Par exemple, le nom de table par défaut est
default_table_id. - Cliquez sur le nom de la table. La page des détails de la table s'ouvre.
Sur la page des détails de la table, cliquez sur l'onglet Détails.
Dans l'onglet Détails, notez le code temporel Dernière modification et le Nombre de lignes.
Sur la page des détails de la table, cliquez sur l'onglet Aperçu.
- Dans le champ Rechercher des ressources BigQuery, saisissez le nom de la table de votre workflow export-jobs. Par exemple, le nom de table par défaut est
Étape suivante
- Apprenez-en davantage sur Workflows.
- Obtenez des informations supplémentaires sur BigQuery.
- En savoir plus sur Batch :