Déployer et exécuter des pipelines

Cette page décrit les principes de base du déploiement et de l'exécution de pipelines dans Cloud Data Fusion.

Déployer des pipelines

Une fois que vous avez terminé de concevoir et de déboguer un pipeline de données, et que vous êtes satisfait des données affichées dans l'aperçu, vous pouvez déployer le pipeline.

Lorsque vous déployez le pipeline, Cloud Data Fusion Studio crée le workflow et les tâches Apache Spark correspondantes en arrière-plan.

Exécuter des pipelines

Une fois que vous avez déployé un pipeline, vous pouvez l'exécuter de différentes manières :

  • Pour exécuter un pipeline à la demande, ouvrez un pipeline déployé, puis cliquez sur Exécuter.
  • Pour planifier l'exécution du pipeline à une heure précise, ouvrez un pipeline déployé, puis cliquez sur Planifier.
  • Pour déclencher le pipeline en fonction de la fin d'un autre pipeline, ouvrez un pipeline déployé, puis cliquez sur Déclencheurs entrants.

Pipeline Studio enregistre l'historique d'un pipeline chaque fois qu'il est exécuté. Vous pouvez basculer entre différentes versions d'exécution du pipeline.

Si le pipeline comporte des macros, définissez les arguments d'exécution pour chaque macro. Vous pouvez également examiner et modifier les configurations du pipeline avant d'exécuter le pipeline déployé. Vous pouvez voir l'état changer au cours des phases d'exécution du pipeline, telles que Provisionnement, Démarrage, Exécution et Réussie. Vous pouvez également arrêter le pipeline à tout moment.

Si vous activez l'instrumentation, vous pouvez explorer les métriques générées par le pipeline en cliquant sur Propriétés sur n'importe quel nœud de votre pipeline, tel qu'une source, une transformation ou un récepteur.

Pour en savoir plus sur les exécutions de pipeline, cliquez sur Résumé.

Afficher les enregistrements d'exécution

Une fois l'exécution d'un pipeline terminée, vous pouvez afficher l'enregistrement d'exécution. Par défaut, vous pouvez afficher les enregistrements d'exécution des 30 derniers jours. Cloud Data Fusion les supprime après cette période. Vous pouvez prolonger cette période à l'aide de l'API REST.

API REST

Pour conserver les enregistrements d'exécution pendant plus de 30 jours, mettez à jour les options app.run.records.ttl à l'aide de la commande suivante :

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'

Remplacez les éléments suivants :

  • PROJECT_NAME: nom du Google Cloud projet
  • REGION_NAME : région de l'instance Cloud Data Fusion (par exemple, us-east4)
  • INSTANCE_NAME: ID de l'instance Cloud Data Fusion
  • DAYS: durée, en jours, pendant laquelle conserver les enregistrements d'exécution pour les anciennes exécutions de pipeline (par exemple, 30)
  • HOURS: fréquence, en heures, à laquelle rechercher et supprimer les anciens enregistrements d'exécution (par exemple, 24)

Exemple :

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'

Étape suivante