Présentation de Cloud Data Fusion : Studio

Cette page présente Cloud Data Fusion : Studio, une interface visuelle de type pointer-cliquer permettant de créer des pipelines de données à partir d'une bibliothèque de plug-ins prédéfinis. Elle permet également de configurer, d'exécuter et de gérer vos pipelines. La création d'un pipeline dans Studio suit généralement ce processus :

  1. Connectez-vous à une source de données sur site ou dans le cloud.
  2. Préparez et transformez vos données.
  3. Connectez-vous à la destination.
  4. Testez votre pipeline.
  5. Exécutez votre pipeline.
  6. Planifiez et déclenchez vos pipelines.

Après avoir conçu et exécuté le pipeline, vous pouvez le gérer sur la page Pipeline Studio de Cloud Data Fusion :

  • Réutilisez les pipelines en les paramétrant avec des préférences et des arguments d'exécution.
  • Gérez l'exécution des pipelines en personnalisant les profils de calcul, en gérant les ressources et en ajustant les performances des pipelines.
  • Gérez le cycle de vie des pipelines en les modifiant.
  • Gérez le contrôle des sources des pipelines à l'aide de l'intégration Git.

Parcours utilisateur dans Cloud Data Fusion Studio

Avant de commencer

Présentation de Cloud Data Fusion : Studio

Studio comprend les composants suivants.

Administration

Cloud Data Fusion vous permet d'avoir plusieurs espaces de noms dans chaque instance. Dans Studio, les administrateurs peuvent gérer tous les espaces de noms de manière centralisée ou chaque espace de noms individuellement.

Studio fournit les contrôles d'administrateur suivants :

Administrateur(trice) système
Le module System Admin (Administrateur système) de Studio vous permet de créer des espaces de noms et de définir les configurations centrales des profils de calcul au niveau du système, qui s'appliquent à chaque espace de noms de cette instance. Pour en savoir plus, consultez Gérer l'administration de Studio.
Administration des espaces de noms
Le module Namespace Admin (Administrateur d'espace de noms) de Studio vous permet de gérer les configurations de l'espace de noms spécifique. Pour chaque espace de noms, vous pouvez définir des profils de calcul, des préférences d'exécution, des pilotes, des comptes de service et des configurations Git. Pour en savoir plus, consultez Gérer l'administration de Studio.

Studio de conception de pipelines

Vous concevez et exécutez des pipelines dans le Studio de conception de pipelines de l'interface Web Cloud Data Fusion. La conception et l'exécution de pipelines de données comprennent les étapes suivantes :

  • Se connecter à une source : Cloud Data Fusion permet de se connecter à des sources de données sur site et dans le cloud. L'interface Studio comporte des plug-ins système par défaut, qui sont préinstallés dans Studio. Vous pouvez télécharger des plug-ins supplémentaires à partir d'un dépôt de plug-ins, appelé Hub. Pour en savoir plus, consultez la présentation des plug-ins.
  • Préparation des données : Cloud Data Fusion vous permet de préparer vos données à l'aide de son puissant plug-in de préparation des données : Wrangler. Wrangler vous aide à afficher, à explorer et à transformer un petit échantillon de vos données dans un emplacement unique avant d'exécuter la logique sur l'ensemble de données complet dans Studio. Vous pouvez ainsi appliquer rapidement des transformations pour comprendre leur impact sur l'ensemble de données. Vous pouvez créer plusieurs transformations et les ajouter à une recette. Pour en savoir plus, consultez la présentation de Wrangler.
  • Transformer : les plug-ins de transformation modifient les données après leur chargement à partir d'une source. Par exemple, vous pouvez cloner un enregistrement, modifier le format de fichier en JSON ou utiliser le plug-in JavaScript pour créer une transformation personnalisée. Pour en savoir plus, consultez la présentation des plug-ins.
  • Se connecter à une destination : après avoir préparé les données et appliqué des transformations, vous pouvez vous connecter à la destination où vous prévoyez de charger les données. Cloud Data Fusion est compatible avec les connexions à plusieurs destinations. Pour en savoir plus, consultez la présentation des plug-ins .
  • Aperçu : après avoir conçu le pipeline, pour déboguer les problèmes avant de le déployer et de l'exécuter, vous exécutez un job d'aperçu. Si vous rencontrez des erreurs, vous pouvez les corriger en mode Brouillon. Studio utilise les 100 premières lignes de votre ensemble de données source pour générer l'aperçu. Studio affiche l'état et la durée du job d'aperçu. Vous pouvez arrêter le job à tout moment. Vous pouvez également surveiller les événements de journal pendant l'exécution du job d'aperçu. Pour en savoir plus, consultez la section Prévisualiser les données.
  • Gérer les configurations de pipeline : après avoir prévisualisé les données, vous pouvez déployer le pipeline et gérer les configurations de pipeline suivantes :

    • Configuration de calcul : vous pouvez modifier le profil de calcul qui exécute le pipeline. Par exemple, vous pouvez exécuter le pipeline sur un cluster Managed Service for Apache Spark personnalisé plutôt que sur le cluster Managed Service for Apache Spark par défaut.
    • Configuration du pipeline : pour chaque pipeline, vous pouvez activer ou désactiver l'instrumentation, comme les métriques de timing. Par défaut, l'instrumentation est activée.
    • Configuration du moteur : Spark est le moteur d'exécution par défaut. Vous pouvez transmettre des paramètres personnalisés pour Spark.
    • Ressources : vous pouvez spécifier la mémoire et le nombre de processeurs pour le pilote et l’exécuteur Spark. Le pilote orchestre le job Spark. L'exécuteur gère le traitement des données dans Spark.
    • Alerte de pipeline : vous pouvez configurer le pipeline pour qu'il envoie des alertes et démarre des tâches de post-traitement une fois l'exécution du pipeline terminée. Vous créez des alertes de pipeline lorsque vous concevez le pipeline. Une fois le pipeline déployé, vous pouvez afficher les alertes. Pour modifier les paramètres d'alerte, vous pouvez modifier le pipeline.
    • Déplacement de transformations : vous pouvez activer le déplacement de transformations si vous souhaitez qu'un pipeline exécute certaines transformations dans BigQuery.

    Pour en savoir plus, consultez Gérer les configurations de pipeline.

  • Réutiliser des pipelines à l'aide de macros, de préférences et d'arguments d'exécution: Cloud Data Fusion vous permet de réutiliser des pipelines de données. Avec les pipelines de données réutilisables, vous pouvez disposer d'un seul pipeline capable d'appliquer un modèle d'intégration de données à différents cas d'utilisation et ensembles de données. Les pipelines réutilisables vous offrent une meilleure gérabilité. Ils vous permettent de définir la plupart des configurations d'un pipeline au moment de l'exécution, au lieu de les coder en dur au moment de la conception. Dans le Studio de conception de pipelines, vous pouvez utiliser des macros pour ajouter des variables aux configurations de plug-in afin de pouvoir spécifier les substitutions de variables au moment de l'exécution. Pour en savoir plus, consultez Gérer les macros, les préférences et les arguments d'exécution.

  • Exécuter : une fois que vous avez examiné les configurations du pipeline, vous pouvez lancer son exécution. Vous pouvez voir l'état changer au cours des phases d'exécution du pipeline (par exemple, provisionnement, démarrage, exécution et réussite).

  • Planifier et orchestrer : les pipelines de données par lot peuvent être configurés pour s'exécuter selon une planification et une fréquence spécifiées. Après avoir créé et déployé un pipeline, vous pouvez créer une planification. Dans le Studio de conception de pipelines, vous pouvez orchestrer des pipelines en créant un déclencheur sur un pipeline de données par lot pour qu'il s'exécute lorsqu'une ou plusieurs exécutions de pipeline sont terminées. Il s'agit de pipelines en aval et en amont. Vous créez un déclencheur sur le pipeline en aval afin qu'il s'exécute en fonction de l'achèvement d'un ou plusieurs pipelines en amont.

    Recommandé : Vous pouvez également utiliser Composer pour orchestrer des pipelines dans Cloud Data Fusion. Pour en savoir plus, consultez Planifier des pipelines et Orchestrer des pipelines.

  • Modifier des pipelines : Cloud Data Fusion vous permet de modifier un pipeline déployé. Lorsque vous modifiez un pipeline déployé, une nouvelle version du pipeline portant le même nom est créée et marquée comme la dernière version. Cela vous permet de développer des pipelines de manière itérative plutôt que de les dupliquer, ce qui crée un nouveau pipeline portant un nom différent. Pour en savoir plus, consultez Modifier des pipelines.

  • Gestion du contrôle des sources : Cloud Data Fusion vous permet de mieux gérer les pipelines entre le développement et la production grâce à la gestion du contrôle des sources des pipelines à l'aide de GitHub.

  • Journalisation et surveillance : pour surveiller les métriques et les journaux des pipelines, il est recommandé d'activer le service de journalisation Stackdriver afin d'utiliser Cloud Logging avec votre pipeline Cloud Data Fusion.

Étape suivante