Le générateur de jobs est une interface utilisateur visuelle permettant de créer et d'exécuter des pipelines Dataflow dans la Google Cloud console, sans avoir à écrire de code.
L'image suivante montre des détails provenant de l'interface utilisateur du générateur de jobs. Dans cette image, l'utilisateur crée un pipeline pour lire des données depuis Pub/Sub vers BigQuery :
Présentation
Le générateur de tâches prend en charge la lecture et l'écriture des types de données suivants :
- Messages Pub/Sub
- Données de table BigQuery
- Fichiers CSV, JSON et texte dans Cloud Storage
- Données de table PostgreSQL, MySQL, Oracle et SQL Server
- Données de table Apache Iceberg
Il prend en charge les transformations de pipeline, y compris le filtrage, le mappage, SQL, la clause group by, la jointure et l'éclatement (aplatissement de tableau).
Avec le générateur de jobs, vous pouvez :
- Diffuser des données en streaming depuis Pub/Sub vers BigQuery avec des transformations et une agrégation par fenêtres
- Écrire des données de Cloud Storage dans BigQuery
- Utiliser la gestion des exceptions pour filtrer les données erronées (file d'attente de lettres mortes)
- Manipuler ou agréger des données à l'aide de SQL avec la transformation SQL
- Ajouter, modifier ou supprimer des champs de données avec des transformations de mappage
- Planifier des jobs par lot récurrents
Le générateur de jobs peut également enregistrer des pipelines en tant que fichiers YAML Apache Beam et charger des définitions de pipeline à partir de fichiers YAML Beam. Grâce à cette fonctionnalité, vous pouvez concevoir votre pipeline dans le générateur de jobs, puis stocker le fichier YAML dans Cloud Storage ou dans un dépôt de contrôle des sources pour le réutiliser. Les définitions de job YAML peuvent également être utilisées pour lancer des jobs à l'aide de gcloud CLI.
Envisageons d'utiliser le générateur de tâches pour les cas d'utilisation suivants :
- Vous souhaitez créer rapidement un pipeline sans écrire de code.
- Vous souhaitez enregistrer un pipeline au format YAML pour le réutiliser.
- Votre pipeline peut être exprimé à l'aide des sources, des récepteurs et des transformations compatibles.
- Aucun modèle fourni par Google ne correspond à votre cas d'utilisation.
Exécuter un exemple de job
L'exemple Word Count est un pipeline par lots qui lit du texte de Cloud Storage, segmente les lignes en mots individuels et compte le nombre de fois où chacun de ces mots apparaît.
Si le bucket Cloud Storage ne se trouve pas dans votre périmètre de service, créez une règle de sortie qui autorise l'accès au bucket.
Pour exécuter le pipeline Word Count, procédez comme suit :
Accédez à la page Jobs (Tâches) dans la Google Cloud console.
Cliquez sur Create job from template (Créer un job à partir d'un modèle).
Dans le volet latéral, cliquez sur Job builder (Générateur de jobs).
Cliquez sur Load blueprints (Charger des plans).
Cliquez sur Word Count (Nombre de mots). Le générateur de jobs est renseigné avec une représentation graphique du pipeline.
Pour chaque étape du pipeline, le générateur de jobs affiche une fiche qui spécifie les paramètres de configuration de cette étape. Par exemple, la première étape lit les fichiers texte à partir de Cloud Storage. L'emplacement des données sources est prérempli dans la zone Text location (Emplacement du texte).
Recherchez la fiche intitulée New sink (Nouveau récepteur). Vous devrez peut-être faire défiler la page.
Dans la zone Text location (Emplacement du texte), saisissez le préfixe du chemin d'accès à l'emplacement Cloud Storage pour les fichiers texte de sortie.
Cliquez sur Run job (Exécuter la tâche). Le générateur de jobs crée un job Dataflow, puis accède au graphique de job. Au démarrage du job, le graphique de job affiche une représentation graphique du pipeline. Cette représentation graphique est semblable à celle affichée dans le générateur de jobs. À chaque étape du pipeline, l'état est mis à jour dans le graphique de job.
Le panneau Job info (Informations sur le job) affiche l'état général du job. Si le job se termine correctement, le champ Job status (État du job) est défini sur Succeeded.
Étape suivante
- Utiliser l'interface de surveillance des jobs Dataflow.
- Créer un job personnalisé dans le générateur de jobs
- Enregistrer et charger des définitions de job YAML dans le générateur de jobs
- Apprenez-en plus sur YAML Beam.