Cloud Data Fusion est compatible avec les sources Pub/Sub dans les pipelines de données de streaming.
Avant de commencer
Rôles et autorisations
Pour obtenir les autorisations dont
vous avez besoin pour lire à partir d'une source de streaming Pub/Sub,
demandez à votre administrateur de vous accorder le
rôle Éditeur Pub/Sub (roles/pubsub.editor) IAM sur le compte de service utilisé pour accéder à l'abonnement Pub/Sub.
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Ce rôle prédéfini contient les autorisations requises pour lire à partir d'une source de streaming Pub/Sub. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :
Autorisations requises
Les autorisations suivantes sont requises pour lire à partir d'une source de streaming Pub/Sub :
-
pubsub.snapshots.create -
pubsub.snapshots.delete -
pubsub.snapshots.seek -
pubsub.subscriptions.consume -
pubsub.topics.attachSubscription
Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.
Vous accordez le rôle sur le compte de service que vous avez spécifié dans les propriétés du plug-in pour accéder à Pub/Sub. Si aucun n'est spécifié, accordez le rôle sur le compte de service Managed Service pour Apache Spark.
Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.
Ajouter une source Pub/Sub à votre pipeline de données de streaming
Accédez à votre instance :
Dans la console Google Cloud , accédez à la page Cloud Data Fusion.
Pour ouvrir l'instance dans Cloud Data Fusion Studio, cliquez sur Instances, puis sur Afficher l'instance.
Dans l'interface Web de Cloud Data Fusion, cliquez sur Studio.
Sélectionnez Pipeline de données - Temps réel.
Dans le menu Source, sélectionnez Pub/Sub. Un nœud de source de streaming Pub/Sub s'affiche dans le pipeline.
Sur le nœud Pub/Sub, cliquez sur Propriétés pour configurer la source. Pour en savoir plus, consultez Source de streaming Pub/Sub.
Compatibilité avec une seule source Pub/Sub sans plug-in Windower
Cloud Data Fusion 6.9.1 est compatible avec les pipelines en temps réel avec une seule source de streaming Pub/Sub et sans plug-in Windower.
- La source de streaming Pub/Sub est compatible par défaut et les données sont traitées au moins une fois. L'activation de la création de points de contrôle Spark n'est pas requise.
- La source de streaming Pub/Sub crée un instantané Pub/Sub au début de chaque lot et le supprime à la fin de chaque lot.
- La création d'instantanés Pub/Sub est associée à un coût. Pour plus d'informations, consultez les tarifs de Pub/Sub.
- Vous pouvez surveiller la création d'instantanés dans Cloud Audit Logs.
Mettre à niveau un pipeline avec une source de streaming Pub/Sub
Cloud Data Fusion est compatible avec les mises à niveau directes des applications pour les pipelines de streaming avec une source de streaming Pub/Sub créée dans la version 6.9.1 ou ultérieure.
Cloud Data Fusion n'est pas compatible avec les mises à niveau des pipelines de données avec une source de streaming Pub/Sub dans la version 6.9.0 ou antérieure. À la place, mettez à niveau ces pipelines vers la version 6.9.1 :
- Arrêtez de publier les données dans le sujet lorsque la mise à niveau de l'instance est prévue.
- Attendez que le pipeline ait terminé de traiter les données publiées.
- Une fois les données entièrement traitées, arrêtez le pipeline.
- Mettez à niveau l'instance.
- Dupliquez le pipeline existant et mettez-le à jour avec les plug-ins les plus récents.
- Déployez le pipeline.
Exécutez le nouveau pipeline pour lire les données.
La nouvelle version utilise automatiquement un instantané au lieu de la création de points de contrôle Spark.
Supprimez l'ancien pipeline.
Étape suivante
- Consultez la section Source de streaming Pub/Sub CDAP.