Cloud Data Fusion supporta le origini Pub/Sub nelle pipeline di dati di streaming.
Prima di iniziare
Ruoli e autorizzazioni
Per ottenere le autorizzazioni
necessarie per leggere da un'origine di streaming Pub/Sub,
chiedi all'amministratore di concederti il
ruolo IAM Pub/Sub Editor (roles/pubsub.editor
)
nell'account di servizio utilizzato per accedere alla sottoscrizione Pub/Sub.
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Questo ruolo predefinito contiene le autorizzazioni necessarie per leggere da un'origine di streaming Pub/Sub. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:
Autorizzazioni obbligatorie
Per leggere da un'origine di streaming Pub/Sub sono necessarie le seguenti autorizzazioni:
-
pubsub.snapshots.create
-
pubsub.snapshots.delete
-
pubsub.snapshots.seek
-
pubsub.subscriptions.consume
-
pubsub.topics.attachSubscription
Potresti anche ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.
Concedi il ruolo al account di servizio specificato nelle proprietà del plug-in per l'accesso a Pub/Sub. Se non ne viene specificato nessuno, concedi il ruolo al account di servizio Dataproc.
Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestire l'accesso.
Aggiungere un'origine Pub/Sub alla pipeline di dati in streaming
Vai all'istanza:
Nella Google Cloud console, vai alla pagina Cloud Data Fusion.
Per aprire l'istanza in Cloud Data Fusion Studio, fai clic su Istanze e poi su Visualizza istanza.
Nell'interfaccia web di Cloud Data Fusion, fai clic su Studio.
Seleziona Data Pipeline - Realtime.
Nel menu Origine, seleziona Pub/Sub. Nella pipeline viene visualizzato un nodo di origine streaming Pub/Sub.
Nel nodo Pub/Sub, fai clic su Proprietà per configurare la sorgente. Per ulteriori informazioni, consulta Origine di streaming Pub/Sub.
Supporto di una singola origine Pub/Sub senza plug-in Windower
Cloud Data Fusion versione 6.9.1 supporta le pipeline in tempo reale con una singola origine di streaming Pub/Sub e nessun plug-in Windower.
- L'origine di streaming Pub/Sub ha un supporto integrato e i dati vengono elaborati almeno una volta. L'attivazione del checkpoint Spark non è obbligatoria.
- L'origine di streaming Pub/Sub crea uno snapshot Pub/Sub all'inizio di ogni batch e lo rimuove alla fine di ogni batch.
- La creazione di snapshot Pub/Sub ha un costo associato. Per ulteriori informazioni, consulta la pagina Prezzi di Pub/Sub.
- Puoi monitorare la creazione di snapshot in Cloud Audit Logs.
Eseguire l'upgrade di una pipeline con un'origine di streaming Pub/Sub
Cloud Data Fusion supporta gli upgrade diretti delle applicazioni per le pipeline di streaming con un'origine di streaming Pub/Sub creata nella versione 6.9.1 o successive.
Cloud Data Fusion non supporta gli upgrade per le pipeline di dati con un'origine di streaming Pub/Sub nella versione 6.9.0 o precedenti. Esegui invece l'upgrade di queste pipeline alla versione 6.9.1:
- Interrompi la pubblicazione dei dati nell'argomento quando è pianificato l'upgrade dell'istanza.
- Attendi che la pipeline termini l'elaborazione dei dati pubblicati.
- Una volta elaborati completamente i dati, arresta la pipeline.
- Esegui l'upgrade dell'istanza.
- Duplica la pipeline esistente e aggiornala con i plug-in più recenti.
- Esegui il deployment della pipeline.
Esegui la nuova pipeline per leggere i dati.
La nuova versione utilizza automaticamente lo snapshot anziché il checkpointing Spark.
Elimina la vecchia pipeline.
Passaggi successivi
- Consulta l'origine di streaming Pub/Sub di CDAP.