Leggere da un'origine di streaming Pub/Sub

Cloud Data Fusion supporta le origini Pub/Sub nelle pipeline di dati in streaming.

Prima di iniziare

Ruoli e autorizzazioni

Per ottenere le autorizzazioni necessarie per leggere da un'origine di streaming Pub/Sub, chiedi all'amministratore di concederti il ruolo IAM Pub/Sub Editor (roles/pubsub.editor) nel account di servizio utilizzato per accedere alla sottoscrizione Pub/Sub. Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Questo ruolo predefinito contiene le autorizzazioni necessarie per leggere da un'origine di streaming Pub/Sub. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:

Autorizzazioni obbligatorie

Per leggere da un'origine di streaming Pub/Sub sono necessarie le seguenti autorizzazioni:

  • pubsub.snapshots.create
  • pubsub.snapshots.delete
  • pubsub.snapshots.seek
  • pubsub.subscriptions.consume
  • pubsub.topics.attachSubscription

Potresti anche ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.

Concedi il ruolo al account di servizio specificato nelle proprietà del plug-in per l'accesso a Pub/Sub. Se non ne è stato specificato nessuno, concedi il ruolo al account di servizio Managed Service for Apache Spark.

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso.

Aggiungere un'origine Pub/Sub alla pipeline di dati in streaming

  1. Vai all'istanza:

    1. Nella Google Cloud console, vai alla pagina Cloud Data Fusion.

    2. Per aprire l'istanza in Cloud Data Fusion Studio, fai clic su Istanze e poi su Visualizza istanza.

      Vai a Istanze

  2. Nell'interfaccia web di Cloud Data Fusion, fai clic su Studio.

  3. Seleziona Pipeline di dati - In tempo reale.

  4. Nel menu Origine, seleziona Pub/Sub. Nella pipeline viene visualizzato un nodo di origine di streaming Pub/Sub.

  5. Nel nodo Pub/Sub, fai clic su Proprietà per configurare l'origine. Per saperne di più, consulta Origine di streaming Pub/Sub.

Supporto per una singola origine Pub/Sub senza plug-in Windower

Cloud Data Fusion versione 6.9.1 supporta le pipeline in tempo reale con una singola origine di streaming Pub/Sub e senza plug-in Windower.

  • L'origine di streaming Pub/Sub ha il supporto integrato e i dati vengono elaborati almeno una volta. Non è necessario abilitare il checkpointing di Spark.
  • L'origine di streaming Pub/Sub crea uno snapshot Pub/Sub all'inizio di ogni batch e lo rimuove alla fine di ogni batch.
  • La creazione di snapshot Pub/Sub comporta un costo. Per saperne di più, consulta i prezzi di Pub/Sub .
  • Puoi monitorare la creazione di snapshot in Cloud Audit Logs.

Eseguire l'upgrade di una pipeline con un'origine di streaming Pub/Sub

Cloud Data Fusion supporta gli upgrade diretti delle applicazioni per le pipeline di streaming con un'origine di streaming Pub/Sub creata nella versione 6.9.1 o successive.

Cloud Data Fusion non supporta gli upgrade per le pipeline di dati con un'origine di streaming Pub/Sub nella versione 6.9.0 o precedenti. Esegui invece l'upgrade di queste pipeline alla versione 6.9.1:

  1. Interrompi la pubblicazione dei dati nell'argomento quando è pianificato l'upgrade dell'istanza.
  2. Attendi che la pipeline termini l'elaborazione dei dati pubblicati.
  3. Una volta completata l'elaborazione dei dati, arresta la pipeline.
  4. Esegui l'upgrade dell'istanza.
  5. Duplica la pipeline esistente ed esegui l'aggiornamento ai plug-in più recenti.
  6. Esegui il deployment della pipeline.
  7. Esegui la nuova pipeline per leggere i dati.

    La nuova versione utilizza automaticamente lo snapshot anziché il checkpointing di Spark.

  8. Elimina la vecchia pipeline.

Passaggi successivi