O Cloud Data Fusion é compatível com fontes do Pub/Sub em pipelines de dados de streaming.
Antes de começar
Papéis e permissões
Para receber as permissões necessárias para ler de uma fonte de streaming do Pub/Sub,
peça ao administrador para conceder a você o
papel do IAM de Editor do Pub/Sub (roles/pubsub.editor
)
na conta de serviço usada para acessar a assinatura do Pub/Sub.
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Esse papel predefinido contém as permissões necessárias para ler de uma fonte de streaming do Pub/Sub. Para conferir as permissões exatas necessárias, expanda a seção Permissões necessárias:
Permissões necessárias
As seguintes permissões são necessárias para ler de uma fonte de streaming do Pub/Sub:
-
pubsub.snapshots.create
-
pubsub.snapshots.delete
-
pubsub.snapshots.seek
-
pubsub.subscriptions.consume
-
pubsub.topics.attachSubscription
Essas permissões também podem ser concedidas com funções personalizadas ou outros papéis predefinidos.
Você concede o papel na conta de serviço especificada nas propriedades do plug-in para acessar o Pub/Sub. Se nenhuma for especificada, conceda a função na conta de serviço do Dataproc.
Para mais informações sobre como conceder papéis, consulte Gerenciar o acesso.
Adicionar uma origem do Pub/Sub ao pipeline de dados de streaming
Acesse sua instância:
No console Google Cloud , acesse a página do Cloud Data Fusion.
Para abrir a instância no Cloud Data Fusion Studio, clique em Instâncias e em Ver instância.
Na interface da Web do Cloud Data Fusion, clique em Studio.
Selecione Pipeline de dados - tempo real.
No menu Origem, selecione Pub/Sub. Um nó de origem de streaming do Pub/Sub aparece no pipeline.
No nó do Pub/Sub, clique em Propriedades para configurar a origem. Para mais informações, consulte Origem de streaming do Pub/Sub.
Suporte para uma única origem do Pub/Sub sem plug-ins do Windower
A versão 6.9.1 do Cloud Data Fusion é compatível com pipelines em tempo real com uma única fonte de streaming do Pub/Sub e sem plug-ins do Windower.
- A fonte de streaming do Pub/Sub tem suporte integrado, e os dados são processados pelo menos uma vez. Não é necessário ativar o checkpoint do Spark.
- A fonte de streaming do Pub/Sub cria um snapshot do Pub/Sub no início e o remove no final de cada lote.
- A criação de snapshots do Pub/Sub tem um custo associado. Para mais informações, consulte os preços do Pub/Sub.
- É possível monitorar a criação de snapshots nos Registros de auditoria do Cloud.
Fazer upgrade de um pipeline com uma origem de streaming do Pub/Sub
O Cloud Data Fusion oferece suporte a upgrades diretos de aplicativos para pipelines de streaming com uma origem de streaming do Pub/Sub criada na versão 6.9.1 ou mais recente.
O Cloud Data Fusion não oferece suporte a upgrades de pipelines de dados com uma fonte de streaming do Pub/Sub na versão 6.9.0 ou anterior. Em vez disso, faça upgrade desses pipelines para a versão 6.9.1:
- Pare de publicar os dados no tópico quando o upgrade da instância for planejado.
- Aguarde a conclusão do processamento dos dados publicados pelo pipeline.
- Depois que os dados forem totalmente processados, pare o pipeline.
- Faça upgrade da instância.
- Duplique o pipeline atual e atualize para os plug-ins mais recentes.
- Implante o pipeline.
Execute o novo pipeline para ler dados.
A nova versão usa automaticamente o instantâneo em vez do checkpoint do Spark.
Exclua o pipeline antigo.
A seguir
- Consulte a origem de streaming do Pub/Sub do CDAP.