O Cloud Data Fusion oferece um plug-in de coletor do Knowledge Catalog (antigo Dataplex Universal Catalog) para ingerir dados em qualquer um dos recursos compatíveis com o Knowledge Catalog.
Antes de começar
- Se você não tiver uma instância do Cloud Data Fusion, crie uma. Esse plug-in está disponível em instâncias que executam o Cloud Data Fusion versão 6.6 ou posterior. Para mais informações, consulte Criar uma instância pública do Cloud Data Fusion.
- O conjunto de dados do BigQuery ou o bucket do Cloud Storage em que os dados são ingeridos precisam fazer parte de um lake do Knowledge Catalog.
- Para que os dados sejam lidos das entidades do Cloud Storage, o metastore do Dataproc precisa estar anexado ao data lake.
- Não é possível usar dados CSV em entidades do Cloud Storage.
- No projeto do Knowledge Catalog, ative o Acesso privado do Google na sub-rede, que geralmente é definida como
default, ou definainternal_ip_onlycomofalse.
Funções exigidas
Para receber as permissões
necessárias para gerenciar papéis,
peça ao administrador para conceder a você os
seguintes papéis do IAM no agente de serviço do Dataproc e no agente de serviço do Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):
- Desenvolvedor do Dataplex (
roles/dataplex.developer) - Leitor de dados do Dataplex (
roles/dataplex.dataReader) - Usuário de metadados do metastore do Dataproc (
roles/metastore.metadataUser) - Agente de serviço do Cloud Dataplex (
roles/dataplex.serviceAgent) - Leitor de metadados do Dataplex (
roles/dataplex.metadataReader)
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.
Adicionar o plug-in ao pipeline
No console Google Cloud , acesse a página Instâncias do Cloud Data Fusion.
Nesta página, é possível gerenciar suas instâncias.
Para abrir a instância, clique em Ver instância.
Acesse a página Studio, expanda o menu Coletor e clique em Dataplex.
Configurar o plug-in
Depois de adicionar esse plug-in ao pipeline na página Studio, clique no coletor do Knowledge Catalog para configurar e salvar as propriedades dele.
Para mais informações sobre configurações, consulte a referência do Dataplex Sink.
Opcional: começar a usar um pipeline de exemplo
Há pipelines de exemplo disponíveis, incluindo um pipeline de origem do SAP para um coletor do Knowledge Catalog e um pipeline de origem do Knowledge Catalog para um coletor do BigQuery.
Para usar um pipeline de amostra, abra sua instância na interface do Cloud Data Fusion, clique em Hub > Pipelines e selecione um dos pipelines do Knowledge Catalog. Uma caixa de diálogo vai aparecer para ajudar você a criar o pipeline.
Executar o pipeline
Depois de implantar o pipeline, abra-o na página Studio do Cloud Data Fusion.
Clique em Configurar > Recursos.
Opcional: mude a CPU do executor e a Memória com base no tamanho geral dos dados e no número de transformações usadas no pipeline.
Clique em Salvar.
Para iniciar o pipeline de dados, clique em Executar.
A seguir
- Processe dados com o Cloud Data Fusion usando o plug-in de origem do Knowledge Catalog.