O Cloud Data Fusion oferece um plug-in de origem do Knowledge Catalog (antigo Dataplex Universal Catalog) para ler dados de entidades (tabelas) do Knowledge Catalog que residem em recursos do Cloud Storage ou do BigQuery. Com o plug-in de origem do Knowledge Catalog, é possível tratar dados em recursos do Cloud Storage como tabelas e filtrar os dados com consultas SQL.
Antes de começar
Crie uma instância do Cloud Data Fusion, se você ainda não tiver uma. Esse plug-in está disponível em instâncias que executam a versão 6.6 ou mais recente do Cloud Data Fusion.
Os dados de origem já precisam fazer parte de uma zona e um ativo do catálogo do Knowledge (um bucket do Cloud Storage ou um conjunto de dados do BigQuery).
Para usar tabelas do Cloud Storage, configure um metastore para seu data lake.
Para que os dados sejam lidos das entidades do Cloud Storage, o metastore do Dataproc precisa estar anexado ao data lake.
Não é possível usar dados CSV em entidades do Cloud Storage.
No projeto do Knowledge Catalog, ative o Acesso privado do Google na sub-rede, que geralmente é definida como
default, ou definainternal_ip_onlycomofalse.
Limitações
Para recursos do Cloud Storage: este plug-in não é compatível com a leitura de arquivos CSV. Ele aceita a leitura de formatos JSON, Avro, Parquet e ORC.
Para recursos do Cloud Storage, Data de início da partição e Data de término da partição não são aplicáveis.
Funções exigidas
Para receber as permissões necessárias para gerenciar papéis, peça ao administrador para conceder a você os seguintes papéis do IAM no agente de serviço do Dataproc e no agente de serviço do Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):
-
Desenvolvedor do Dataplex (
roles/dataplex.developer) -
Leitor de dados do Dataplex (
roles/dataplex.dataReader) -
Usuário de metadados do metastore do Dataproc (
roles/metastore.metadataUser) -
Agente de serviço do Cloud Dataplex (
roles/dataplex.serviceAgent) -
Leitor de metadados do Dataplex (
roles/dataplex.metadataReader)
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.
Adicionar o plug-in ao pipeline
No console Google Cloud , acesse a página Instâncias do Cloud Data Fusion.
Nesta página, é possível gerenciar suas instâncias.
Clique em Ver instância para abrir sua instância na UI do Cloud Data Fusion.
Acesse a página Studio, expanda o menu Origem e clique em Dataplex.
Configurar o plug-in
Depois de adicionar esse plug-in ao pipeline na página Studio, clique na fonte do catálogo de dados para configurar as propriedades dela.
Para mais informações sobre configurações, consulte a referência da fonte do Dataplex.
Opcional: começar a usar um pipeline de exemplo
Há pipelines de exemplo disponíveis, incluindo um pipeline de origem do SAP para coletor do catálogo de dados e um pipeline de origem do catálogo de dados para coletor do BigQuery.
Para usar um pipeline de amostra, abra sua instância na interface do Cloud Data Fusion, clique em Hub > Pipelines e selecione um dos pipelines do Knowledge Catalog. Uma caixa de diálogo vai aparecer para ajudar você a criar o pipeline.
A seguir
- Ingira dados com o Cloud Data Fusion usando o plug-in de coletor do Knowledge Catalog.