O Cloud Data Fusion oferece um plug-in de origem do Dataplex Universal Catalog para ler dados de entidades (tabelas) do Dataplex Universal Catalog que residem em recursos do Cloud Storage ou do BigQuery. Com o plug-in de origem do Catálogo Universal do Dataplex, é possível tratar dados em recursos do Cloud Storage como tabelas e filtrar os dados com consultas SQL.
Antes de começar
Crie uma instância do Cloud Data Fusion, se você ainda não tiver uma. Esse plug-in está disponível em instâncias que executam o Cloud Data Fusion versão 6.6 ou mais recente.
Os dados de origem já precisam fazer parte de uma zona e de um recurso (um bucket do Cloud Storage ou um conjunto de dados do BigQuery) do Dataplex Universal Catalog.
Para usar tabelas do Cloud Storage, configure um metastore para seu data lake.
Para que os dados sejam lidos das entidades do Cloud Storage, o metastore do Dataproc precisa estar anexado ao lake.
Não é possível usar dados CSV em entidades do Cloud Storage.
No projeto do Dataplex Universal Catalog, ative o Acesso Privado do Google na sub-rede, que geralmente é definida como
default
, ou definainternal_ip_only
comofalse
.
Limitações
Para recursos do Cloud Storage: este plug-in não é compatível com a leitura de arquivos CSV. Ele aceita a leitura de formatos JSON, Avro, Parquet e ORC.
Para recursos do Cloud Storage, Data de início da partição e Data de término da partição não são aplicáveis.
Funções exigidas
Para receber as permissões necessárias para gerenciar papéis, peça ao administrador para conceder a você os seguintes papéis do IAM no agente de serviço do Dataproc e no agente de serviço do Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):
-
Desenvolvedor do Dataplex (
roles/dataplex.developer
) -
Leitor de dados do Dataplex (
roles/dataplex.dataReader
) -
Usuário de metadados do metastore do Dataproc (
roles/metastore.metadataUser
) -
Agente de serviço do Cloud Dataplex (
roles/dataplex.serviceAgent
) -
Leitor de metadados do Dataplex (
roles/dataplex.metadataReader
)
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.
Adicionar o plug-in ao pipeline
No console Google Cloud , acesse a página Instâncias do Cloud Data Fusion.
Nesta página, é possível gerenciar suas instâncias.
Clique em Ver instância para abrir sua instância na UI do Cloud Data Fusion.
Acesse a página Studio, expanda o menu Origem e clique em Dataplex.
Configurar o plug-in
Depois de adicionar esse plug-in ao pipeline na página Studio, clique na fonte do Dataplex Universal Catalog para configurar as propriedades dela.
Para mais informações sobre configurações, consulte a referência da fonte do Dataplex.
Opcional: começar a usar um pipeline de exemplo
Há exemplos de pipelines disponíveis, incluindo um pipeline de origem do SAP para um coletor do Dataplex Universal Catalog e um pipeline de origem do Dataplex Universal Catalog para um coletor do BigQuery.
Para usar um pipeline de exemplo, abra sua instância na interface do Cloud Data Fusion, clique em Hub > Pipelines e selecione um dos pipelines do Catálogo universal do Dataplex. Uma caixa de diálogo vai aparecer para ajudar você a criar o pipeline.
A seguir
- Ingira dados com o Cloud Data Fusion usando o plug-in de coletor do Universal Catalog do Dataplex.