A partir de 10 de abril de 2026, o Dataplex Universal Catalog será chamado de Knowledge Catalog. Os nomes da API, da biblioteca de cliente, da CLI e do IAM permanecem inalterados. Para mais informações, consulte Apresentação do Knowledge Catalog do Google Cloud.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Ingerir dados com o Cloud Data Fusion

O Cloud Data Fusion oferece um plug-in de coletor do Knowledge Catalog (antigo Dataplex Universal Catalog) para ingerir dados em qualquer um dos recursos compatíveis com o Knowledge Catalog.

Antes de começar

Se você não tiver uma instância do Cloud Data Fusion, crie uma. Esse plug-in está disponível em instâncias que executam o Cloud Data Fusion versão 6.6 ou posterior. Para mais informações, consulte Criar uma instância pública do Cloud Data Fusion.
O conjunto de dados do BigQuery ou o bucket do Cloud Storage em que os dados são ingeridos precisam fazer parte de um lake do Knowledge Catalog.
Para que os dados sejam lidos das entidades do Cloud Storage, o metastore do Dataproc precisa estar anexado ao data lake.
Não é possível usar dados CSV em entidades do Cloud Storage.
No projeto do Knowledge Catalog, ative o Acesso privado do Google na sub-rede, que geralmente é definida como default, ou defina internal_ip_only como false.

Funções exigidas

Para receber as permissões necessárias para gerenciar papéis, peça ao administrador para conceder a você os seguintes papéis do IAM no agente de serviço do Dataproc e no agente de serviço do Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):

Desenvolvedor do Dataplex (roles/dataplex.developer)
Leitor de dados do Dataplex (roles/dataplex.dataReader)
Usuário de metadados do metastore do Dataproc (roles/metastore.metadataUser)
Agente de serviço do Cloud Dataplex (roles/dataplex.serviceAgent)
Leitor de metadados do Dataplex (roles/dataplex.metadataReader)

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.

Adicionar o plug-in ao pipeline

No console Google Cloud , acesse a página Instâncias do Cloud Data Fusion.

Acesse "Instâncias"

Nesta página, é possível gerenciar suas instâncias.
Para abrir a instância, clique em Ver instância.
Acesse a página Studio, expanda o menu Coletor e clique em Dataplex.

Configurar o plug-in

Depois de adicionar esse plug-in ao pipeline na página Studio, clique no coletor do Knowledge Catalog para configurar e salvar as propriedades dele.

Para mais informações sobre configurações, consulte a referência do Dataplex Sink.

Opcional: começar a usar um pipeline de exemplo

Há pipelines de exemplo disponíveis, incluindo um pipeline de origem do SAP para um coletor do Knowledge Catalog e um pipeline de origem do Knowledge Catalog para um coletor do BigQuery.

Para usar um pipeline de amostra, abra sua instância na interface do Cloud Data Fusion, clique em Hub > Pipelines e selecione um dos pipelines do Knowledge Catalog. Uma caixa de diálogo vai aparecer para ajudar você a criar o pipeline.

Executar o pipeline

Depois de implantar o pipeline, abra-o na página Studio do Cloud Data Fusion.
Clique em Configurar > Recursos.
Opcional: mude a CPU do executor e a Memória com base no tamanho geral dos dados e no número de transformações usadas no pipeline.
Clique em Salvar.
Para iniciar o pipeline de dados, clique em Executar.

A seguir

Processe dados com o Cloud Data Fusion usando o plug-in de origem do Knowledge Catalog.

Ingerir dados com o Cloud Data Fusion Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.