Cloud Data Fusion fornisce un plug-in Sink di Knowledge Catalog (in precedenza Dataplex Universal Catalog) per l'importazione di dati in uno qualsiasi degli asset supportati da Knowledge Catalog.
Prima di iniziare
- Se non hai un'istanza Cloud Data Fusion, creane una. Questo plug-in è disponibile nelle istanze che eseguono Cloud Data Fusion versione 6.6 o successive. Per saperne di più, consulta Creare un'istanza pubblica di Cloud Data Fusion.
- Il set di dati BigQuery o il bucket Cloud Storage in cui vengono importati i dati deve far parte di un lake Knowledge Catalog.
- Affinché i dati vengano letti dalle entità Cloud Storage, Dataproc Metastore deve essere collegato al lake.
- I dati CSV nelle entità Cloud Storage non sono supportati.
- Nel progetto Knowledge Catalog, abilita l'accesso privato Google nella subnet, in genere impostata su
default, oppure impostainternal_ip_onlysufalse.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per gestire i ruoli,
chiedi all'amministratore di concederti i
seguenti ruoli IAM sull'agente di servizio Dataproc e sull'agente di servizio Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):
- Sviluppatore Dataplex (
roles/dataplex.developer) - Lettore dati Dataplex (
roles/dataplex.dataReader) - Utente metadati Dataproc Metastore (
roles/metastore.metadataUser) - Agente di servizio Cloud Dataplex (
roles/dataplex.serviceAgent) - Dataplex Metadata Reader (
roles/dataplex.metadataReader)
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Aggiungere il plug-in alla pipeline
Nellaconsole, vai alla pagina Istanze di Cloud Data Fusion. Google Cloud
Questa pagina consente di gestire le istanze.
Per aprire l'istanza, fai clic su Visualizza istanza.
Vai alla pagina Studio , espandi il menu Sink e fai clic su Dataplex.
Configurare il plug-in
Dopo aver aggiunto questo plug-in alla pipeline nella pagina Studio, fai clic sul sink Knowledge Catalog per configurare e salvare le relative proprietà.
Per saperne di più sulle configurazioni, consulta il riferimento al sink Dataplex.
(Facoltativo) Iniziare a utilizzare una pipeline di esempio
Sono disponibili pipeline di esempio, tra cui una pipeline di sink da origine SAP a Knowledge Catalog e una pipeline di sink da origine Knowledge Catalog a BigQuery.
Per utilizzare una pipeline di esempio, apri l'istanza nell'interfaccia utente di Cloud Data Fusion, fai clic su Hub > Pipeline e seleziona una delle pipeline di Knowledge Catalog. Si apre una finestra di dialogo che ti aiuta a creare la pipeline.
Eseguire la pipeline
Dopo aver eseguito il deployment della pipeline, aprila nella pagina Studio di Cloud Data Fusion.
Fai clic su Configura > Risorse.
(Facoltativo) Modifica CPU dell'executor e Memoria in base alle dimensioni complessive dei dati e al numero di trasformazioni utilizzate nella pipeline.
Fai clic su Salva.
Per avviare la pipeline di dati, fai clic su Esegui.
Passaggi successivi
- Elabora i dati con Cloud Data Fusion utilizzando il plug-in Origine Knowledge Catalog.