Cloud Data Fusion fornisce un plug-in sink Dataplex Universal Catalog per l'importazione dei dati in uno qualsiasi degli asset supportati da Dataplex Universal Catalog.
Prima di iniziare
- Se non hai un'istanza Cloud Data Fusion, creane una. Questo plug-in è disponibile nelle istanze che vengono eseguite in Cloud Data Fusion versione 6.6 o successiva. Per saperne di più, vedi Crea un'istanza pubblica Cloud Data Fusion.
- Il set di dati BigQuery o il bucket Cloud Storage in cui vengono importati i dati deve far parte di un lake Dataplex Universal Catalog.
- Affinché i dati vengano letti dalle entità Cloud Storage, Dataproc Metastore deve essere collegato al lake.
- I dati CSV nelle entità Cloud Storage non sono supportati.
- Nel progetto Dataplex Universal Catalog, abilita l'accesso privato Google sulla subnet, che in genere è impostata su
default
, oppure impostainternal_ip_only
sufalse
.
Ruoli obbligatori
Per ottenere le autorizzazioni
necessarie per gestire i ruoli,
chiedi all'amministratore di concederti i seguenti ruoli IAM per il service agent Dataproc e il service agent Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com
):
-
Sviluppatore Dataplex (
roles/dataplex.developer
) -
Dataplex Data Reader (
roles/dataplex.dataReader
) -
Dataproc Metastore Metadata User (
roles/metastore.metadataUser
) -
Cloud Dataplex Service Agent (
roles/dataplex.serviceAgent
) -
Dataplex Metadata Reader (
roles/dataplex.metadataReader
)
Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Aggiungi il plug-in alla pipeline
Nella console Google Cloud , vai alla pagina Istanze di Cloud Data Fusion.
Questa pagina ti consente di gestire le tue istanze.
Per aprire l'istanza, fai clic su Visualizza istanza.
Vai alla pagina Studio, espandi il menu Sink e fai clic su Dataplex.
Configurare il plug-in
Dopo aver aggiunto questo plug-in alla pipeline nella pagina Studio, fai clic sul sink Dataplex Universal Catalog per configurare e salvare le relative proprietà.
Per ulteriori informazioni sulle configurazioni, consulta il riferimento Sink Dataplex.
(Facoltativo) Inizia a utilizzare una pipeline di esempio
Sono disponibili pipeline di esempio, tra cui una pipeline di origine SAP a una pipeline sink di Dataplex Universal Catalog e una pipeline di origine Dataplex Universal Catalog a una pipeline sink di BigQuery.
Per utilizzare una pipeline di esempio, apri l'istanza nella UI di Cloud Data Fusion, fai clic su Hub > Pipeline e seleziona una delle pipeline di Dataplex Universal Catalog. Si apre una finestra di dialogo che ti aiuta a creare la pipeline.
Esegui la pipeline
Dopo aver eseguito il deployment della pipeline, aprila nella pagina Studio di Cloud Data Fusion.
Fai clic su Configura > Risorse.
(Facoltativo) Modifica la CPU dell'executor e la memoria in base alle dimensioni complessive dei dati e al numero di trasformazioni utilizzate nella pipeline.
Fai clic su Salva.
Per avviare la pipeline di dati, fai clic su Esegui.
Passaggi successivi
- Elabora i dati con Cloud Data Fusion utilizzando il plug-in di origine del Catalogo universale Dataplex.