Importare dati con Cloud Data Fusion

Cloud Data Fusion fornisce un plug-in Sink di Knowledge Catalog (in precedenza Dataplex Universal Catalog) per l'importazione di dati in uno qualsiasi degli asset supportati da Knowledge Catalog.

Prima di iniziare

  • Se non hai un'istanza Cloud Data Fusion, creane una. Questo plug-in è disponibile nelle istanze che eseguono Cloud Data Fusion versione 6.6 o successive. Per saperne di più, consulta Creare un'istanza pubblica di Cloud Data Fusion.
  • Il set di dati BigQuery o il bucket Cloud Storage in cui vengono importati i dati deve far parte di un lake Knowledge Catalog.
  • Affinché i dati vengano letti dalle entità Cloud Storage, Dataproc Metastore deve essere collegato al lake.
  • I dati CSV nelle entità Cloud Storage non sono supportati.
  • Nel progetto Knowledge Catalog, abilita l'accesso privato Google nella subnet, in genere impostata su default, oppure imposta internal_ip_only su false.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per gestire i ruoli, chiedi all'amministratore di concederti i seguenti ruoli IAM sull'agente di servizio Dataproc e sull'agente di servizio Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Aggiungere il plug-in alla pipeline

  1. Nellaconsole, vai alla pagina Istanze di Cloud Data Fusion. Google Cloud

    Vai a Istanze

    Questa pagina consente di gestire le istanze.

  2. Per aprire l'istanza, fai clic su Visualizza istanza.

  3. Vai alla pagina Studio , espandi il menu Sink e fai clic su Dataplex.

Configurare il plug-in

Dopo aver aggiunto questo plug-in alla pipeline nella pagina Studio, fai clic sul sink Knowledge Catalog per configurare e salvare le relative proprietà.

Per saperne di più sulle configurazioni, consulta il riferimento al sink Dataplex.

(Facoltativo) Iniziare a utilizzare una pipeline di esempio

Sono disponibili pipeline di esempio, tra cui una pipeline di sink da origine SAP a Knowledge Catalog e una pipeline di sink da origine Knowledge Catalog a BigQuery.

Per utilizzare una pipeline di esempio, apri l'istanza nell'interfaccia utente di Cloud Data Fusion, fai clic su Hub > Pipeline e seleziona una delle pipeline di Knowledge Catalog. Si apre una finestra di dialogo che ti aiuta a creare la pipeline.

Eseguire la pipeline

  1. Dopo aver eseguito il deployment della pipeline, aprila nella pagina Studio di Cloud Data Fusion.

  2. Fai clic su Configura > Risorse.

  3. (Facoltativo) Modifica CPU dell'executor e Memoria in base alle dimensioni complessive dei dati e al numero di trasformazioni utilizzate nella pipeline.

  4. Fai clic su Salva.

  5. Per avviare la pipeline di dati, fai clic su Esegui.

Passaggi successivi