Crea una pipeline di dati
In questa guida rapida imparerai a:
- Creare un'istanza Cloud Data Fusion.
- Eseguire il deployment di una pipeline di esempio fornita con l'istanza Cloud Data Fusion. La pipeline esegue le seguenti operazioni:
- Legge un file JSON contenente i dati dei bestseller del New York Times da Cloud Storage.
- Esegue trasformazioni sul file per analizzare e pulire i dati.
- Carica in BigQuery i libri con le valutazioni più alte aggiunti nell'ultima settimana che costano meno di 25 $.
Prima di iniziare
Completa i seguenti passaggi prima di creare una pipeline di dati.
Configura il progetto
- Accedi al tuo Google Cloud account. Se non hai mai utilizzato Google Cloud, crea un account per valutare il rendimento dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti senza costi per l'esecuzione, il test e il deployment dei workload.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
Enable the Cloud Data Fusion API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
Enable the Cloud Data Fusion API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per creare un'istanza Cloud Data Fusion e gestire le pipeline, chiedi all'amministratore di concederti il ruolo IAM Cloud Data Fusion Admin (roles/datafusion.admin) nel progetto.
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Per assicurarti che il account di servizio predefinito di Compute Engine disponga delle autorizzazioni necessarie per eseguire il job Dataproc, chiedi all'amministratore di concedere i seguenti ruoli IAM al account di servizio predefinito di Compute Engine nel tuo progetto:
-
Dataproc Worker (
roles/dataproc.worker) -
Cloud Data Fusion Runner (
roles/datafusion.runner)
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
L'amministratore potrebbe anche essere in grado di concedere al account di servizio predefinito di Compute Engine le autorizzazioni richieste tramite ruoli personalizzati o altri ruoli predefiniti.
Creare un'istanza Cloud Data Fusion
- Fai clic su Crea un'istanza.
- Inserisci un nome istanza.
- Inserisci una descrizione per l'istanza.
- Inserisci la regione in cui creare l'istanza.
- Scegli la versione di Cloud Data Fusion da utilizzare.
- Scegli l'edizione di Cloud Data Fusion.
- Per le versioni di Cloud Data Fusion 6.2.3 e successive, nel campo Autorizzazione, scegli il service account Dataproc da utilizzare per l'esecuzione della pipeline Cloud Data Fusion in Dataproc. Il valore predefinito, Account Compute Engine, è preselezionato.
- Fai clic su Crea. Il completamento del processo di creazione dell'istanza richiede fino a 30 minuti. Mentre Cloud Data Fusion crea l'istanza, viene visualizzata una rotellina di avanzamento accanto al nome dell'istanza nella pagina Istanze. Al termine, si trasforma in un segno di spunta verde e indica che puoi iniziare a utilizzare l'istanza.
Navigare nell'interfaccia web di Cloud Data Fusion
Quando utilizzi Cloud Data Fusion, usi sia la Google Cloud console che l'interfaccia web separata di Cloud Data Fusion.
Nella Google Cloud console puoi:
- Creare un progetto della Google Cloud console
- Creare ed eliminare istanze Cloud Data Fusion
- Visualizzare i dettagli dell'istanza Cloud Data Fusion
Nell'interfaccia web di Cloud Data Fusion, puoi utilizzare varie pagine, come Studio o Wrangler, per utilizzare le funzionalità di Cloud Data Fusion.
Per navigare nell'interfaccia di Cloud Data Fusion:
- Nella Google Cloud console, apri la pagina Istanze.
- Nella colonna Azioni dell'istanza, fai clic sul link Visualizza istanza.
- Nell'interfaccia web di Cloud Data Fusion, utilizza il pannello di navigazione a sinistra per accedere alla pagina di cui hai bisogno.
Eseguire il deployment di una pipeline di esempio
Le pipeline di esempio sono disponibili tramite l'Hub di Cloud Data Fusion, che ti consente di condividere pipeline, plug-in, e soluzioni Cloud Data Fusion riutilizzabili.
- Nell'interfaccia web di Cloud Data Fusion, fai clic su Hub.
- Nel riquadro a sinistra, fai clic su Pipeline.
- Fai clic sulla pipeline Cloud Data Fusion Quickstart.
- Fai clic su Crea.
- Nel riquadro di configurazione di Cloud Data Fusion Quickstart, fai clic su Fine.
Fai clic su Personalizza pipeline.
Nella pagina Studio viene visualizzata una rappresentazione visiva della pipeline, che è un'interfaccia grafica per lo sviluppo di pipeline di integrazione dei dati. I plug-in della pipeline disponibili sono elencati a sinistra e la pipeline viene visualizzata nell'area principale della tela. Puoi esplorare la pipeline tenendo il puntatore su ogni nodo della pipeline e facendo clic su Proprietà. Il menu delle proprietà di ogni nodo consente di visualizzare gli oggetti e le operazioni associati al nodo.
Nel menu in alto a destra, fai clic su Esegui il deployment. Questo passaggio invia la pipeline a Cloud Data Fusion. Eseguirai la pipeline nella sezione successiva di questa guida rapida.

Visualizzare la pipeline
La pipeline di cui è stato eseguito il deployment viene visualizzata nella visualizzazione dei dettagli della pipeline, dove puoi:
- Visualizzare la struttura e la configurazione della pipeline.
- Eseguire la pipeline manualmente o configurare una pianificazione o un attivatore.
- Visualizzare un riepilogo delle esecuzioni storiche della pipeline, inclusi tempi di esecuzione, log e metriche.

Eseguire la pipeline
Nella visualizzazione dei dettagli della pipeline, fai clic su Esegui per eseguire la pipeline.

Quando esegue una pipeline, Cloud Data Fusion:
- Esegue il provisioning di un cluster Dataproc temporaneo
- Esegue la pipeline sul cluster utilizzando Apache Spark
- Elimina il cluster
Visualizza i risultati
Dopo alcuni minuti, la pipeline termina. Lo stato della pipeline cambia in Riuscito e viene visualizzato il numero di record elaborati da ogni nodo.

- Vai all'interfaccia web di BigQuery.
Per visualizzare un campione dei risultati, vai al set di dati
DataFusionQuickstartnel tuo progetto, fai clic sulla tabellatop_rated_inexpensivee poi esegui una query semplice. Ad esempio:SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10Sostituisci PROJECT_ID con l'ID progetto.

Libera spazio
Per evitare che al tuo Google Cloud account vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.
- Elimina il set di dati BigQuery in cui la pipeline ha scritto in questa guida rapida.
(Facoltativo) Elimina il progetto.
- Nella Google Cloud console, vai alla pagina Gestisci risorse.
- Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
- Nella finestra di dialogo, digita l'ID progetto e fai clic su Chiudi per eliminare il progetto.