Panoramica di Cloud Data Fusion

Cloud Data Fusion è un servizio di integrazione dei dati aziendali cloud-native completamente gestito per creare e gestire rapidamente pipeline di dati. L'interfaccia web di Cloud Data Fusion ti consente di creare soluzioni di integrazione dei dati scalabili. Ti consente di connetterti a varie origini dati, trasformare i dati e poi trasferirli a vari sistemi di destinazione, senza dover gestire l'infrastruttura.

Cloud Data Fusion è basato sul progetto open source CDAP.

Inizia a utilizzare Cloud Data Fusion

Puoi iniziare a esplorare Cloud Data Fusion in pochi minuti.

Esplora Cloud Data Fusion

I componenti principali di Cloud Data Fusion sono spiegati nelle sezioni seguenti.

Progetto tenant

L'insieme di servizi necessari per creare e orchestrare le pipeline di Cloud Data Fusion e archiviare i metadati delle pipeline viene sottoposto a provisioning in un progetto tenant, all'interno di un'unità tenant. Per ogni progetto cliente viene creato un progetto tenant separato, in cui viene eseguito il provisioning delle istanze di Cloud Data Fusion. Il progetto tenant eredita tutte le configurazioni di rete e firewall dal progetto cliente.

Cloud Data Fusion: console

La console Cloud Data Fusion, detta anche piano di controllo, è un insieme di operazioni API e un'interfaccia web che gestiscono l'istanza Cloud Data Fusion stessa, ad esempio la creazione, l'eliminazione, il riavvio e l'aggiornamento.

Cloud Data Fusion: Studio

Cloud Data Fusion Studio, detto anche piano dati, è un insieme di operazioni API REST e di interfaccia web che gestiscono la creazione, l'esecuzione e la gestione di pipeline e artefatti correlati.

Concetti

Questa sezione introduce alcuni dei concetti fondamentali di Cloud Data Fusion.

Concetto Descrizione
Link all'istanza Cloud Data Fusion
  • Un' istanza Cloud Data Fusion è un deployment univoco di Cloud Data Fusion. Per iniziare a utilizzare Cloud Data Fusion, crea un'istanza Cloud Data Fusion tramite la Google Cloud console.
  • Puoi creare più istanze in un singolo Google Cloud console progetto e specificare la Google Cloud regione in cui creare le istanze Cloud Data Fusion.
  • In base ai requisiti e ai vincoli di costo, puoi creare un' istanza Developer, Basic o Enterprise.
  • Ogni istanza Cloud Data Fusion contiene un deployment Cloud Data Fusion univoco e indipendente che include un insieme di servizi che gestiscono la gestione del ciclo di vita, l'orchestrazione, il coordinamento e la gestione dei metadati delle pipeline. Questi servizi vengono eseguiti utilizzando risorse a lunga esecuzione in un progetto tenant.
Link allo spazio dei nomi Uno spazio dei nomi è un raggruppamento logico di applicazioni, dati e i metadati associati in un'istanza Cloud Data Fusion. Puoi considerare gli spazi dei nomi come una partizione dell'istanza. In una singola istanza, uno spazio dei nomi archivia i dati e i metadati di un'entità in modo indipendente da un altro spazio dei nomi.
Link alla pipeline
  • Una pipeline è un modo per progettare visivamente i flussi di dati e di controllo per estrarre, trasformare, combinare, aggregare e caricare dati da varie origini dati on-premise e cloud.
  • La creazione di pipeline consente di creare flussi di lavoro di elaborazione dei dati complessi che possono aiutarti a risolvere i problemi di importazione dati, integrazione e migrazione dei dati. A seconda delle tue esigenze, puoi utilizzare Cloud Data Fusion per creare pipeline batch e in tempo reale.
  • Le pipeline consentono di esprimere i flussi di lavoro di elaborazione dei dati utilizzando il flusso logico dei dati, mentre Cloud Data Fusion gestisce tutte le funzionalità necessarie per l'esecuzione fisica in un ambiente di esecuzione.
Link al nodo della pipeline
  • Nella pagina Studio dell'interfaccia web di Cloud Data Fusion, le pipeline sono rappresentate come una serie di nodi disposti in un grafico aciclico diretto (DAG), che formano un flusso unidirezionale.
  • I nodi rappresentano le varie azioni che puoi eseguire con le pipeline, ad esempio la lettura dalle origini, l'esecuzione di trasformazioni dei dati e la scrittura dell'output nei sink. Puoi sviluppare pipeline di dati nell'interfaccia web di Cloud Data Fusion collegando origini, trasformazioni, sink e altri nodi.
Plugin
  • Un plug-in è un modulo personalizzabile che consente di estendere le funzionalità di Cloud Data Fusion.
  • Cloud Data Fusion fornisce plug-in per origini, trasformazioni, aggregazioni, sink, raccoglitori di errori, pubblicazione di avvisi, azioni e azioni post-esecuzione.
  • Un plug-in viene a volte chiamato nodo, in genere nel contesto dell'interfaccia web di Cloud Data Fusion.
  • Per scoprire e accedere ai plug-in Cloud Data Fusion più diffusi, consulta Plug-in Cloud Data Fusion.
Link all'hub Nell'interfaccia web di Cloud Data Fusion, per sfogliare plug-in, pipeline di esempio e altre integrazioni, fai clic su Hub. Quando viene rilasciata una nuova versione di un plug-in, questa è visibile nell'hub in qualsiasi istanza compatibile. Questo vale anche se l'istanza è stata creata prima il plug-in è stato rilasciato.
Link all'anteprima della pipeline
  • Cloud Data Fusion Studio ti consente di testare l'accuratezza della progettazione della pipeline utilizzando Anteprima sul sottoinsieme di dati.
  • Una pipeline in anteprima viene eseguita nel progetto tenant.
Link all'esecuzione della pipeline
  • Cloud Data Fusion crea ambienti di esecuzione temporanei per eseguire le pipeline.
  • Cloud Data Fusion supporta Managed Service for Apache Spark come ambiente di esecuzione .
  • Cloud Data Fusion esegue il provisioning di un cluster Managed Service for Apache Spark temporaneo nel progetto cliente all'inizio dell'esecuzione di una pipeline, esegue la pipeline utilizzando Spark nel cluster e poi elimina il cluster al termine dell'esecuzione della pipeline.
  • In alternativa, se gestisci i cluster Managed Service for Apache Spark in ambienti controllati, tramite tecnologie come Terraform, puoi anche configurare Cloud Data Fusion in modo che non esegua il provisioning dei cluster. In questi ambienti, puoi eseguire le pipeline sui cluster Managed Service for Apache Spark esistenti.
Link al profilo di calcolo
  • Un profilo di calcolo specifica come e dove viene eseguita una pipeline. Un profilo incapsula tutte le informazioni necessarie per configurare ed eliminare l'ambiente di esecuzione fisico di una pipeline.
  • Ad esempio, un profilo di calcolo include quanto segue:
    • Provisioner di esecuzione
    • Risorse (memoria e CPU)
    • Numero minimo e massimo di nodi
    • Altri valori
  • Un profilo è identificato dal nome e deve essere assegnato a un provisioner e alla relativa configurazione. Un profilo può esistere a livello di istanza Cloud Data Fusion o a livello di spazio dei nomi.
  • Il profilo di calcolo predefinito di Cloud Data Fusion è Scalabilità automatica.
Link alla pipeline riutilizzabile
  • Le pipeline di dati riutilizzabili in Cloud Data Fusion consentono di creare una singola pipeline che può applicare un pattern di integrazione dei dati a una varietà di casi d'uso e set di dati.
  • Le pipeline riutilizzabili offrono una migliore gestibilità impostando la maggior parte di la configurazione di una pipeline in fase di esecuzione, anziché codificarla in modo rigido in fase di progettazione.
Trigger
  • Cloud Data Fusion supporta la creazione di un trigger su una pipeline di dati (chiamata pipeline downstream) per eseguirla al completamento di una o più pipeline diverse (chiamate pipeline upstream). Scegli quando eseguire la pipeline downstream, ad esempio in caso di esecuzione riuscita, non riuscita, interruzione o qualsiasi combinazione di queste opzioni per l'esecuzione della pipeline upstream.
  • I trigger sono utili nei seguenti casi:
    • Pulizia dei dati una sola volta e poi renderli disponibili per l'utilizzo in più pipeline downstream.
    • Condivisione di informazioni, come argomenti di runtime e configurazioni dei plug-in, tra le pipeline. Questa operazione è chiamata Payload configurazione.
    • Disponibilità di un insieme di pipeline dinamiche che possono essere eseguite utilizzando i dati dell'ora, del giorno, della settimana o del mese, anziché utilizzare una pipeline statica che deve essere aggiornata a ogni esecuzione.

Risorse di Cloud Data Fusion

Esplora le risorse di Cloud Data Fusion:

Passaggi successivi