Panoramica di Cloud Data Fusion
Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Cloud Data Fusion è un servizio di integrazione dei dati aziendali cloud-native completamente gestito per creare e gestire rapidamente pipeline di dati. L'interfaccia web di Cloud Data Fusion consente di creare soluzioni di integrazione dei dati scalabili. Consente di connettersi a varie origini dati, trasformare i dati e
trasferirli a vari sistemi di destinazione, senza dover gestire l'infrastruttura.
Cloud Data Fusion è basato sul progetto open source
CDAP.
Inizia a utilizzare Cloud Data Fusion
Puoi iniziare a esplorare Cloud Data Fusion in pochi minuti.
I componenti principali di Cloud Data Fusion sono spiegati nelle sezioni
seguenti.
Progetto tenant
L'insieme di servizi necessari per creare e orchestrare le pipeline Cloud Data Fusion e archiviare i metadati delle pipeline viene sottoposto a provisioning in un progetto tenant, all'interno di un'unità tenant. Per ogni progetto cliente viene creato un progetto tenant separato in cui vengono eseguito il provisioning delle istanze Cloud Data Fusion. Il progetto tenant eredita
tutte le configurazioni di rete e firewall dal progetto cliente.
Cloud Data Fusion: console
La console Cloud Data Fusion, detta anche control plane, è un insieme di operazioni API e un'interfaccia web che gestiscono l'istanza Cloud Data Fusion stessa, ad esempio la creazione, l'eliminazione, il riavvio e l'aggiornamento.
Cloud Data Fusion: Studio
Cloud Data Fusion Studio, chiamato anche data plane, è un insieme di operazioni
API REST e dell'interfaccia web
che si occupano della creazione, dell'esecuzione e della gestione delle pipeline e degli
artefatti correlati.
Concetti
Questa sezione introduce alcuni dei concetti fondamentali di Cloud Data Fusion.
Un'istanza Cloud Data Fusion è un deployment unico di
Cloud Data Fusion. Per iniziare a utilizzare Cloud Data Fusion, devi
creare un'istanza Cloud Data Fusion tramite la
console Google Cloud .
Puoi creare più istanze in un singolo progetto della console Google Cloud e specificare la regione Google Cloud in cui creare le istanze Cloud Data Fusion.
Ogni istanza di Cloud Data Fusion contiene un deployment di Cloud Data Fusion unico e indipendente che include un insieme di servizi che gestiscono il ciclo di vita, l'orchestrazione, il coordinamento e la gestione dei metadati delle pipeline. Questi servizi vengono eseguiti utilizzando risorse a lunga esecuzione in un progetto tenant.
Uno spazio dei nomi è un raggruppamento logico di applicazioni, dati e
metadati associati in un'istanza Cloud Data Fusion. Puoi pensare
agli spazi dei nomi come a una partizione dell'istanza. In una singola istanza,
uno spazio dei nomi memorizza i dati e i metadati di un'entità indipendentemente
da un altro spazio dei nomi.
Una pipeline è un modo per progettare visivamente i dati e controllare
i flussi per estrarre, trasformare, combinare, aggregare e caricare i dati da
varie origini dati on-premise e cloud.
La creazione di pipeline consente di creare flussi di lavoro complessi di trattamento dati
che possono aiutarti a risolvere i problemi di acquisizione dei dati, integrazione e
migrazione dei dati. Puoi utilizzare Cloud Data Fusion per creare pipeline batch e in tempo reale, a seconda delle tue esigenze.
Le pipeline ti consentono di esprimere i flussi di lavoro di elaborazione dei dati utilizzando
il flusso logico dei dati, mentre Cloud Data Fusion gestisce tutte le
funzionalità necessarie per l'esecuzione fisica in un ambiente
di esecuzione.
Nella pagina Studio dell'interfaccia web di Cloud Data Fusion,
le pipeline sono rappresentate come una serie di nodi disposti in un grafo
aciclico orientato (DAG), che formano un flusso unidirezionale.
I nodi rappresentano le varie azioni che puoi eseguire con le tue pipeline, ad esempio leggere dalle origini, eseguire trasformazioni dei dati e scrivere l'output nei sink. Puoi sviluppare pipeline di dati nell'interfaccia web di Cloud Data Fusion collegando origini, trasformazioni, sink e altri nodi.
Un plug-in è un modulo personalizzabile che può essere utilizzato per estendere le funzionalità di Cloud Data Fusion.
Cloud Data Fusion fornisce plug-in per origini, trasformazioni,
aggregazioni, sink, raccoglitori di errori, editori di avvisi, azioni e
azioni post-esecuzione.
Un plug-in viene talvolta chiamato nodo, di solito nel contesto dell'interfaccia web di Cloud Data Fusion.
Nell'interfaccia web di Cloud Data Fusion, per sfogliare plug-in, pipeline di esempio e altre integrazioni, fai clic su Hub. Quando viene rilasciata una nuova versione di un plug-in, questa è visibile nell'hub in qualsiasi istanza compatibile. Ciò vale anche se l'istanza è stata creata prima
del rilascio del plug-in.
Cloud Data Fusion esegue il provisioning di un cluster Managed Service for Apache Spark temporaneo nel progetto cliente all'inizio dell'esecuzione di una pipeline, esegue la pipeline utilizzando Spark nel cluster e poi elimina il cluster al termine dell'esecuzione della pipeline.
In alternativa, se gestisci i cluster Managed Service for Apache Spark
in ambienti controllati, tramite tecnologie come Terraform, puoi anche configurare Cloud Data Fusion in modo che non esegua il provisioning dei cluster. In
questi ambienti, puoi eseguire pipeline su cluster Managed Service for Apache Spark esistenti.
Un profilo di calcolo specifica come e dove viene eseguita una pipeline. Un profilo include tutte le informazioni necessarie per configurare ed eliminare l'ambiente di esecuzione fisico di una pipeline.
Ad esempio, un profilo di calcolo include quanto segue:
Execution provisioner
Risorse (memoria e CPU)
Numero minimo e massimo di nodi
Altri valori
Un profilo viene identificato in base al nome e deve essere assegnato a un provisioner
e alla relativa configurazione. Un profilo può esistere a livello di istanza Cloud Data Fusion o a livello di spazio dei nomi.
Il profilo di calcolo predefinito di Cloud Data Fusion è
Autoscaling.
Le pipeline di dati riutilizzabili in Cloud Data Fusion consentono la creazione
di una singola pipeline in grado di applicare un pattern di integrazione dei dati a una
varietà di casi d'uso e set di dati.
Le pipeline riutilizzabili offrono una migliore gestibilità impostando la maggior parte
della configurazione di una pipeline in fase di esecuzione, anziché
codificarla in modo permanente in fase di progettazione.
Cloud Data Fusion supporta la creazione di un trigger su una pipeline di dati (chiamata pipeline downstream) per eseguirla al termine di una o più pipeline diverse (chiamate pipeline upstream). Scegli quando eseguire la pipeline downstream, ad esempio in caso di esecuzione riuscita, non riuscita, interruzione o qualsiasi combinazione di questi eventi, della pipeline upstream.
Gli attivatori sono utili nei seguenti casi:
Pulire i dati una sola volta e poi renderli disponibili a
più pipeline downstream per il consumo.
Condivisione di informazioni, come argomenti di runtime e configurazioni dei plug-in, tra le pipeline. Questa operazione viene definita configurazione
del payload.
Disporre di un insieme di pipeline dinamiche che possono essere eseguite utilizzando i dati di
ora, giorno, settimana o mese, anziché utilizzare una pipeline statica
che deve essere aggiornata a ogni esecuzione.
Risorse Cloud Data Fusion
Esplora le risorse di Cloud Data Fusion:
Le note di rilascio forniscono i log delle modifiche
di funzionalità, modifiche e ritiri
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Difficile da capire","hardToUnderstand","thumb-down"],["Informazioni o codice di esempio errati","incorrectInformationOrSampleCode","thumb-down"],["Mancano le informazioni o gli esempi di cui ho bisogno","missingTheInformationSamplesINeed","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2026-06-25 UTC."],[],[]]