Questa pagina spiega l'orchestrazione delle pipeline con Managed Service for Apache Airflow e i trigger. Cloud Data Fusion consiglia di utilizzare Managed Airflow per orchestrare le pipeline. Se hai bisogno di un modo più semplice per gestire l'orchestrazione, utilizza i trigger.
Composer
Orchestrare le pipeline con Managed Airflow
L'orchestrazione dell'esecuzione della pipeline in Cloud Data Fusion con Managed Airflow offre i seguenti vantaggi:
- Gestione centralizzata del flusso di lavoro:gestisci in modo uniforme l'esecuzione di più pipeline Cloud Data Fusion.
- Gestione delle dipendenze:per garantire l'ordine di esecuzione corretto, definisci le dipendenze tra le pipeline.
- Monitoraggio e avvisi:Managed Airflow fornisce funzionalità di monitoraggio e avvisi per gli errori.
- Integrazione con altri servizi:Managed Airflow ti consente di orchestrare flussi di lavoro che si estendono a Cloud Data Fusion e ad altri serviziGoogle Cloud .
Per orchestrare le pipeline Cloud Data Fusion utilizzando Managed Airflow, segui questa procedura:
Configura l'ambiente Managed Airflow.
- Crea un ambiente Managed Airflow. Se non ne hai uno, esegui il provisioning dell'ambiente nel tuo progetto Google Cloud . Questo ambiente è il tuo spazio di lavoro di orchestrazione.
- Concedi le autorizzazioni. Assicurati che il account di servizio Managed Airflow disponga delle autorizzazioni necessarie per accedere a Cloud Data Fusion (ad esempio l'autorizzazione per avviare, arrestare ed elencare le pipeline).
Definisci i grafi diretti aciclici (DAG) per l'orchestrazione.
- Crea un DAG:in Managed Airflow, crea un DAG che definisca il flusso di lavoro di orchestrazione per le pipeline Cloud Data Fusion.
- Operatori Cloud Data Fusion:utilizza gli operatori Cloud Data Fusion di Managed Airflow all'interno del tuo DAG. Questi operatori ti consentono di interagire in modo programmatico con Cloud Data Fusion.
Operatori Cloud Data Fusion
L'orchestrazione delle pipeline Cloud Data Fusion ha i seguenti operatori:
CloudDataFusionStartPipelineOperatorAttiva l'esecuzione di una pipeline Cloud Data Fusion in base al relativo ID. Ha i seguenti parametri:
- ID pipeline
- Località (Google Cloud regione)
- Spazio dei nomi della pipeline
- Argomenti di runtime (facoltativi)
- Attendi il completamento (facoltativo)
- Timeout (facoltativo)
CloudDataFusionStopPipelineOperatorConsente di interrompere una pipeline Cloud Data Fusion in esecuzione.
CloudDataFusionDeletePipelineOperatorElimina una pipeline Cloud Data Fusion.
Crea il workflow DAG
Quando crei il workflow DAG, considera quanto segue:
- Definizione delle dipendenze:utilizza la struttura DAG per definire le dipendenze tra le attività. Ad esempio, potresti avere un'attività che attende il completamento di una pipeline in uno spazio dei nomi prima di attivare un'altra pipeline in uno spazio dei nomi diverso.
- Pianificazione:pianifica l'esecuzione del DAG a intervalli specifici, ad esempio giornalieri o orari, oppure impostalo in modo che venga attivato manualmente.
Per saperne di più, consulta la panoramica di Managed Airflow.
Trigger
Orchestrare le pipeline con i trigger
I trigger di Cloud Data Fusion consentono di eseguire automaticamente una pipeline downstream al completamento (riuscita, errore o qualsiasi condizione specificata) di una o più pipeline upstream.
I trigger sono utili per le seguenti attività:
- Pulire i dati una sola volta e renderli disponibili a più pipeline downstream per il consumo.
- Condivisione di informazioni, come argomenti di runtime e configurazioni dei plug-in, tra le pipeline. Questa attività è chiamata configurazione del payload.
- Un insieme di pipeline dinamiche che vengono eseguite utilizzando i dati dell'ora, del giorno, della settimana o del mese, anziché una pipeline statica che deve essere aggiornata a ogni esecuzione.
Ad esempio, hai un set di dati che contiene tutte le informazioni sulle spedizioni della tua azienda. In base a questi dati, vuoi rispondere a diverse domande aziendali. A questo scopo, crea una pipeline che pulisce i dati non elaborati sulle spedizioni, denominata Shipments Data Cleaning. Poi crei una seconda pipeline, Delayed Shipments USA, che legge i dati puliti e trova le spedizioni negli Stati Uniti che hanno subito un ritardo superiore a una soglia specificata. La pipeline Delayed Shipments USA può essere attivata non appena la pipeline upstream Shipments Data Cleaning viene completata correttamente.
Inoltre, poiché la pipeline downstream utilizza l'output della pipeline upstream, devi specificare che quando la pipeline downstream viene eseguita utilizzando questo trigger, riceve anche la directory di input da cui leggere (ovvero la directory in cui la pipeline upstream ha generato l'output). Questo processo è chiamato configurazione del passaggio del payload, che definisci con gli argomenti di runtime. Consente di avere un insieme di pipeline dinamiche che vengono eseguite utilizzando i dati dell'ora, del giorno, della settimana o del mese (non una pipeline statica, che deve essere aggiornata a ogni esecuzione).
Per orchestrare le pipeline con i trigger, segui questa procedura:
Crea pipeline upstream e downstream.
- In Cloud Data Fusion Studio, progetta ed esegui il deployment delle pipeline che formano la catena di orchestrazione.
- Considera il completamento di quale pipeline attiverà la pipeline successiva (a valle) nel flusso di lavoro.
(Facoltativo) Trasmetti gli argomenti di runtime per le pipeline upstream.
- Se devi trasferire la configurazione del payload come argomenti di runtime tra le pipeline, configura gli argomenti di runtime. Questi argomenti possono essere passati alla pipeline downstream durante l'esecuzione.
Crea un trigger in entrata nella pipeline downstream.
- In Cloud Data Fusion Studio, vai alla pagina Elenco. Nella scheda Eseguito il deployment, fai clic sul nome della pipeline downstream. Viene visualizzata la visualizzazione Deploy per quella pipeline.
- Nella parte centrale a sinistra della pagina, fai clic su Attivatori in entrata. Viene visualizzato un elenco di pipeline disponibili.
- Fai clic sulla pipeline upstream. Seleziona uno o più stati di completamento della pipeline upstream (Riuscita, Errore o Interruzione) come condizione per l'esecuzione della pipeline downstream.
- Se vuoi che la pipeline upstream condivida informazioni (chiamate configurazione del payload) con la pipeline downstream, fai clic su Configurazione trigger e poi segui i passaggi per trasferire la configurazione del payload come argomenti di runtime. In caso contrario, fai clic su Attiva trigger.
Testa l'attivatore.
- Avvia un'esecuzione della pipeline upstream.
- Se il trigger è configurato correttamente, la pipeline downstream viene eseguita automaticamente al termine delle pipeline upstream, in base alla condizione configurata.
Trasmetti la configurazione del payload come argomenti di runtime
La configurazione del payload consente la condivisione delle informazioni dalla pipeline upstream alla pipeline downstream. Queste informazioni possono essere, ad esempio, la directory di output, il formato dei dati o il giorno in cui è stata eseguita la pipeline. Queste informazioni vengono poi utilizzate dalla pipeline downstream per decisioni come la determinazione del set di dati corretto da cui leggere.
Per trasferire informazioni dalla pipeline upstream alla pipeline downstream, imposta gli argomenti di runtime della pipeline downstream con i valori degli argomenti di runtime o della configurazione di qualsiasi plug-in nella pipeline upstream.
Ogni volta che la pipeline downstream viene attivata ed eseguita, la configurazione del payload viene impostata utilizzando gli argomenti di runtime dell'esecuzione specifica della pipeline upstream che ha attivato la pipeline downstream.
Per trasmettere la configurazione del payload come argomenti di runtime:
- Riprendendo da dove avevi interrotto in Creazione di un trigger in entrata, dopo aver fatto clic su Configurazione trigger, verranno visualizzati tutti gli argomenti di runtime che hai impostato in precedenza per la pipeline upstream. Scegli gli argomenti di runtime da passare dalla pipeline upstream alla pipeline downstream quando viene eseguito questo trigger.
- Fai clic sulla scheda Plugin config (Configurazione plug-in) per visualizzare un elenco di ciò che verrà trasferito dalla pipeline upstream alla pipeline downstream quando viene attivata.
- Fai clic su Configura e attiva trigger.