Questa pagina descrive le nozioni di base sul deployment e l'esecuzione di pipeline in Cloud Data Fusion.
Esegui il deployment delle pipeline
Dopo aver completato la progettazione e il debug di una pipeline di dati e aver ottenuto i dati desiderati in Anteprima, puoi eseguire il deployment della pipeline.
Quando esegui il deployment della pipeline, Cloud Data Fusion Studio crea il flusso di lavoro e i job Apache Spark corrispondenti in background.
Esegui le pipeline
Dopo aver eseguito il deployment di una pipeline, puoi eseguirla nei seguenti modi:
- Per eseguire una pipeline on demand, apri una pipeline di cui è stato eseguito il deployment e fai clic su Esegui.
- Per pianificare l'esecuzione della pipeline a una determinata ora, apri una pipeline di cui è stato eseguito il deployment e fai clic su Pianifica.
- Per attivare la pipeline in base al completamento di un'altra pipeline, apri una pipeline di cui è stato eseguito il deployment e fai clic su Trigger in entrata.
Pipeline Studio salva la cronologia di una pipeline ogni volta che viene eseguita. Puoi alternare le diverse versioni del runtime della pipeline.
Se la pipeline ha macro, imposta gli argomenti del runtime per ogni macro. Puoi anche rivedere e modificare le configurazioni della pipeline prima di eseguire la pipeline di cui è stato eseguito il deployment. Puoi visualizzare la modifica dello stato durante le fasi di esecuzione della pipeline, ad esempio In fase di provisioning, In fase di avvio, In esecuzione e Operazione riuscita. Puoi anche interrompere la pipeline in qualsiasi momento.
Se abiliti la strumentazione, puoi esplorare le metriche generate dalla pipeline facendo clic su Proprietà su qualsiasi nodo della pipeline, ad esempio un'origine, una trasformazione o un sink.
Per ulteriori informazioni sulle esecuzioni della pipeline, fai clic su Riepilogo.
Visualizza i record di esecuzione
Al termine dell'esecuzione di una pipeline, puoi visualizzare il record di esecuzione. Per impostazione predefinita, puoi visualizzare gli ultimi 30 giorni di record di esecuzione. Cloud Data Fusion li elimina dopo questo periodo. Puoi estendere questo periodo utilizzando l'API REST.
API REST
Per conservare i record di esecuzione per più di 30 giorni, aggiorna le opzioni app.run.records.ttl utilizzando il seguente comando:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'
Sostituisci quanto segue:
PROJECT_NAME: il Google Cloud nome del progettoREGION_NAME: la regione dell'istanza Cloud Data Fusion, ad esempious-east4INSTANCE_NAME: l'ID istanza Cloud Data FusionDAYS: la quantità di tempo, in giorni, per conservare i record di esecuzione per le esecuzioni di pipeline precedenti, ad esempio30.HOURS: la frequenza, in ore, per verificare ed eliminare i record di esecuzione precedenti, ad esempio24.
Esempio:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'
Passaggi successivi
- Scopri di più sulle configurazioni delle pipeline.