Google utilizza la tecnologia AI per tradurre i contenuti nella tua lingua preferita. Le traduzioni generate dall'AI potrebbero contenere errori.

Eseguire il deployment delle pipeline ed eseguirle

Questa pagina descrive le nozioni di base sul deployment e l'esecuzione di pipeline in Cloud Data Fusion.

Esegui il deployment delle pipeline

Dopo aver completato la progettazione e il debug di una pipeline di dati e aver ottenuto i dati desiderati in Anteprima, puoi eseguire il deployment della pipeline.

Quando esegui il deployment della pipeline, Cloud Data Fusion Studio crea il flusso di lavoro e i job Apache Spark corrispondenti in background.

Esegui le pipeline

Dopo aver eseguito il deployment di una pipeline, puoi eseguirla nei seguenti modi:

Per eseguire una pipeline on demand, apri una pipeline di cui è stato eseguito il deployment e fai clic su Esegui.
Per pianificare l'esecuzione della pipeline a una determinata ora, apri una pipeline di cui è stato eseguito il deployment e fai clic su Pianifica.
Per attivare la pipeline in base al completamento di un'altra pipeline, apri una pipeline di cui è stato eseguito il deployment e fai clic su Trigger in entrata.

Pipeline Studio salva la cronologia di una pipeline ogni volta che viene eseguita. Puoi alternare le diverse versioni del runtime della pipeline.

Se la pipeline ha macro, imposta gli argomenti del runtime per ogni macro. Puoi anche rivedere e modificare le configurazioni della pipeline prima di eseguire la pipeline di cui è stato eseguito il deployment. Puoi visualizzare la modifica dello stato durante le fasi di esecuzione della pipeline, ad esempio In fase di provisioning, In fase di avvio, In esecuzione e Operazione riuscita. Puoi anche interrompere la pipeline in qualsiasi momento.

Se abiliti la strumentazione, puoi esplorare le metriche generate dalla pipeline facendo clic su Proprietà su qualsiasi nodo della pipeline, ad esempio un'origine, una trasformazione o un sink.

Per ulteriori informazioni sulle esecuzioni della pipeline, fai clic su Riepilogo.

Visualizza i record di esecuzione

Al termine dell'esecuzione di una pipeline, puoi visualizzare il record di esecuzione. Per impostazione predefinita, puoi visualizzare gli ultimi 30 giorni di record di esecuzione. Cloud Data Fusion li elimina dopo questo periodo. Puoi estendere questo periodo utilizzando l'API REST.

API REST

Per conservare i record di esecuzione per più di 30 giorni, aggiorna le opzioni app.run.records.ttl utilizzando il seguente comando:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'

Sostituisci quanto segue:

PROJECT_NAME: il Google Cloud nome del progetto
REGION_NAME: la regione dell'istanza Cloud Data Fusion, ad esempio us-east4
INSTANCE_NAME: l'ID istanza Cloud Data Fusion
DAYS: la quantità di tempo, in giorni, per conservare i record di esecuzione per le esecuzioni di pipeline precedenti, ad esempio 30.
HOURS: la frequenza, in ore, per verificare ed eliminare i record di esecuzione precedenti, ad esempio 24.

Esempio:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'

Passaggi successivi

Scopri di più sulle configurazioni delle pipeline.