Halaman ini menjelaskan dasar-dasar tentang men-deploy dan menjalankan pipeline di Cloud Data Fusion.
Men-deploy pipeline
Setelah selesai mendesain dan men-debug pipeline data serta puas dengan data yang Anda lihat di Pratinjau, Anda siap men-deploy pipeline.
Saat Anda men-deploy pipeline, Cloud Data Fusion Studio akan membuat alur kerja dan tugas Apache Spark yang sesuai di latar belakang.
Menjalankan pipeline
Setelah men-deploy pipeline, Anda dapat menjalankan pipeline dengan cara berikut:
- Untuk menjalankan pipeline sesuai permintaan, buka pipeline yang di-deploy dan klik Run.
- Untuk menjadwalkan pipeline agar berjalan pada waktu tertentu, buka pipeline yang di-deploy, lalu klik Jadwalkan.
- Untuk memicu pipeline berdasarkan penyelesaian pipeline lain, buka pipeline yang di-deploy, lalu klik Pemicu masuk.
Pipeline Studio menyimpan histori pipeline setiap kali dijalankan. Anda dapat beralih di antara berbagai versi runtime pipeline.
Jika pipeline memiliki makro, tetapkan argumen runtime untuk setiap makro. Anda juga dapat meninjau dan mengubah konfigurasi pipeline sebelum menjalankan pipeline yang di-deploy. Anda dapat melihat perubahan status selama fase eksekusi pipeline, seperti Provisioning, Starting, Running, dan Succeeded. Anda juga dapat menghentikan pipeline kapan saja.
Jika mengaktifkan instrumentasi, Anda dapat menjelajahi metrik yang dihasilkan oleh pipeline dengan mengklik Properties di node mana pun dalam pipeline, seperti sumber, transformasi, atau sink.
Untuk mengetahui informasi selengkapnya tentang eksekusi pipeline, klik Ringkasan.
Melihat catatan operasi
Setelah eksekusi pipeline selesai, Anda dapat melihat catatan eksekusi. Secara default, Anda dapat melihat catatan operasi selama 30 hari terakhir. Cloud Data Fusion akan menghapusnya setelah periode tersebut. Anda dapat memperpanjang periode tersebut menggunakan REST API.
REST API
Untuk menyimpan catatan proses lebih dari 30 hari, perbarui opsi app.run.records.ttl
menggunakan perintah berikut:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'
Ganti kode berikut:
PROJECT_NAME: Google Cloud nama projectREGION_NAME: region instance Cloud Data Fusion, misalnya,us-east4INSTANCE_NAME: ID instance Cloud Data FusionDAYS: Jumlah waktu, dalam hari, untuk menyimpan catatan proses untuk proses pipeline lama—misalnya,30.HOURS: frekuensi, dalam jam, untuk memeriksa dan menghapus catatan proses lama—misalnya,24.
Contoh:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'
Langkah berikutnya
- Pelajari lebih lanjut konfigurasi pipeline.