Halaman ini menjelaskan orkestrasi pipeline dengan Managed Service untuk Apache Airflow dan pemicu. Cloud Data Fusion merekomendasikan penggunaan Managed Airflow untuk mengorkestrasi pipeline. Jika Anda memerlukan cara yang lebih sederhana untuk mengelola orkestrasi, gunakan pemicu.
Komposer
Mengorkestrasi pipeline dengan Managed Airflow
Mengorkestrasi eksekusi pipeline di Cloud Data Fusion dengan Managed Airflow memberikan manfaat berikut:
- Pengelolaan alur kerja terpusat: mengelola eksekusi beberapa pipeline Cloud Data Fusion secara seragam.
- Pengelolaan dependensi: untuk memastikan urutan eksekusi yang tepat, tentukan dependensi antar-pipeline.
- Pemantauan dan pemberitahuan: Managed Airflow menyediakan kemampuan pemantauan dan pemberitahuan untuk kegagalan.
- Integrasi dengan layanan lain: Managed Airflow memungkinkan Anda mengatur alur kerja yang mencakup Cloud Data Fusion dan layananGoogle Cloud lainnya.
Untuk mengorkestrasi pipeline Cloud Data Fusion menggunakan Managed Airflow, ikuti proses berikut:
Siapkan lingkungan Managed Airflow.
- Buat lingkungan Managed Airflow. Jika Anda belum memilikinya, sediakan lingkungan di project Google Cloud Anda. Lingkungan ini adalah ruang kerja orkestrasi Anda.
- Berikan izin. Pastikan akun layanan Managed Airflow memiliki izin yang diperlukan untuk mengakses Cloud Data Fusion (seperti izin untuk memulai, menghentikan, dan mencantumkan pipeline).
Tentukan Directed Acyclic Graph (DAG) untuk orkestrasi.
- Buat DAG: Di Managed Airflow, buat DAG yang menentukan alur kerja orkestrasi untuk pipeline Cloud Data Fusion Anda.
- Operator Cloud Data Fusion: Gunakan Operator Cloud Data Fusion Managed Airflow dalam DAG Anda. Operator ini memungkinkan Anda berinteraksi dengan Cloud Data Fusion secara terprogram.
Operator Cloud Data Fusion
Orkestrasi pipeline Cloud Data Fusion memiliki operator berikut:
CloudDataFusionStartPipelineOperatorMemicu eksekusi pipeline Cloud Data Fusion berdasarkan ID-nya. Laporan ini memiliki parameter berikut:
- ID Pipeline
- Lokasi (Google Cloud wilayah)
- Namespace pipeline
- Argumen runtime (opsional)
- Tunggu hingga selesai (opsional)
- Waktu tunggu (opsional)
CloudDataFusionStopPipelineOperatorMemungkinkan Anda menghentikan pipeline Cloud Data Fusion yang sedang berjalan.
CloudDataFusionDeletePipelineOperatorMenghapus pipeline Cloud Data Fusion.
Membangun alur kerja DAG
Saat Anda membuat alur kerja DAG, pertimbangkan hal berikut:
- Menentukan dependensi: Gunakan struktur DAG untuk menentukan dependensi antar-tugas. Misalnya, Anda mungkin memiliki tugas yang menunggu pipeline di satu namespace selesai dengan berhasil sebelum memicu pipeline lain di namespace yang berbeda.
- Penjadwalan: Jadwalkan DAG untuk berjalan pada interval tertentu, seperti harian atau per jam, atau tetapkan agar dipicu secara manual.
Untuk mengetahui informasi selengkapnya, lihat Ringkasan Managed Airflow.
Pemicu
Mengorkestrasi pipeline dengan pemicu
Pemicu Cloud Data Fusion memungkinkan Anda menjalankan pipeline hilir secara otomatis setelah penyelesaian (berhasil, gagal, atau kondisi tertentu) satu atau beberapa pipeline hulu.
Pemicu berguna untuk tugas berikut:
- Membersihkan data Anda sekali, lalu menyediakannya untuk digunakan oleh beberapa pipeline hilir.
- Membagikan informasi, seperti argumen runtime dan konfigurasi plugin, antar-pipeline. Tugas ini disebut konfigurasi payload.
- Memiliki serangkaian pipeline dinamis yang berjalan menggunakan data dari jam, hari, minggu, atau bulan, bukan pipeline statis yang harus diperbarui untuk setiap kali berjalan.
Misalnya, Anda memiliki set data yang berisi semua informasi tentang pengiriman perusahaan Anda. Berdasarkan data ini, Anda ingin menjawab beberapa pertanyaan bisnis. Untuk melakukannya, Anda membuat satu pipeline yang membersihkan data mentah tentang pengiriman, yang disebut Shipments Data Cleaning. Kemudian, Anda membuat pipeline kedua, Delayed Shipments USA, yang membaca data yang telah dibersihkan dan menemukan pengiriman di Amerika Serikat yang tertunda hingga melebihi batas tertentu. Pipeline Delayed Shipments USA dapat dipicu segera setelah pipeline Shipments Data Cleaning di upstream berhasil diselesaikan.
Selain itu, karena pipeline hilir menggunakan output pipeline hulu, Anda harus menentukan bahwa saat pipeline hilir berjalan menggunakan pemicu ini, pipeline tersebut juga menerima direktori input untuk dibaca (yaitu direktori tempat pipeline hulu menghasilkan outputnya). Proses ini disebut meneruskan konfigurasi payload, yang Anda tentukan dengan argumen runtime. Dengan alat ini, Anda dapat memiliki serangkaian pipeline dinamis yang berjalan menggunakan data per jam, hari, minggu, atau bulan (bukan pipeline statis, yang harus diperbarui untuk setiap proses).
Untuk mengatur pipeline dengan pemicu, ikuti proses berikut:
Buat pipeline hulu dan hilir.
- Di Cloud Data Fusion Studio, rancang dan deploy pipeline yang membentuk rangkaian orkestrasi Anda.
- Pertimbangkan penyelesaian pipeline mana yang akan mengaktifkan pipeline berikutnya (downstream) dalam alur kerja Anda.
Opsional: teruskan argumen runtime untuk pipeline upstream.
- Jika Anda perlu meneruskan konfigurasi payload sebagai argumen runtime antar-pipeline, konfigurasi argumen runtime. Argumen ini dapat diteruskan ke pipeline hilir selama eksekusi.
Buat pemicu masuk pada pipeline hilir.
- Di Cloud Data Fusion Studio, buka halaman List. Di tab Deployed, klik nama pipeline hilir. Tampilan Deploy untuk pipeline tersebut akan muncul.
- Di sisi kiri tengah halaman, klik Pemicu masuk. Daftar pipeline yang tersedia akan muncul.
- Klik pipeline hulu. Pilih satu atau beberapa status penyelesaian alur data hulu (Berhasil, Gagal, atau Berhenti) sebagai kondisi kapan alur data hilir harus dijalankan.
- Jika Anda ingin pipeline hulu membagikan informasi (yang disebut konfigurasi payload) dengan pipeline hilir, klik Konfigurasi pemicu, lalu ikuti langkah-langkah untuk meneruskan konfigurasi payload sebagai argumen runtime. Jika tidak, klik Aktifkan pemicu.
Uji pemicu.
- Mulai eksekusi pipeline hulu.
- Jika pemicu dikonfigurasi dengan benar, pipeline hilir akan otomatis dijalankan setelah penyelesaian pipeline hulu, berdasarkan kondisi yang Anda konfigurasi.
Meneruskan konfigurasi payload sebagai argumen runtime
Konfigurasi payload memungkinkan berbagi informasi dari pipeline upstream ke pipeline downstream. Informasi ini dapat berupa, misalnya, direktori output, format data, atau hari saat pipeline dijalankan. Informasi ini kemudian digunakan oleh pipeline hilir untuk membuat keputusan seperti menentukan set data yang tepat untuk dibaca.
Untuk meneruskan informasi dari pipeline upstream ke pipeline downstream, Anda menetapkan argumen runtime pipeline downstream dengan nilai argumen runtime atau konfigurasi plugin apa pun di pipeline upstream.
Setiap kali pipeline hilir dipicu dan berjalan, konfigurasi payload-nya ditetapkan menggunakan argumen runtime dari eksekusi tertentu pada pipeline hulu yang memicu pipeline hilir.
Untuk meneruskan konfigurasi payload sebagai argumen runtime, ikuti langkah-langkah berikut:
- Melanjutkan dari bagian Membuat pemicu masuk, setelah mengklik Konfigurasi pemicu, argumen runtime yang sebelumnya Anda tetapkan untuk pipeline upstream akan muncul. Pilih argumen runtime yang akan diteruskan dari pipeline upstream ke pipeline downstream saat pemicu ini dieksekusi.
- Klik tab Plugin config untuk melihat daftar data yang akan diteruskan dari pipeline upstream ke pipeline downstream saat dipicu.
- Klik Konfigurasi dan Aktifkan Pemicu.