Managed Airflow (Gen 3) | Managed Airflow (Gen 2) | Managed Airflow (Legacy Gen 1)
Halaman ini menjelaskan arsitektur lingkungan Managed Airflow.
Konfigurasi arsitektur lingkungan
Lingkungan Managed Airflow (Gen 2) dapat memiliki konfigurasi arsitektur berikut:
Project pelanggan dan tenant
Saat Anda membuat lingkungan, Managed Airflow akan mendistribusikan resource lingkungan antara project tenant dan pelanggan:
Project pelanggan adalah Google Cloud project tempat Anda membuat lingkungan. Anda dapat membuat lebih dari satu lingkungan dalam satu project pelanggan.
Project tenant adalah project tenant yang dikelola Google dan termasuk dalam organisasi Google.com. Project tenant menyediakan kontrol akses terpadu dan lapisan keamanan data tambahan untuk lingkungan Anda. Setiap lingkungan Managed Airflow memiliki project tenant sendiri.
Komponen lingkungan
Lingkungan Managed Airflow terdiri dari komponen lingkungan.
Komponen lingkungan adalah elemen infrastruktur Airflow terkelola yang berjalan di Google Cloud, sebagai bagian dari lingkungan Anda. Komponen lingkungan berjalan di project tenant atau pelanggan lingkungan Anda.
Cluster lingkungan
Cluster lingkungan adalah cluster Google Kubernetes Engine native VPC mode Autopilot dari lingkungan Anda:
Secara default, Managed Airflow mengaktifkan upgrade otomatis node dan perbaikan otomatis node untuk melindungi cluster lingkungan Anda dari kerentanan keamanan. Operasi ini terjadi selama periode pemeliharaan yang Anda tentukan untuk lingkungan Anda.
Bucket lingkungan
Bucket lingkungan adalah bucket Cloud Storage yang menyimpan DAG, plugin, dependensi data, dan log Airflow. Bucket lingkungan berada di project pelanggan.
Saat Anda mengupload file DAG ke folder /dags di bucket
lingkungan, Managed Airflow akan menyinkronkan DAG ke komponen Airflow lingkungan Anda.
Server web Airflow
Server web Airflow menjalankan UI Airflow lingkungan Anda.
Managed Airflow menyediakan akses ke antarmuka berdasarkan identitas pengguna dan binding kebijakan IAM yang ditentukan untuk pengguna.
Database Airflow
Database Airflow adalah instance Cloud SQL yang berjalan di project tenant lingkungan Anda. Database ini menghosting database metadata Airflow.
Untuk melindungi informasi koneksi dan alur kerja yang sensitif, Managed Airflow hanya mengizinkan akses database ke akun layanan lingkungan Anda.
Komponen Airflow lainnya
Komponen Airflow lainnya yang berjalan di lingkungan Anda adalah:
Scheduler Airflow mengurai file definisi DAG, menjadwalkan operasi DAG berdasarkan interval jadwal, dan mengantrekan tugas untuk dieksekusi oleh worker Airflow. Di Managed Airflow (Gen 2), prosesor DAG Airflow berjalan sebagai bagian dari komponen scheduler.
Pemicu Airflow memantau semua tugas yang ditangguhkan secara asinkron di lingkungan Anda. Jika Anda menetapkan jumlah pemicu di lingkungan Anda di atas nol, Anda dapat menggunakan operator yang dapat ditangguhkan di DAG Anda.
Worker Airflow menjalankan tugas yang dijadwalkan oleh scheduler Airflow. Jumlah minimum dan maksimum worker di lingkungan Anda berubah secara dinamis, bergantung pada jumlah tugas dalam antrean.
Arsitektur lingkungan IP Publik
Dalam arsitektur lingkungan IP Publik untuk Managed Airflow (Gen 2):
- Project tenant menghosting instance Cloud SQL dan penyimpanan Cloud SQL.
- Project pelanggan menghosting semua komponen lingkungan lainnya.
- Scheduler dan worker Airflow di project pelanggan berkomunikasi dengan database Airflow melalui instance proxy Cloud SQL yang berada di project pelanggan.
Arsitektur lingkungan IP Pribadi
Secara default, Managed Airflow (Gen 2) menggunakan Private Service Connect, sehingga lingkungan IP Pribadi Anda berkomunikasi secara internal tanpa menggunakan peering VPC. Anda juga dapat menggunakan peering VPC, bukan Private Service Connect di lingkungan Anda. Ini adalah opsi non-default.
Dalam arsitektur lingkungan IP Pribadi:
- Project tenant menghosting instance Cloud SQL dan penyimpanan Cloud SQL.
- Project pelanggan menghosting semua komponen lingkungan lainnya.
- Scheduler dan worker Airflow terhubung ke database Airflow melalui endpoint PSC yang dikonfigurasi.
Arsitektur IP Pribadi yang sangat tangguh
Lingkungan Managed Airflow yang sangat tangguh (Ketersediaan Tinggi) adalah lingkungan multi-zona yang menggunakan mekanisme redundansi dan failover bawaan yang mengurangi kerentanan lingkungan terhadap kegagalan zona dan gangguan titik tunggal kegagalan.
Dalam jenis lingkungan IP Pribadi ini:
- Komponen Cloud SQL lingkungan Anda memiliki instance utama dan instance standby yang didistribusikan antar-zona.
- Lingkungan Anda menjalankan dua scheduler Airflow, dua server web, dan jika pemicu digunakan, minimal dua (hingga sepuluh total) pemicu. Pasangan komponen ini berjalan di dua zona terpisah.
- Jumlah minimum worker ditetapkan ke dua, dan cluster lingkungan Anda mendistribusikan instance worker antar-zona. Jika terjadi gangguan zona, instance worker yang terpengaruh akan dijadwalkan ulang di zona lain.
Integrasi dengan Cloud Logging dan Cloud Monitoring
Managed Airflow terintegrasi dengan Cloud Logging dan Cloud Monitoring dari project Anda Google Cloud , sehingga Anda memiliki tempat terpusat untuk melihat log Airflow dan DAG.
Cloud Monitoring mengumpulkan dan menyerap metrik, peristiwa, dan metadata dari Managed Airflow untuk menghasilkan insight melalui dasbor dan diagram.
Karena sifat streaming Cloud Logging, Anda dapat melihat log yang dikeluarkan oleh komponen Airflow secara langsung, tanpa harus menunggu log Airflow muncul di bucket Cloud Storage lingkungan Anda.
Untuk membatasi jumlah log di Google Cloud project Anda, Anda dapat menghentikan semua penyerapan log. Jangan nonaktifkan Logging.