Arsitektur lingkungan

Managed Airflow (Gen 3) | Managed Airflow (Gen 2) | Managed Airflow (Legacy Gen 1)

Halaman ini menjelaskan arsitektur lingkungan Managed Airflow.

Konfigurasi arsitektur lingkungan

Lingkungan Managed Airflow (Gen 2) dapat memiliki konfigurasi arsitektur berikut:

Project pelanggan dan tenant

Saat Anda membuat lingkungan, Managed Airflow akan mendistribusikan resource lingkungan antara project tenant dan pelanggan:

  • Project pelanggan adalah Google Cloud project tempat Anda membuat lingkungan. Anda dapat membuat lebih dari satu lingkungan dalam satu project pelanggan.

  • Project tenant adalah project tenant yang dikelola Google dan termasuk dalam organisasi Google.com. Project tenant menyediakan kontrol akses terpadu dan lapisan keamanan data tambahan untuk lingkungan Anda. Setiap lingkungan Managed Airflow memiliki project tenant sendiri.

Komponen lingkungan

Lingkungan Managed Airflow terdiri dari komponen lingkungan.

Komponen lingkungan adalah elemen infrastruktur Airflow terkelola yang berjalan di Google Cloud, sebagai bagian dari lingkungan Anda. Komponen lingkungan berjalan di project tenant atau pelanggan lingkungan Anda.

Cluster lingkungan

Cluster lingkungan adalah cluster Google Kubernetes Engine native VPC mode Autopilot dari lingkungan Anda:

Secara default, Managed Airflow mengaktifkan upgrade otomatis node dan perbaikan otomatis node untuk melindungi cluster lingkungan Anda dari kerentanan keamanan. Operasi ini terjadi selama periode pemeliharaan yang Anda tentukan untuk lingkungan Anda.

Bucket lingkungan

Bucket lingkungan adalah bucket Cloud Storage yang menyimpan DAG, plugin, dependensi data, dan log Airflow. Bucket lingkungan berada di project pelanggan.

Saat Anda mengupload file DAG ke folder /dags di bucket lingkungan, Managed Airflow akan menyinkronkan DAG ke komponen Airflow lingkungan Anda.

Server web Airflow

Server web Airflow menjalankan UI Airflow lingkungan Anda.

Managed Airflow menyediakan akses ke antarmuka berdasarkan identitas pengguna dan binding kebijakan IAM yang ditentukan untuk pengguna.

Database Airflow

Database Airflow adalah instance Cloud SQL yang berjalan di project tenant lingkungan Anda. Database ini menghosting database metadata Airflow.

Untuk melindungi informasi koneksi dan alur kerja yang sensitif, Managed Airflow hanya mengizinkan akses database ke akun layanan lingkungan Anda.

Komponen Airflow lainnya

Komponen Airflow lainnya yang berjalan di lingkungan Anda adalah:

  • Scheduler Airflow mengurai file definisi DAG, menjadwalkan operasi DAG berdasarkan interval jadwal, dan mengantrekan tugas untuk dieksekusi oleh worker Airflow. Di Managed Airflow (Gen 2), prosesor DAG Airflow berjalan sebagai bagian dari komponen scheduler.

  • Pemicu Airflow memantau semua tugas yang ditangguhkan secara asinkron di lingkungan Anda. Jika Anda menetapkan jumlah pemicu di lingkungan Anda di atas nol, Anda dapat menggunakan operator yang dapat ditangguhkan di DAG Anda.

  • Worker Airflow menjalankan tugas yang dijadwalkan oleh scheduler Airflow. Jumlah minimum dan maksimum worker di lingkungan Anda berubah secara dinamis, bergantung pada jumlah tugas dalam antrean.

Arsitektur lingkungan IP Publik

Resource lingkungan Airflow yang dikelola IP Publik di project tenant dan project pelanggan
Gambar 1. Arsitektur lingkungan IP Publik (klik untuk memperbesar)

Dalam arsitektur lingkungan IP Publik untuk Managed Airflow (Gen 2):

  • Project tenant menghosting instance Cloud SQL dan penyimpanan Cloud SQL.
  • Project pelanggan menghosting semua komponen lingkungan lainnya.
  • Scheduler dan worker Airflow di project pelanggan berkomunikasi dengan database Airflow melalui instance proxy Cloud SQL yang berada di project pelanggan.

Arsitektur lingkungan IP Pribadi

IP pribadi dengan resource lingkungan Airflow yang Dikelola PSC di project tenant dan project pelanggan (klik untuk memperbesar)
Gambar 2. Resource lingkungan Managed Airflow IP Pribadi di project tenant dan project pelanggan (klik untuk memperbesar)

Secara default, Managed Airflow (Gen 2) menggunakan Private Service Connect, sehingga lingkungan IP Pribadi Anda berkomunikasi secara internal tanpa menggunakan peering VPC. Anda juga dapat menggunakan peering VPC, bukan Private Service Connect di lingkungan Anda. Ini adalah opsi non-default.

Dalam arsitektur lingkungan IP Pribadi:

  • Project tenant menghosting instance Cloud SQL dan penyimpanan Cloud SQL.
  • Project pelanggan menghosting semua komponen lingkungan lainnya.
  • Scheduler dan worker Airflow terhubung ke database Airflow melalui endpoint PSC yang dikonfigurasi.

Arsitektur IP Pribadi yang sangat tangguh

Resource lingkungan IP Pribadi yang sangat tangguh di project tenant dan project pelanggan (klik untuk memperbesar)
Gambar 3. Resource lingkungan Managed Airflow IP Pribadi yang sangat tangguh di project tenant dan project pelanggan (klik untuk memperbesar)

Lingkungan Managed Airflow yang sangat tangguh (Ketersediaan Tinggi) adalah lingkungan multi-zona yang menggunakan mekanisme redundansi dan failover bawaan yang mengurangi kerentanan lingkungan terhadap kegagalan zona dan gangguan titik tunggal kegagalan.

Dalam jenis lingkungan IP Pribadi ini:

  • Komponen Cloud SQL lingkungan Anda memiliki instance utama dan instance standby yang didistribusikan antar-zona.
  • Lingkungan Anda menjalankan dua scheduler Airflow, dua server web, dan jika pemicu digunakan, minimal dua (hingga sepuluh total) pemicu. Pasangan komponen ini berjalan di dua zona terpisah.
  • Jumlah minimum worker ditetapkan ke dua, dan cluster lingkungan Anda mendistribusikan instance worker antar-zona. Jika terjadi gangguan zona, instance worker yang terpengaruh akan dijadwalkan ulang di zona lain.

Integrasi dengan Cloud Logging dan Cloud Monitoring

Managed Airflow terintegrasi dengan Cloud Logging dan Cloud Monitoring dari project Anda Google Cloud , sehingga Anda memiliki tempat terpusat untuk melihat log Airflow dan DAG.

Cloud Monitoring mengumpulkan dan menyerap metrik, peristiwa, dan metadata dari Managed Airflow untuk menghasilkan insight melalui dasbor dan diagram.

Karena sifat streaming Cloud Logging, Anda dapat melihat log yang dikeluarkan oleh komponen Airflow secara langsung, tanpa harus menunggu log Airflow muncul di bucket Cloud Storage lingkungan Anda.

Untuk membatasi jumlah log di Google Cloud project Anda, Anda dapat menghentikan semua penyerapan log. Jangan nonaktifkan Logging.

Langkah berikutnya