Umgebungsarchitektur

Managed Airflow (Gen 3) | Managed Airflow (Gen 2) | Managed Airflow (Legacy Gen 1)

Auf dieser Seite wird die Architektur von Managed Airflow-Umgebungen beschrieben.

Konfigurationen der Umgebungsarchitektur

Managed Airflow (Gen 2)-Umgebungen können die folgenden Architekturkonfigurationen haben:

Kunden- und Mandantenprojekte

Beim Erstellen einer Umgebung werden die Umgebungsressourcen von Managed Airflow auf ein Mandanten- und ein Kundenprojekt verteilt:

  • Kundenprojekt ist ein Google Cloud Projekt, in dem Sie Ihre Umgebungen erstellen. Sie können in einem Kundenprojekt mehrere Umgebungen erstellen.

  • Mandantenprojekt ist ein von Google verwaltetes Mandantenprojekt und gehört zur Organisation „Google.com“. Das Mandantenprojekt bietet eine einheitliche Zugriffssteuerung und eine zusätzliche Datensicherheitsebene für Ihre Umgebung. Jede Managed Airflow-Umgebung hat ein eigenes Mandantenprojekt.

Umgebungskomponenten

Eine Managed Airflow-Umgebung besteht aus Umgebungskomponenten.

Eine Umgebungskomponente ist ein Element einer verwalteten Airflow-Infrastruktur die in Google Cloud ausgeführt wird Google Cloud, als Teil Ihrer Umgebung. Umgebungskomponenten werden entweder im Mandanten- oder im Kundenprojekt Ihrer Umgebung ausgeführt.

Cluster der Umgebung

Der Cluster der Umgebung ist ein Autopilot-Modus- VPC-nativer Google Kubernetes Engine-Cluster Ihrer Umgebung:

Standardmäßig aktiviert Managed Airflow automatische Knotenupgrades und automatische Knotenreparaturen, um den Cluster Ihrer Umgebung vor Sicherheitslücken zu schützen. Diese Vorgänge erfolgen während Wartungsfenstern, die Sie für Ihre Umgebung angeben.

Bucket der Umgebung

Der Bucket der Umgebung ist ein Cloud Storage-Bucket in dem DAGs, Plug-ins, Datenabhängigkeiten und Airflow-Logs gespeichert werden. Der Bucket der Umgebung befindet sich im Kundenprojekt.

Wenn Sie Ihre DAG-Dateien in den Ordner in Ihrem Bucket hochladen, synchronisiert Managed Airflow die DAGs mit den Airflow-Komponenten Ihrer Umgebung./dags

Airflow-Webserver

Der Airflow-Webserver führt die Airflow-UI Ihrer Umgebung aus.

Managed Airflow bietet Zugriff auf die Benutzeroberfläche basierend auf Nutzeridentitäten und IAM-Richtlinienbindungen, die für Nutzer definiert sind.

Airflow-Datenbank

Eine Airflow-Datenbank ist eine Cloud SQL-Instanz, die im Mandantenprojekt Ihrer Umgebung ausgeführt wird. Sie hostet die Airflow-Metadatendatenbank.

Zum Schutz vertraulicher Verbindungs- und Workflowinformationen, Managed Airflow lässt den Datenbankzugriff nur auf das Dienstkonto Ihrer Umgebung zu.

Andere Airflow-Komponenten

Weitere Airflow-Komponenten, die in Ihrer Umgebung ausgeführt werden:

  • Airflow-Planer parsen DAG-Definitionsdateien, planen DAG-Ausführungen anhand des Zeitplanintervalls und stellen Aufgaben zur Ausführung durch Airflow-Worker in die Warteschlange. In Managed Airflow (Gen 2) werden Airflow-DAG-Prozessoren als Teil von Planerkomponenten ausgeführt.

  • Airflow-Triggerer überwachen asynchron alle ausgesetzten Aufgaben in Ihrer Umgebung. Wenn Sie die Anzahl der Triggerer in Ihrer Umgebung auf über null festlegen, können Sie zurückstellbare Operatoren in Ihren DAGs verwenden.

  • Airflow-Worker führen Aufgaben aus, die von Airflow-Planern geplant werden. Die minimale und maximale Anzahl an Workern in Ihrer Umgebung ändert sich dynamisch, je nach Anzahl der Aufgaben in der Warteschlange.

Architektur der öffentlichen IP-Umgebung

Ressourcen der öffentlichen IP-Managed Airflow-Umgebung im Mandantenprojekt und im Kundenprojekt
Abbildung 1. Architektur einer öffentlichen IP-Umgebung (zum Vergrößern klicken)

In einer öffentlichen IP-Umgebungsarchitektur für Managed Airflow (Gen 2):

  • Im Mandantenprojekt werden eine Cloud SQL-Instanz und ein Cloud SQL-Speicher gehostet.
  • Das Kundenprojekt hostet alle anderen Komponenten der Umgebung.
  • Airflow-Planer und -Worker im Kundenprojekt kommunizieren über eine Cloud SQL-Proxy-Instanz im Kundenprojekt mit der Airflow-Datenbank.

Architektur der privaten IP-Umgebung

Private IP mit PSC Managed Airflow-Umgebungsressourcen im Mandantenprojekt und im Kundenprojekt (zum Vergrößern klicken)
Abbildung 2. Ressourcen der privaten IP-Managed Airflow-Umgebung im Mandantenprojekt und im Kundenprojekt (zum Vergrößern klicken)

Standardmäßig verwendet Managed Airflow (Gen 2) Private Service Connect, sodass Ihre privaten IP-Umgebungen intern ohne VPC Peerings kommunizieren. Alternativ können Sie in Ihrer Umgebung auch VPC-Peerings anstelle von Private Service Connect verwenden. Dies ist keine Standardoption.

In der Architektur der privaten IP-Umgebung:

  • Im Mandantenprojekt werden eine Cloud SQL-Instanz und ein Cloud SQL-Speicher gehostet.
  • Das Kundenprojekt hostet alle anderen Komponenten der Umgebung.
  • Airflow-Planer und -Worker stellen über den konfigurierten PSC-Endpunkt eine Verbindung zur Airflow-Datenbank her.

Hoch resiliente Private IP-Architektur

Hochgradig resiliente Ressourcen der privaten IP-Umgebung im Mandantenprojekt und im Kundenprojekt (zum Vergrößern klicken)
Abbildung 3. Ressourcen der hoch resilienten privaten IP-Managed Airflow-Umgebung im Mandantenprojekt und im Kundenprojekt (zum Vergrößern klicken)

Hoch resiliente (hochverfügbare) Managed Airflow-Umgebungen sind multizonale Umgebungen, die integrierte Redundanz- und Failover-Mechanismen verwenden, die die Anfälligkeit der Umgebung für zonale Ausfälle und Ausfälle aufgrund eines Single Point of Failure verringern.

In dieser Art von privater IP-Umgebung:

  • Eine Cloud SQL-Komponente Ihrer Umgebung hat eine primäre Instanz und eine Standby-Instanz, die auf Zonen verteilt sind.
  • In Ihrer Umgebung werden zwei Airflow-Planer, zwei Webserver und, falls Triggerer verwendet werden, mindestens zwei (bis zu zehn insgesamt) Triggerer ausgeführt. Diese Komponentenpaare werden in zwei separaten Zonen ausgeführt.
  • Die Mindestanzahl an Workern ist auf zwei festgelegt und der Cluster Ihrer Umgebung verteilt Worker-Instanzen auf Zonen. Im Falle eines zonalen Ausfalls werden betroffene Worker-Instanzen in einer anderen Zone neu geplant.

Einbindung in Cloud Logging und Cloud Monitoring

Managed Airflow kann in Cloud Logging und Cloud Monitoring Ihres Google Cloud Projekts eingebunden werden, sodass Sie eine zentrale Stelle für die Anzeige von Airflow- und DAG-Logshaben.

Cloud Monitoring sammelt und erfasst Messwerte, Ereignisse und Metadaten aus Managed Airflow, mit denen sich mithilfe von Dashboards und Diagrammen aussagekräftige Informationen generieren lassen .

Aufgrund des Streaming-Charakters von Cloud Logging können Sie alle Logs, die von Airflow-Komponenten gesendet werden, sofort aufrufen. Sie müssen also nicht warten, bis Airflow-Logs im Cloud Storage-Bucket Ihrer Umgebung angezeigt werden.

Wenn Sie die Anzahl der Logs in Ihrem Google Cloud Projekt begrenzen möchten, können Sie die Aufnahme aller Logs beenden. Deaktivieren Sie das Logging aber nicht.

Nächste Schritte