Airflow géré (3e génération) | Airflow géré (2e génération) | Airflow géré (ancienne 1re génération)
Cette page présente brièvement Airflow et les DAG, et décrit les fonctionnalités et les capacités d'Managed Airflow.
Pour en savoir plus sur les nouvelles fonctionnalités des versions Managed Airflow, consultez les notes de version.
À propos de Managed Airflow
Managed Airflow est un service d'orchestration de workflows entièrement géré qui vous permet de créer, planifier, surveiller et gérer des pipelines de workflow couvrant des clouds et des centres de données sur site.
Managed Airflow est basé sur le projet Open Source populaire Apache Airflow et fonctionne avec le langage de programmation Python.
En utilisant Managed Airflow au lieu d'une instance locale d'Apache Airflow, vous pouvez profiter du meilleur d'Airflow sans coûts d'installation ni de gestion. Managed Airflow vous permet de créer rapidement des environnements Airflow gérés et d'utiliser des outils Airflow natifs, tels que l'interface Web Airflow et des outils de ligne de commande. Ainsi, vous pouvez consacrer plus de temps à vos workflows sans vous soucier de votre infrastructure.
Différences entre les versions de Managed Airflow
Pour en savoir plus sur les différences entre les versions majeures de Managed Airflow, consultez Présentation du versioning de Managed Service pour Apache Airflow.
Airflow et DAG Airflow (workflows)
En analyse de données, un workflow représente une série de tâches pour l'ingestion, la transformation, l'analyse ou l'utilisation de données. Dans Airflow, les workflows sont créés à l'aide de "graphes orientés acycliques" (DAG, Directed Acyclic Graph).
Un DAG est un ensemble de tâches que vous souhaitez programmer et exécuter, organisées de manière à refléter leurs relations et leurs dépendances. Les DAG sont créés dans des fichiers Python, qui définissent leur structure à l'aide de code. Le but du DAG est de s'assurer que chaque tâche est exécutée au bon moment et dans le bon ordre.
Chaque tâche d'un DAG peut représenter presque n'importe quoi. Par exemple, une tâche peut effectuer l'une des fonctions suivantes :
- Préparer des données pour l'ingestion
- Surveiller une API
- Envoyer un e-mail
- Exécuter un pipeline
En plus d'exécuter un DAG selon une planification, vous pouvez le déclencher manuellement ou en réponse à des événements, tels que des modifications apportées à un bucket Cloud Storage. Pour en savoir plus, consultez Planifier et déclencher des DAG.
Pour en savoir plus sur les DAG et les tâches, consultez la documentation Apache Airflow.
Environnements Managed Airflow
Les environnements Airflow gérés sont des déploiements Airflow autonomes basés sur Google Kubernetes Engine. Ils fonctionnent avec d'autres services Google Cloudà l'aide de connecteurs intégrés à Airflow. Vous pouvez créer un ou plusieurs environnements dans un même projet Google Cloud, dans n'importe quelle région compatible.
Managed Airflow provisionne des services Google Cloud qui exécutent vos workflows et tous les composants Airflow. Les principaux composants d'un environnement sont les suivants :
Cluster GKE : les composants Airflow tels que les programmeurs, les déclencheurs et les nœuds de calcul Airflow s'exécutent en tant que charges de travail GKE dans un seul cluster créé pour votre environnement. Ils sont responsables du traitement et de l'exécution des DAG.
Le cluster héberge également d'autres composants Managed Airflow, tels que l'agent Composer et la surveillance Airflow, qui permettent de gérer l'environnement Managed Airflow, de collecter les journaux à stocker dans Cloud Logging et de collecter les métriques à importer dans Cloud Monitoring.
Serveur Web Airflow : le serveur Web exécute l'UI Apache Airflow.
Base de données Airflow : la base de données contient les métadonnées Apache Airflow.
Bucket Cloud Storage : Managed Airflow associe un bucket Cloud Storage à votre environnement. Ce bucket, également appelé bucket de l'environnement, stocke les DAG, les journaux, les plug-ins personnalisés et les données de l'environnement. Pour en savoir plus sur le bucket de l'environnement, consultez Données stockées dans Cloud Storage.
Consultez la page Architecture des environnements pour en savoir plus sur les composants d'un environnement.
Interfaces Managed Airflow
Managed Airflow fournit des interfaces permettant de gérer les environnements, les instances Airflow qui s'exécutent dans les environnements et les DAG individuels.
Par exemple, vous pouvez créer et configurer des environnements Managed Airflow dans la console Google Cloud , Google Cloud CLI, l'API Cloud Composer ou Terraform.
Par exemple, vous pouvez gérer les DAG depuis la consoleGoogle Cloud , l'UI Airflow native ou en exécutant des commandes Google Cloud CLI et Airflow CLI.
Fonctionnalités Airflow dans Managed Airflow
Lorsque vous utilisez Managed Airflow, vous pouvez gérer et utiliser les fonctionnalités Airflow suivantes :
DAG Airflow : vous pouvez ajouter, modifier, supprimer ou déclencher des DAG Airflow dans la console Google Cloud ou à l'aide de l'UI Airflow native.
Options de configuration Airflow : vous pouvez remplacer les valeurs par défaut des options de configuration Airflow utilisées par Managed Airflow par des valeurs personnalisées. Dans Managed Airflow, certaines options de configuration sont bloquées et vous ne pouvez pas modifier leurs valeurs.
Plug-ins personnalisés : vous pouvez installer des plug-ins Airflow personnalisés, tels que des opérateurs, des hooks, des capteurs ou des interfaces Apache Airflow personnalisés et en interne dans votre environnement Managed Airflow.
Dépendances Python : vous pouvez installer des dépendances Python à partir de l'index de packages Python dans votre environnement ou à partir d'un dépôt de packages privé, y compris les dépôts Artifact Registry. Si les dépendances ne figurent pas dans l'index de packages, vous pouvez également utiliser des plug-ins.
Journalisation et surveillance des DAG, des composants Airflow et des environnements Managed Airflow :
Vous pouvez afficher les journaux Airflow associés à des tâches DAG uniques dans l'interface Web Airflow et le dossier
logssitué dans le bucket de l'environnement.Journaux Cloud Monitoring et métriques d'environnement pour les environnements Managed Airflow.
Contrôle des accès dans Managed Airflow
Vous gérez la sécurité au niveau du projet Google Cloud et pouvez attribuer des rôles IAM qui permettent aux utilisateurs individuels de modifier ou de créer des environnements. Si un utilisateur n'a pas accès à votre projet ou ne dispose pas du rôle IAM Managed Airflow approprié, il ne peut accéder à aucun de vos environnements.
En plus d'IAM, vous pouvez utiliser le contrôle des accès à l'UI Airflow, qui est basé sur le modèle de contrôle des accès Apache Airflow.
Pour en savoir plus sur les fonctionnalités de sécurité de Managed Airflow, consultez Présentation de la sécurité de Managed Airflow.
Mise en réseau de l'environnement
Managed Airflow est compatible avec plusieurs configurations réseau pour les environnements, avec de nombreuses options de configuration. Par exemple, dans un environnement d'adresse IP privée, les DAG et les composants Airflow sont entièrement isolés de l'Internet public.
Pour en savoir plus sur la mise en réseau dans Managed Airflow, consultez les pages dédiées aux fonctionnalités de mise en réseau :
- Environnements d'adresse IP publique et privée
- Connecter un environnement à votre réseau VPC
- Environnements VPC partagés
- Configurer VPC Service Controls
Autres fonctionnalités de Managed Airflow
Voici d'autres fonctionnalités de Managed Airflow :
- Autoscaling des environnements
- Développement avec des environnements Airflow locaux
- Environnements très résilients
- Instantanés d'environnement
- Intégration de la traçabilité des données à Knowledge Catalog
- Chiffrement avec des clés de chiffrement gérées par le client (CMEK)
Questions fréquentes
Quelle version d'Apache Airflow est utilisée par Managed Airflow ?
Les environnements Managed Airflow sont basés sur des images Managed Airflow. Lorsque vous créez un environnement, vous pouvez sélectionner une image avec une version Airflow spécifique :
- Managed Airflow (3e génération) est compatible avec Airflow 2.
- Managed Airflow (2e génération) est compatible avec Airflow 2.
- Managed Airflow (ancienne génération 1) est compatible avec Airflow 1 et Airflow 2.
Vous contrôlez la version Apache Airflow de votre environnement. Vous pouvez décider de mettre à niveau votre environnement vers une version ultérieure de l'image Managed Airflow. Chaque version d'Airflow géré est compatible avec plusieurs versions d'Apache Airflow.
Puis-je utiliser l'interface utilisateur et la CLI Airflow natives ?
Vous pouvez accéder à l'interface Web Apache Airflow de votre environnement. Chacun de vos environnements possède sa propre interface Airflow. Pour en savoir plus sur l'accès à l'interface utilisateur d'Airflow, consultez la page Interface Web Airflow.
Pour exécuter les commandes de CLI Airflow dans vos environnements, utilisez les commandes gcloud.
Pour en savoir plus sur l'exécution de commandes de CLI Airflow dans les environnements Managed Airflow, consultez la page Interface de ligne de commande Airflow.
Puis-je utiliser ma propre base de données comme base de données Airflow ?
Managed Airflow utilise un service de base de données géré pour la base de données Airflow. Il n'est pas possible d'utiliser une base de données fournie par l'utilisateur comme base de données Airflow.
Puis-je utiliser mon propre cluster comme cluster Managed Airflow ?
Managed Airflow utilise le service Google Kubernetes Engine pour créer, gérer et supprimer les clusters d'environnement dans lesquels les composants Airflow s'exécutent. Ces clusters sont entièrement gérés par Managed Airflow.
Il n'est pas possible de créer un environnement Managed Airflow basé sur un cluster Google Kubernetes Engine autogéré.
Puis-je utiliser mon propre registre de conteneurs ?
Managed Airflow utilise le service Artifact Registry pour gérer les dépôts d'images de conteneurs utilisés par les environnements Managed Airflow. Il n'est pas possible de le remplacer par un registre de conteneurs fourni par l'utilisateur.
Les environnements Managed Airflow sont-ils zonaux ou régionaux ?
Lorsque vous créez un environnement, vous spécifiez une région pour celui-ci :
- Les environnements Managed Airflow standards disposent d'une base de données Airflow zonale et d'une couche d'exécution Airflow multizone. La base de données Airflow est située dans l'une des zones de la région spécifiée, et les composants Airflow sont répartis entre plusieurs zones.
- Haute résilience (haute disponibilité) Les environnements Managed Airflow disposent d'une base de données Airflow multizone et d'une couche d'exécution Airflow multizone. Un environnement très résilient s'exécute sur au moins deux zones de la région sélectionnée. Managed Airflow distribue automatiquement les composants de votre environnement entre les zones. Le composant Cloud SQL qui stocke la base de données Airflow comporte une instance principale et une instance de secours réparties entre les zones de la région sélectionnée.