Collecter les paramètres de Managed Service pour Apache Airflow
Cette page explique comment collecter les paramètres de Managed Service pour Apache Airflow afin d'automatiser les données dans Cortex Framework.
Si Managed Service pour Apache Airflow est disponible, vous devez créer des connexions dans Managed Service pour Apache Airflow qui pointent vers le projet source où résident vos données, avec les noms suivants en fonction de la charge de travail à déployer. Pour en savoir plus sur les charges de travail, consultez Sources de données et charges de travail. Si vous créez des tables dans la couche de création de rapports, veillez à créer des connexions distinctes pour les DAG de création de rapports.
| Déployer une charge de travail | Créer pour les données brutes | Créer pour la capture des données modifiées | Créer pour la création de rapports |
| SAP | N/A | sap_cdc_bq
|
sap_reporting_bq
|
| SFDC | sfdc_cdc_bq
|
sfdc_cdc_bq
|
sfdc_reporting_bq
|
| Google Ads | googleads_raw_dataflow
|
googleads_cdc_bq
|
googleads_reporting_bq
|
| CM360 | cm360_raw_dataflow
|
cm360_cdc_bq
|
cm360_reporting_bq
|
| Meta | meta_raw_dataflow
|
meta_cdc_bq
|
meta_reporting_bq
|
| TikTok | tiktok_raw_dataflow
|
tiktok_cdc_bq
|
tiktok_reporting_bq
|
| LiveRamp | N/A | liveramp_cdc_bq
|
N/A |
| SFMC | sfmc_raw_dataflow
|
sfmc_cdc_bq
|
sfmc_reporting_bq
|
| DV360 | N/A | dv360_cdc_bq
|
dv360_reporting_bq
|
| GA4 | N/A | N/A | ga4_reporting_bq
|
| Oracle EBS | N/A | N/A | oracleebs_reporting_bq
|
| Développement durable | N/A | N/A | k9_reporting_bq
|
| Dimensions courantes | N/A | N/A | k9_reporting
|
Conventions d'attribution de noms aux connexions
Tenez compte des spécifications suivantes pour les conventions d'attribution de noms aux connexions :
- Suffixes de connexion : les noms de connexion incluent des suffixes qui indiquent leur objectif :
_bq: utilisé pour accéder aux données BigQuery._dataflow: utilisé pour exécuter des jobs Dataflow.
- Connexions aux données brutes : vous n'avez besoin de créer de connexions pour les données brutes que si vous utilisez les modules d'ingestion de données fournis par Cortex.
- Plusieurs sources de données : si vous déployez plusieurs sources de données (par exemple, SAP et Salesforce), il est recommandé de créer des connexions distinctes pour chacune d’elles, en supposant que des limites de sécurité sont appliquées aux comptes de service individuels. Vous pouvez également modifier le nom de la connexion dans le modèle avant le déploiement pour utiliser la même connexion pour écrire dans BigQuery.
Bonnes pratiques de sécurité
- Éviter les connexions par défaut : il n'est pas recommandé d'utiliser les connexions et les comptes de service par défaut proposés par Airflow, en particulier dans les environnements de production. Cela correspond au principe du moindre privilège, qui consiste à n'accorder que les autorisations d'accès minimales nécessaires.
- Intégration de Secret Manager : si Secret Manager est activé pour Airflow, vous pouvez créer ces connexions dans Secret Manager en utilisant les mêmes noms. Les connexions stockées dans Secret Manager sont prioritaires sur celles définies directement dans Airflow.