Collecter les paramètres de Managed Service pour Apache Airflow

Cette page explique comment collecter les paramètres de Managed Service pour Apache Airflow afin d'automatiser les données dans Cortex Framework.

Si Managed Service pour Apache Airflow est disponible, vous devez créer des connexions dans Managed Service pour Apache Airflow qui pointent vers le projet source où résident vos données, avec les noms suivants en fonction de la charge de travail à déployer. Pour en savoir plus sur les charges de travail, consultez Sources de données et charges de travail. Si vous créez des tables dans la couche de création de rapports, veillez à créer des connexions distinctes pour les DAG de création de rapports.

Déployer une charge de travail Créer pour les données brutes Créer pour la capture des données modifiées Créer pour la création de rapports
SAP N/A sap_cdc_bq sap_reporting_bq
SFDC sfdc_cdc_bq sfdc_cdc_bq sfdc_reporting_bq
Google Ads googleads_raw_dataflow googleads_cdc_bq googleads_reporting_bq
CM360 cm360_raw_dataflow cm360_cdc_bq cm360_reporting_bq
Meta meta_raw_dataflow meta_cdc_bq meta_reporting_bq
TikTok tiktok_raw_dataflow tiktok_cdc_bq tiktok_reporting_bq
LiveRamp N/A liveramp_cdc_bq N/A
SFMC sfmc_raw_dataflow sfmc_cdc_bq sfmc_reporting_bq
DV360 N/A dv360_cdc_bq dv360_reporting_bq
GA4 N/A N/A ga4_reporting_bq
Oracle EBS N/A N/A oracleebs_reporting_bq
Développement durable N/A N/A k9_reporting_bq
Dimensions courantes N/A N/A k9_reporting

Conventions d'attribution de noms aux connexions

Tenez compte des spécifications suivantes pour les conventions d'attribution de noms aux connexions :

  • Suffixes de connexion : les noms de connexion incluent des suffixes qui indiquent leur objectif :
    • _bq : utilisé pour accéder aux données BigQuery.
    • _dataflow : utilisé pour exécuter des jobs Dataflow.
  • Connexions aux données brutes : vous n'avez besoin de créer de connexions pour les données brutes que si vous utilisez les modules d'ingestion de données fournis par Cortex.
  • Plusieurs sources de données : si vous déployez plusieurs sources de données (par exemple, SAP et Salesforce), il est recommandé de créer des connexions distinctes pour chacune d’elles, en supposant que des limites de sécurité sont appliquées aux comptes de service individuels. Vous pouvez également modifier le nom de la connexion dans le modèle avant le déploiement pour utiliser la même connexion pour écrire dans BigQuery.

Bonnes pratiques de sécurité

  • Éviter les connexions par défaut : il n'est pas recommandé d'utiliser les connexions et les comptes de service par défaut proposés par Airflow, en particulier dans les environnements de production. Cela correspond au principe du moindre privilège, qui consiste à n'accorder que les autorisations d'accès minimales nécessaires.
  • Intégration de Secret Manager : si Secret Manager est activé pour Airflow, vous pouvez créer ces connexions dans Secret Manager en utilisant les mêmes noms. Les connexions stockées dans Secret Manager sont prioritaires sur celles définies directement dans Airflow.