Provisionneurs dans Cloud Data Fusion

Un provisionneur est chargé de créer et de supprimer le cluster cloud dans lequel le pipeline est exécuté. Différents fournisseurs peuvent créer différents types de clusters sur différents clouds.

Chaque provisionneur expose un ensemble de paramètres de configuration qui contrôlent le type de cluster créé pour une exécution. Par exemple, les fournisseurs de services gérés pour Apache Spark et Amazon EMR disposent de paramètres de taille de cluster. Les fournisseurs disposent également de paramètres pour les identifiants requis pour communiquer avec leurs clouds respectifs et provisionner les nœuds de calcul requis.

Provisionneurs compatibles dans Cloud Data Fusion

Cloud Data Fusion est compatible avec les provisionneurs suivants :

Managed Service pour Apache Spark
Service cloud rapide, facile à utiliser et entièrement géré permettant d'exécuter des clusters Apache Spark et Apache Hadoop.
Amazon Elastic MapReduce (EMR)
Fournit un framework Hadoop géré qui traite de grandes quantités de données sur des instances Amazon EC2 évolutives de manière dynamique.
Hadoop à distance
Exécute des jobs sur un cluster Hadoop préexistant, sur site ou dans le cloud.