Provisioner in Cloud Data Fusion

Ein Provisioner ist für das Erstellen und Herunterfahren des Cloud-Clusters verantwortlich, in dem die Pipeline ausgeführt wird. Verschiedene Provisioner können unterschiedliche Arten von Clustern in verschiedenen Clouds erstellen.

Jeder Provisioner stellt eine Reihe von Konfigurationseinstellungen bereit, mit denen der Typ des Clusters gesteuert wird, der für einen Lauf erstellt wird. Die Provisioner für Managed Service for Apache Spark und Amazon EMR haben beispielsweise Einstellungen für die Clustergröße. Provisioner haben auch Einstellungen für die Anmeldedaten, die für die Kommunikation mit den jeweiligen Clouds und die Bereitstellung der erforderlichen Rechenknoten erforderlich sind.

Unterstützte Provisionierungstools in Cloud Data Fusion

Cloud Data Fusion unterstützt die folgenden Provisioner:

Managed Service for Apache Spark
Ein schneller, nutzerfreundlicher und vollständig verwalteter Cloud-Dienst, um Apache Spark- und Apache Hadoop-Cluster auszuführen.
Amazon Elastic MapReduce (EMR)
Bietet ein verwaltetes Hadoop-Framework, das große Datenmengen über dynamisch skalierbare Amazon EC2-Instanzen verarbeitet.
Remote-Hadoop
Führt Jobs in einem vorhandenen Hadoop-Cluster aus, entweder lokal oder in der Cloud.