Provisioner in Cloud Data Fusion

Un provisioner è responsabile della creazione e dell'eliminazione del cluster cloud in cui viene eseguita la pipeline. I diversi provisioner sono in grado di creare diversi tipi di cluster su vari cloud.

Ogni fornitore espone un insieme di impostazioni di configurazione che controllano il tipo di cluster creato per un'esecuzione. Ad esempio, i provisioner Managed Service for Apache Spark e Amazon EMR hanno impostazioni per le dimensioni del cluster. I provisioner hanno anche impostazioni per le credenziali necessarie per comunicare con i rispettivi cloud e provisionare i nodi di computing richiesti.

Provisioner supportati in Cloud Data Fusion

Cloud Data Fusion supporta i seguenti provisioner:

Managed Service per Apache Spark
Un servizio cloud veloce, facile da usare e completamente gestito per l'esecuzione di cluster Apache Spark e Apache Hadoop.
Amazon Elastic MapReduce (EMR)
Fornisce un framework Hadoop gestito che elabora grandi quantità di dati su istanze Amazon EC2 scalabili dinamicamente.
Hadoop remoto
Esegue job su un cluster Hadoop preesistente, on-premise o nel cloud.