Provisionadores no Cloud Data Fusion

Um provisionador é responsável por criar e desativar o cluster de nuvem em que o pipeline é executado. Diferentes provisionadores podem criar tipos diferentes de clusters em várias nuvens.

Cada provisionador expõe um conjunto de configurações que controlam o tipo de cluster criado para uma execução. Por exemplo, os provisionadores do Managed Service for Apache Spark e do Amazon EMR têm configurações de tamanho do cluster. Os provisionadores também têm configurações para as credenciais necessárias para se comunicar com as respectivas nuvens e provisionar os nós de computação necessários.

Provisionadores compatíveis no Cloud Data Fusion

O Cloud Data Fusion é compatível com os seguintes provisionadores:

Managed Service for Apache Spark
Um serviço de nuvem rápido, fácil de usar e totalmente gerenciado para executar clusters do Apache Spark e Apache Hadoop.
Amazon Elastic MapReduce (EMR)
Fornece um framework Hadoop gerenciado que processa grandes quantidades de dados em instâncias do Amazon EC2 com escalonamento dinâmico.
Hadoop remoto
Executa jobs em um cluster Hadoop preexistente, no local ou na nuvem.