Aprovisionadores en Cloud Data Fusion

Un aprovisionador es responsable de crear y desmantelar el clúster de la nube en el que se ejecuta la canalización. Los diferentes aprovisionadores pueden crear diferentes tipos de clústeres en varias nubes.

Cada aprovisionador expone un conjunto de parámetros de configuración que controlan el tipo de clúster que se crea para una ejecución. Por ejemplo, los aprovisionadores de Managed Service for Apache Spark y Amazon EMR tienen parámetros de configuración de tamaño del clúster. Los aprovisionadores también tienen parámetros de configuración para las credenciales necesarias para comunicarse con sus respectivas nubes y aprovisionar los nodos de procesamiento requeridos.

Aprovisionadores compatibles en Cloud Data Fusion

Cloud Data Fusion admite los siguientes aprovisionadores:

Managed Service for Apache Spark
Es un servicio en la nube rápido, fácil de usar y completamente administrado que permite ejecutar clústeres de Apache Spark y Apache Hadoop.
Amazon Elastic MapReduce (EMR)
Proporciona un framework de Hadoop administrado que procesa grandes cantidades de datos en instancias de Amazon EC2 escalables de forma dinámica.
Hadoop remoto
Ejecuta trabajos en un clúster de Hadoop preexistente, ya sea en las instalaciones o en la nube.