En esta página, se explica la organización de canalizaciones con Managed Service para Apache Airflow y los activadores. Cloud Data Fusion recomienda usar Managed Airflow para organizar canalizaciones. Si necesitas una forma más sencilla de administrar la organización, usa activadores.
Composer
Organiza canalizaciones con Managed Airflow
La organización de la ejecución de canalizaciones en Cloud Data Fusion con Managed Airflow proporciona los siguientes beneficios:
- Administración centralizada del flujo de trabajo: Administra de manera uniforme la ejecución de varias canalizaciones de Cloud Data Fusion.
- Administración de dependencias: Para garantizar el orden de ejecución adecuado, define dependencias entre las canalizaciones.
- Supervisión y alertas: Managed Airflow proporciona capacidades de supervisión y alertas para las fallas.
- Integración con otros servicios: Managed Airflow te permite organizar flujos de trabajo que abarcan Cloud Data Fusion y otros servicios deGoogle Cloud .
Para organizar canalizaciones de Cloud Data Fusion con Managed Airflow, sigue este proceso:
Configura el entorno de Managed Airflow.
- Crea un entorno de Managed Airflow. Si no tienes uno, aprovisiona el entorno en tu proyecto de Google Cloud . Este entorno es tu espacio de trabajo de organización.
- Otorga permisos. Asegúrate de que la cuenta de servicio de Managed Airflow tenga los permisos necesarios para acceder a Cloud Data Fusion (por ejemplo, permiso para iniciar, detener y enumerar canalizaciones).
Define grafos acíclicos dirigidos (DAG) para la organización.
- Crea un DAG: En Managed Airflow, crea un DAG que defina el flujo de trabajo de organización de tus canalizaciones de Cloud Data Fusion.
- Operadores de Cloud Data Fusion: Usa los operadores de Cloud Data Fusion de Managed Airflow en tu DAG. Estos operadores te permiten interactuar de forma programática con Cloud Data Fusion.
Operadores de Cloud Data Fusion
La organización de canalizaciones de Cloud Data Fusion tiene los siguientes operadores:
CloudDataFusionStartPipelineOperatorActiva la ejecución de una canalización de Cloud Data Fusion por su ID. Tiene los siguientes parámetros:
- ID de la canalización
- Ubicación (Google Cloud región)
- Espacio de nombres de la canalización
- Argumentos de entorno de ejecución (opcional)
- Esperar a que se complete (opcional)
- Tiempo de espera (opcional)
CloudDataFusionStopPipelineOperatorTe permite detener una canalización de Cloud Data Fusion en ejecución.
CloudDataFusionDeletePipelineOperatorBorra una canalización de Cloud Data Fusion.
Crea el flujo de trabajo del DAG
Cuando compiles el flujo de trabajo del DAG, ten en cuenta lo siguiente:
- Definición de dependencias: Usa la estructura del DAG para definir dependencias entre tareas. Por ejemplo, es posible que tengas una tarea que espera a que una canalización en un espacio de nombres se complete correctamente antes de activar otra canalización en un espacio de nombres diferente.
- Programación: Programa el DAG para que se ejecute en intervalos específicos, como diarios o por hora, o configúralo para que se active de forma manual.
Para obtener más información, consulta la descripción general de Managed Airflow.
Activadores
Organiza canalizaciones con activadores
Los activadores de Cloud Data Fusion te permiten ejecutar automáticamente una canalización downstream cuando se completa (con éxito, con errores o con cualquier condición especificada) una o más canalizaciones upstream.
Los activadores son útiles para las siguientes tareas:
- Limpiar tus datos una vez y, luego, hacer que estén disponibles para que los consuman varias canalizaciones descendentes
- Compartir información, como argumentos de entorno de ejecución y configuraciones de complementos, entre canalizaciones. Esta tarea se denomina configuración de carga útil.
- Tener un conjunto de canalizaciones dinámicas que se ejecuten con los datos de la hora, el día, la semana o el mes, en lugar de una canalización estática que se debe actualizar para cada ejecución
Por ejemplo, tienes un conjunto de datos que contiene toda la información sobre los envíos de tu empresa. Según estos datos, deseas responder varias preguntas comerciales. Para ello, crearás una canalización que limpie los datos sin procesar sobre los envíos, llamada Shipments Data Cleaning. Luego, crearás una segunda canalización, Delayed Shipments USA, que lee los datos limpios y busca los envíos dentro de EE.UU. que se retrasaron más de un límite especificado. La canalización Delayed Shipments USA se puede activar en cuanto se complete correctamente la canalización upstream Shipments Data Cleaning.
Además, dado que la canalización descendente consume el resultado de la canalización ascendente, debes especificar que, cuando la canalización descendente se ejecute con este activador, también reciba el directorio de entrada desde el que se leerá (que es el directorio en el que la canalización ascendente generó su resultado). Este proceso se denomina configuración de carga útil de transferencia, que se define con argumentos de tiempo de ejecución. Te permite tener un conjunto de canalizaciones dinámicas que se ejecutan con los datos de la hora, el día, la semana o el mes (no una canalización estática, que se debe actualizar para cada ejecución).
Para organizar canalizaciones con activadores, sigue este proceso:
Crea canalizaciones upstream y downstream.
- En Cloud Data Fusion Studio, diseña e implementa las canalizaciones que forman tu cadena de orquestación.
- Considera qué canalización completada activará la siguiente canalización (descendente) en tu flujo de trabajo.
Opcional: Pasa argumentos de tiempo de ejecución para las canalizaciones upstream.
- Si necesitas pasar la configuración de la carga útil como argumentos de entorno de ejecución entre canalizaciones, configura los argumentos de entorno de ejecución. Estos argumentos se pueden pasar a la canalización descendente durante la ejecución.
Crea un activador de entrada en la canalización de nivel inferior.
- En Cloud Data Fusion Studio, ve a la página Lista. En la pestaña Implementado, haz clic en el nombre de la canalización descendente. Aparecerá la vista Deploy de esa canalización.
- En el centro izquierdo de la página, haz clic en Activadores de entrada. Aparecerá una lista de las canalizaciones disponibles.
- Haz clic en la canalización upstream. Selecciona uno o más estados de finalización de la canalización upstream (Succeeds, Fails o Stops) como condición para cuando se debe ejecutar la canalización downstream.
- Si deseas que la canalización upstream comparta información (llamada configuración de carga útil) con la canalización downstream, haz clic en Configuración del activador y, luego, sigue los pasos para pasar la configuración de carga útil como argumentos de tiempo de ejecución. De lo contrario, haz clic en Habilitar el activador.
Prueba el activador.
- Inicia una ejecución de la canalización upstream.
- Si el activador está configurado correctamente, la canalización descendente se ejecutará automáticamente cuando se completen las canalizaciones ascendentes, según la condición que hayas configurado.
Pasa la configuración de la carga útil como argumentos del entorno de ejecución
La configuración de la carga útil permite compartir información de la canalización upstream a la downstream. Esta información puede ser, por ejemplo, el directorio de salida, el formato de datos o el día en que se ejecutó la canalización. Luego, la canalización descendente usa esta información para tomar decisiones, como determinar el conjunto de datos correcto del que se debe leer.
Para pasar información de la canalización upstream a la downstream, debes configurar los argumentos de entorno de ejecución de la canalización downstream con los valores de los argumentos de entorno de ejecución o la configuración de cualquier complemento en la canalización upstream.
Cada vez que se activa y ejecuta la canalización descendente, su configuración de carga útil se establece con los argumentos de tiempo de ejecución de la ejecución particular de la canalización ascendente que activó la canalización descendente.
Para pasar la configuración de la carga útil como argumentos de tiempo de ejecución, sigue estos pasos:
- Continuando con el Creating an inbound trigger, después de hacer clic en Trigger config, aparecerán todos los argumentos de tiempo de ejecución que estableciste anteriormente para tu canalización upstream. Elige los argumentos de entorno de ejecución que se pasarán de la canalización upstream a la downstream cuando se ejecute este activador.
- Haz clic en la pestaña Plugin config para ver una lista de lo que se pasará de tu canalización upstream a tu canalización downstream cuando se active.
- Haz clic en Configurar y habilitar el activador.