Crear canalizaciones de Dataflow

En esta página, se describen las diferentes formas de compilar canalizaciones para Dataflow y las ventajas de cada método.

Plantillas proporcionadas por Google

Google proporciona plantillas de código abierto para docenas de canalizaciones de Dataflow precompiladas. Puedes ejecutar estas plantillas desde la Google Cloud consola o desde la línea de comandos. Algunas plantillas admiten la adición de una función definida por el usuario (UDF), de modo que puedas transformar los datos antes de escribirlos en el destino de salida.

Considera usar una plantilla si hay una que coincida con tu situación. Para obtener una lista completa, consulta Plantillas proporcionadas por Google.

Compilador de trabajos

El compilador de trabajos es una IU visual para compilar y ejecutar canalizaciones de Dataflow en la Google Cloud consola, sin escribir ningún código. En el compilador de trabajos, creas una canalización seleccionando orígenes, receptores y transformaciones, y conectándolos para formar un gráfico. El compilador de trabajos también te permite guardar y cargar tus canalizaciones como archivos YAML.

Considera el compilador de trabajos para las siguientes situaciones:

  • Crea canalizaciones personalizadas cuando una plantilla proporcionada por Google no coincida con tu situación.
  • Compila canalizaciones sin codificación.
  • Crea canalizaciones con varios orígenes o receptores.
  • Crea prototipos rápidos.

Para obtener más información, consulta Descripción general de la IU del compilador de trabajos.

El compilador de trabajos admite un subconjunto de los orígenes y receptores que están disponibles en Apache Beam. Si necesitas uno que no sea compatible con el compilador de trabajos, prueba una plantilla proporcionada por Google o usa el SDK de Apache Beam.

SDK de Apache Beam

Las canalizaciones de Dataflow se basan en el SDK de Apache Beam de código abierto . Si usas el SDK para escribir tu canalización, obtendrás toda la potencia de Apache Beam para tus cargas de trabajo. Las canalizaciones se pueden escribir en Java, Python o Go.

Considera usar el SDK de Apache Beam si no puedes lograr tu situación con una plantilla proporcionada por Google o con el compilador de trabajos. Por ejemplo:

  • Canalizaciones más complejas que necesitan el conjunto completo de funciones de Apache Beam
  • Canalizaciones de transmisión que requieren estrategias más sofisticadas para controlar los datos tardíos, como el reprocesamiento

Para obtener más información, consulta Usa Apache Beam para compilar canalizaciones.

Notebooks

Puedes ejecutar código de Python de Apache Beam en un notebook de JupyterLab. Estos notebooks están disponibles a través de Gemini Enterprise Agent Platform Workbench, un servicio que aloja VMs de notebooks preinstaladas con los frameworks más recientes de ciencia de datos y aprendizaje automático. Con los notebooks, no necesitas configurar un entorno de desarrollo y puedes iterar rápidamente en el código de tu canalización. Los notebooks se ejecutan en un entorno de prueba, pero puedes exportar el código para usarlo en producción.

Para obtener más información, consulta Desarrolla notebooks de Apache Beam.