Descripción general de las canalizaciones de organización

Orchestration Pipelines es un framework unificado y declarativo de organización y de implementación automatizada optimizado para administrar sin problemas las canalizaciones de datos y de IA enGoogle Cloud.

Con Canalizaciones de organización, puedes definir tus canalizaciones y sus configuraciones de implementación con un lenguaje específico del dominio (DSL) declarativo basado en YAML. Este framework abstrae la infraestructura subyacente, lo que te permite enfocarte en la lógica de tus flujos de trabajo de datos y de IA, mientras que Canalizaciones de organización controla la implementación, el control de versiones y la organización.

Casos de uso previstos

Canalizaciones de organización está diseñado para ingenieros y científicos de datos que necesitan lo siguiente:

  • Establecer una CI/CD sólida para las canalizaciones de datos: Valida y, también, implementa automáticamente las canalizaciones cada vez que se confirman cambios en un repositorio.
  • Administrar varios entornos de implementación: Mantén configuraciones separadas para los entornos de desarrollo, etapa de pruebas y producción, cada uno con su propia configuración y recursos del ejecutor.
  • Compilar canalizaciones con las herramientas preferidas: Usa los IDE que elijas (como Colab, VS Code o JupyterLab) y los lenguajes para desarrollar canalizaciones que se ejecuten en diferentes motores.
  • Garantizar la coherencia de la implementación: Usa paquetes de canalizaciones con control de versiones para garantizar que todos los recursos y las configuraciones de una versión específica se implementen y ejecuten juntos.

Funciones clave del producto

  • DSL declarativo: Un lenguaje basado en YAML para definir canalizaciones, acciones y configuraciones de implementación.
  • Entornos de implementación: Compatibilidad con varios entornos, cada uno configurado con su propio entorno de ejecutor (como Managed Service para Apache Airflow) y almacenamiento de artefactos.
  • Paquetes de canalizaciones con control de versiones y reproducibilidad: Paquetes con control de versiones que contienen definiciones de canalizaciones y recursos asociados (como secuencias de comandos de Python) que se implementan como una sola unidad. Se realiza un seguimiento de cada implementación, lo que facilita la reversión o la reproducción de ejecuciones específicas.
  • Sustitución de variables y administración de secretos: Sistema flexible para parametrizar canalizaciones con variables personalizadas, variables de entorno y secretos de proveedores de CI/CD.
  • Herramientas de validación: Comandos integrados para verificar la sintaxis y la corrección semántica de tus canalizaciones antes de la implementación.
  • Activadores manuales y programados: Compatibilidad con la programación automatizada y la ejecución manual de canalizaciones.

Frameworks e integraciones compatibles

Canalizaciones de organización está diseñado para integrarse en una amplia variedad de herramientas y servicios:

  • Motores de organización: Managed Service para Apache Airflow (Gen 2 y Gen 3), incluida la compatibilidad con Airflow 2 y Airflow 3.
  • Motores de procesamiento y datos: BigQuery, Managed Service para Apache Spark, Managed Service para Apache Spark, Dataform y DBT.
  • Entornos de desarrollo: VS Code y Antigravity a través de la extensión del kit de agentes de datos de Google Cloud.
  • Proveedores de Git: GitHub.