오케스트레이션 파이프라인 개요

오케스트레이션 파이프라인은 Google Cloud에서 데이터 및 AI 파이프라인을 원활하게 관리하도록 최적화된 통합 선언적 조정 및 자동화된 배포 프레임워크입니다. Google Cloud

오케스트레이션 파이프라인을 사용하면 선언적 YAML 기반 도메인 특정 언어 (DSL)를 사용하여 파이프라인과 배포 구성을 정의할 수 있습니다. 이 프레임워크는 기본 인프라를 추상화하므로 오케스트레이션 파이프라인에서 배포, 버전 관리, 조정을 처리하는 동안 데이터 및 AI 워크플로의 로직에 집중할 수 있습니다.

의도된 사용 시나리오

오케스트레이션 파이프라인은 다음 작업을 수행해야 하는 데이터 엔지니어와 데이터 과학자를 위해 설계되었습니다.

  • 데이터 파이프라인을 위한 강력한 CI/CD 설정: 변경사항이 저장소에 커밋될 때마다 파이프라인을 자동으로 검증하고 배포합니다.
  • 여러 배포 환경 관리: 개발, 스테이징, 프로덕션 환경에 대해 각각 자체 실행기 설정과 리소스를 사용하여 별도의 구성을 유지합니다.
  • 선호하는 도구를 사용하여 파이프라인 빌드: 선택한 IDE (예: Colab, VS Code, JupyterLab)와 언어를 사용하여 여러 엔진에서 실행되는 파이프라인을 개발합니다.
  • 배포 일관성 보장: 버전 관리된 파이프라인 번들을 사용하여 특정 출시의 모든 애셋과 구성이 함께 배포되고 실행되도록 합니다.

주요 제품 기능

  • 선언적 DSL: 파이프라인, 작업, 배포 구성을 정의하는 YAML 기반 언어입니다.
  • 배포 환경: 각각 자체 실행기 환경 (예: Managed Service for Apache Airflow) 및 아티팩트 저장소로 구성된 여러 환경을 지원합니다.
  • 버전 관리 및 재현 가능성이 있는 파이프라인 번들: 단일 단위로 배포되는 파이프라인 정의 및 연결된 애셋 (예: Python 스크립트)이 포함된 버전 관리된 패키지입니다. 모든 배포가 추적되므로 특정 실행을 쉽게 롤백하거나 재현할 수 있습니다.
  • 변수 대체 및 보안 비밀 관리: 맞춤 변수, 환경 변수, CI/CD 제공업체의 보안 비밀을 사용하여 파이프라인을 매개변수화하는 유연한 시스템입니다.
  • 검증 도구: 배포 전에 파이프라인의 구문 및 의미상 정확성을 확인하는 기본 제공 명령어입니다.
  • 수동 및 예약된 트리거: 파이프라인의 자동 예약 및 수동 실행을 모두 지원합니다.

지원되는 프레임워크 및 통합

오케스트레이션 파이프라인은 다양한 도구 및 서비스와 통합되도록 설계되었습니다.

  • 조정 엔진: Airflow 2 및 Airflow 3 지원을 포함한 Managed Service for Apache Airflow (2세대 및 3세대)
  • 컴퓨팅 및 데이터 엔진: BigQuery, Managed Service for Apache Spark, Managed Service for Apache Spark, Dataform, DBT
  • 개발 환경: VS Code 및 Google Cloud Data Agent Kit 확장 프로그램을 통한 Antigravity
  • Git 제공업체: GitHub