Orchestration Pipelines の概要

Orchestration Pipelines は、Google Cloudでデータ パイプラインと AI パイプラインをシームレスに管理するために最適化された、統合された宣言型オーケストレーションと自動デプロイ フレームワークです。

Orchestration Pipelines を使用すると、宣言型の YAML ベースのドメイン固有言語(DSL)を使用して、パイプラインとそのデプロイ構成を定義できます。このフレームワークは基盤となるインフラストラクチャを抽象化するため、ユーザーはデータと AI のワークフローのロジックに集中できます。デプロイ、バージョン管理、オーケストレーションは Orchestration Pipelines が処理します。

想定される使用シナリオ

Orchestration Pipelines は、次のようなニーズがあるデータ エンジニアとデータ サイエンティスト向けに設計されています。

  • データ パイプラインの堅牢な CI/CD を確立する: 変更がリポジトリに commit されるたびに、パイプラインを自動的に検証してデプロイします。
  • 複数のデプロイ環境を管理する: 開発環境、ステージング環境、本番環境ごとに個別の構成を維持します。各環境には、独自のランナー設定とリソースがあります。
  • お好みのツールを使用してパイプラインを構築する: 任意の IDE(Colab、VS Code、JupyterLab など)と言語を使用して、さまざまなエンジンで実行されるパイプラインを開発します。
  • デプロイの整合性を確保する: バージョン管理されたパイプライン バンドルを使用して、特定のリリースのすべてのアセットと構成が一緒にデプロイされ、実行されるようにします。

サービスの主な機能

  • 宣言型 DSL: パイプライン、アクション、デプロイ構成を定義するための YAML ベースの言語。
  • デプロイ環境: 複数の環境をサポートします。各環境は、独自のランナー環境(Managed Service for Apache Airflow など)とアーティファクト ストレージで構成されます。
  • バージョン管理と再現性を備えたパイプライン バンドル: パイプライン定義と関連アセット(Python スクリプトなど)を含むバージョン管理されたパッケージ。単一のユニットとしてデプロイされます。すべてのデプロイが追跡されるため、特定の実行を簡単にロールバックまたは再現できます。
  • 変数置換とシークレット管理: カスタム変数、環境変数、CI/CD プロバイダのシークレットを使用してパイプラインをパラメータ化するための柔軟なシステム。
  • 検証ツール: デプロイ前にパイプラインの構文とセマンティクスの正確性をチェックする組み込みコマンド。
  • 手動トリガーとスケジュール設定されたトリガー: パイプラインの自動スケジュール設定と手動実行の両方をサポートします。

サポートされているフレームワークと統合

Orchestration Pipelines は、さまざまなツールやサービスと統合するように設計されています。

  • オーケストレーション エンジン: Managed Service for Apache Airflow(第 2 世代と第 3 世代)。Airflow 2 と Airflow 3 のサポートが含まれます。
  • コンピューティング エンジンとデータエンジン: BigQuery、Managed Service for Apache Spark、Managed Service for Apache Spark、Dataform、DBT。
  • 開発環境: VS Code、Google Cloud Data Agent Kit 拡張機能による Antigravity。
  • Git プロバイダ: GitHub。