ワークフロー スケジューリング ソリューション

このセクションでは、ワークフローのスケジュール設定に使用する Google Cloud のオプションについて説明します。

Dataproc ワークフロー テンプレート

Managed Service for Apache Spark ワークフローテンプレート は、ワークフローを管理、実行するための柔軟で使いやすいメカニズムを提供します。ワークフロー テンプレートは、再利用可能なワークフロー構成です。ジョブの実行場所に関する情報を含むジョブのグラフを定義します。

Cloud Scheduler

Cloud Scheduler は、エンタープライズ クラスのフルマネージド cron ジョブ スケジューラです。バッチ、ビッグデータ ジョブ、クラウド インフラストラクチャ オペレーションなど、実質的にほぼすべてのジョブをスケジューリングできます。コードを記述することなく、毎日または毎時など、簡単な時間ベースでスケジュールを設定できます。

メリット:

  • 使い慣れた cron 式に基づき、ワークフロー テンプレートを時間ベースでインスタンス化することが可能

  • コードの記述は不要

チュートリアル: Cloud Scheduler を使用するワークフロー

Cloud Functions

Cloud Run functions は、サーバーやランタイム環境を管理することなく、Cloud イベントに応答する単一目的のスタンドアロン関数を作成できる軽量のコンピューティングソリューションです。Cloud Run functions を使用して、Pub/Sub イベントや Cloud Storage 内のファイルの変更に応答してワークフローを起動できます。時間ベースのパラメータの計算を必要とするワークフローでは、Cloud Scheduler で Cloud Run functions を使用できます。

メリット:

  • Cloud Storage や Pub/Sub のイベントに、新しいファイルなどのデータイベントに応じてワークフローをインスタンス化することが可能

  • Managed Service for Apache Spark の GoNode.js、または Python クライアント ライブラリを使用した最小限のコーディング

  • ワークフローとワークフロー パラメータを動的に生成

チュートリアル: Cloud Run functions を使用したワークフロー

Cloud Composer

Managed Airflow は、ワークフローの作成、スケジュール設定、モニタリング、管理に使用できる、マネージド Apache Airflow サービスです。

メリット:

  • 時間ベースおよびイベントベースのスケジューリングをサポート

  • オペレーターを使用した Managed Service for Apache Spark への呼び出しを簡素化

  • ワークフローとワークフロー パラメータを動的に生成

  • 複数のプロダクトにまたがるデータフローを構築 Google Cloud

チュートリアル: Managed Service for Apache Airflow を使用するワークフロー