このページでは、Cloud Data Fusion でパイプライン実行に Managed Service for Apache Spark クラスタを再利用する方法について説明します。詳細については、クラスタを再利用するタイミングと既存の Managed Service for Apache Spark クラスタに対してパイプラインを実行するをご覧ください。
始める前に
- Cloud Data Fusion インスタンスのバージョン 6.5.0 以降が必要です。
クラスタの再利用を有効にする
クラスタは、新しいコンピューティング プロファイル、またはデプロイされたパイプラインで使用されているプロファイルで再利用できます。
新しいプロファイルでクラスタの再利用を有効にする
インスタンスに移動します:
Google Cloud コンソールで、Cloud Data Fusion のページに移動します。
Cloud Data Fusion Studio でインスタンスを開くには、[インスタンス]、[インスタンスを表示] の順にクリックします。
[システム管理者] > [構成] > [システム コンピューティング プロファイル] をクリックします。
[Create New Profile] をクリックします。
Managed Service for Apache Spark プロビジョナーを選択します。
[Managed Service for Apache Spark のプロファイルを作成] ウィンドウで、クラスタの詳細を入力します。
- [Profile label] フィールドと [Profile name] フィールドに、プロファイルを識別する名前(
execution_compute-profileなど)を入力します。 - [説明] フィールドに、プロファイルの目的(
Profile used for pipeline executionなど)を入力します。 - [最大アイドル時間] フィールドに値を入力します。詳細については、最大アイドル時間を設定するをご覧ください。
- [クラスタの削除をスキップ] フィールドを
Trueに設定します。詳細については、クラスタを再利用するタイミングをご覧ください。 - 省略可: 他の省略可能なフィールドを構成します。
- [作成] をクリックします。
- [Profile label] フィールドと [Profile name] フィールドに、プロファイルを識別する名前(
デプロイされたパイプラインでクラスタの再利用を有効にする
インスタンスに移動します:
Google Cloud コンソールで、Cloud Data Fusion のページに移動します。
Cloud Data Fusion Studio でインスタンスを開くには、[インスタンス]、[インスタンスを表示] の順にクリックします。
[リスト] をクリックします。
[デプロイ済み] タブをクリックし、パイプライン名をクリックします。デプロイされたパイプラインが、Cloud Data Fusion ウェブ インターフェースの [Studio] ページで開きます。
[構成] をクリックします。
[コンピューティング構成] ウィンドウで、選択したプロファイルに移動し、[カスタマイズ] をクリックします。
表示されたウィンドウで、次の値を入力します。
- [最大アイドル時間] フィールドに値を入力します。詳細については、最大アイドル時間を設定するをご覧ください。
- [クラスタの削除をスキップ] を
Trueに設定します。詳細については、クラスタを再利用するタイミングをご覧ください。
[完了] をクリックします。