重複使用叢集

本頁說明如何在 Cloud Data Fusion 中,為管道執行作業重複使用 Managed Service for Apache Spark 叢集。詳情請參閱「何時重複使用叢集」和「針對現有的 Managed Service for Apache Spark 叢集執行管道」。

事前準備

  • 您必須擁有 6.5.0 以上版本的 Cloud Data Fusion 執行個體。

啟用叢集重複使用功能

您可以在新的運算設定檔中重複使用叢集,也可以在已部署管道中使用的設定檔中重複使用叢集。

在新設定檔中啟用叢集重複使用功能

  1. 前往執行個體:

    1. In the Google Cloud console, go to the Cloud Data Fusion page.

    2. To open the instance in the Cloud Data Fusion Studio, click Instances, and then click View instance.

      Go to Instances

  2. 依序點按「系統管理員」>「設定」>「系統運算設定檔」

  3. 按一下「建立新的設定檔」

  4. 選擇 Managed Service for Apache Spark 佈建器。

  5. 在「Create a profile for Managed Service for Apache Spark」(為 Managed Service for Apache Spark 建立設定檔) 視窗中,輸入叢集的詳細資料:

    1. 在「設定檔標籤」和「設定檔名稱」欄位中,輸入用來識別設定檔的名稱,例如 execution_compute-profile
    2. 在「Description」(說明) 欄位中,說明設定檔的用途,例如 Profile used for pipeline execution
    3. 在「Max idle time」(最長閒置時間) 欄位中輸入值。詳情請參閱「設定最長閒置時間」。
    4. 將「Skip cluster delete」(略過叢集刪除作業) 欄位設為 True。詳情請參閱「何時該重複使用叢集」。
    5. 選用:設定其他選填欄位。
    6. 點選「建立」

在已部署的管道中啟用叢集重複使用功能

  1. 前往執行個體:

    1. In the Google Cloud console, go to the Cloud Data Fusion page.

    2. To open the instance in the Cloud Data Fusion Studio, click Instances, and then click View instance.

      Go to Instances

  2. 按一下「清單」

  3. 按一下「已部署」分頁標籤,然後點選管道名稱。Cloud Data Fusion 網頁介面會開啟「Studio」頁面,並顯示已部署的管道。

  4. 按一下 [設定]

  5. 在「Compute config」視窗中,前往所選設定檔並按一下「Customize」

  6. 在隨即開啟的視窗中輸入下列值:

    1. 在「Max Idle Time」(最長閒置時間) 欄位中輸入值。詳情請參閱「設定最長閒置時間」。
    2. 將「Skip cluster delete」(略過叢集刪除作業) 設為 True詳情請參閱「何時該重複使用叢集」。
  7. 按一下 [完成]

後續步驟