重複使用叢集

本頁說明如何在 Cloud Data Fusion 中,為管道執行作業重複使用 Managed Service for Apache Spark 叢集。詳情請參閱「何時重複使用叢集」和「針對現有的 Managed Service for Apache Spark 叢集執行管道」。

事前準備

  • 您必須擁有 6.5.0 以上版本的 Cloud Data Fusion 執行個體。

啟用叢集重複使用功能

您可以在新的運算設定檔中重複使用叢集,也可以在已部署管道中使用的設定檔中重複使用叢集。

在新設定檔中啟用叢集重複使用功能

  1. 前往執行個體:

    1. 在 Google Cloud 控制台中,前往 Cloud Data Fusion 頁面。

    2. 如要在 Cloud Data Fusion Studio 中開啟執行個體,請依序按一下「Instances」和「View instance」

      前往「Instances」(執行個體)

  2. 依序點按「系統管理員」>「設定」>「系統運算設定檔」

  3. 按一下「建立新的設定檔」

  4. 選擇 Managed Service for Apache Spark 佈建器。

  5. 在「Create a profile for Managed Service for Apache Spark」(為 Managed Service for Apache Spark 建立設定檔) 視窗中,輸入叢集的詳細資料:

    1. 在「設定檔標籤」和「設定檔名稱」欄位中,輸入用來識別設定檔的名稱,例如 execution_compute-profile
    2. 在「Description」(說明) 欄位中,說明設定檔的用途,例如 Profile used for pipeline execution
    3. 在「Max idle time」(最長閒置時間) 欄位中輸入值。詳情請參閱「設定最長閒置時間」。
    4. 將「Skip cluster delete」(略過叢集刪除作業) 欄位設為 True。詳情請參閱「何時該重複使用叢集」。
    5. 選用:設定其他選填欄位。
    6. 點選「建立」

在已部署的管道中啟用叢集重複使用功能

  1. 前往執行個體:

    1. 在 Google Cloud 控制台中,前往 Cloud Data Fusion 頁面。

    2. 如要在 Cloud Data Fusion Studio 中開啟執行個體,請依序按一下「Instances」和「View instance」

      前往「Instances」(執行個體)

  2. 按一下「清單」

  3. 按一下「已部署」分頁標籤,然後點選管道名稱。Cloud Data Fusion 網頁介面會開啟「Studio」頁面,並顯示已部署的管道。

  4. 按一下 [設定]

  5. 在「Compute config」視窗中,前往所選設定檔並按一下「Customize」

  6. 在隨即開啟的視窗中輸入下列值:

    1. 在「Max Idle Time」(最長閒置時間) 欄位中輸入值。詳情請參閱「設定最長閒置時間」。
    2. 將「Skip cluster delete」(略過叢集刪除作業) 設為 True詳情請參閱「何時該重複使用叢集」。
  7. 按一下 [完成]

後續步驟