"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

設定 Dataproc Hub

Dataproc Hub 是自訂的 JupyterHub 伺服器。管理員可設定及建立 Dataproc Hub 執行個體，產生單一使用者 Managed Service for Apache Spark 叢集，用於託管 Jupyter 和 JupyterLab 筆記本環境 (請參閱「使用 Dataproc Hub」)。

為多位使用者啟動 Notebooks：您可以建立支援 Managed Service for Apache Spark 的 Vertex AI Workbench 執行個體，或在 VM 上安裝 Managed Service for Apache Spark JupyterLab 外掛程式，為多位使用者提供筆記本服務。

目標

定義 Managed Service for Apache Spark 叢集設定 (或使用預先定義的設定檔)。
設定 Dataproc Hub 執行個體環境變數。
建立 Dataproc Hub 執行個體。

事前準備

請建立 Google Cloud 專案和 Cloud Storage bucket (如果尚未建立的話)。

設定專案
在專案中建立 Cloud Storage bucket，用於保存本教學課程中使用的資料。
1. 前往 Google Cloud 控制台的 Cloud Storage「Buckets」(值區) 頁面。
  前往「Buckets」(值區) 頁面
2. 點選「Create」(建立)。
3. 在「建立 bucket」頁面中，輸入 bucket 資訊。如要前往下一個步驟，請按「繼續」。
  1. 在「開始使用」部分，執行下列操作：
    - 輸入符合值區命名規定的全域不重複名稱。
    - 如要新增值區標籤，請展開「標籤」部分 ()，按一下「新增標籤」，然後為標籤指定 key 和 value。
  2. 在「Choose where to store your data」(選擇資料的儲存位置) 專區中，執行下列操作：
    1. 選取「位置類型」。
    2. 從「位置類型」下拉式選單中，選擇要永久儲存 bucket 資料的位置。
      - 如果您選取「雙區域」位置類型，也可以使用相關核取方塊啟用強化型複製。
    3. 如要設定跨值區複製，請選取「透過 Storage 移轉服務新增跨值區複製作業」，然後按照下列步驟操作：
      設定跨 bucket 複製作業
      
      在「Bucket」選單中選取 bucket。
      
      在「複製設定」部分，按一下「設定」，設定複製作業的設定。
      
      系統隨即會顯示「設定跨 bucket 複製作業」窗格。
      
      如要依物件名稱前置字串篩選要複製的物件，請輸入要納入或排除物件的前置字串，然後按一下「新增前置字串」。
      
      如要為複製的物件設定儲存空間級別，請從「儲存空間級別」選單中選取儲存空間級別。如果略過這個步驟，複製的物件預設會使用目標值區的儲存空間級別。
      
      按一下 [完成]。
  3. 在「選擇資料儲存方式」部分，執行下列操作：
    1. 選取 bucket 的預設儲存空間級別，或選取「Autoclass」，讓系統自動管理 bucket 資料的儲存空間級別。
    2. 如要啟用階層命名空間，請在「為資料密集型工作負載提供最理想的儲存空間」部分，選取「為這個值區啟用階層命名空間」。
      注意：您無法在現有 bucket 中啟用階層式命名空間。
  4. 在「選取如何控制物件的存取權」部分，選取 bucket 是否要強制執行禁止公開存取，並為 bucket 的物件選取存取控管方法。
    注意：如果機構政策強制執行「禁止公開存取」設定，您就無法變更這項設定。
  5. 在「選擇保護物件資料的方式」部分，執行下列操作：
    - 選取「資料保護」下方的任何選項，為 bucket 設定所需項目。
      - 如要啟用虛刪除，請按一下「虛刪除政策 (用於資料復原)」核取方塊，並指定要保留物件的天數 (刪除後)。
      - 如要設定「物件版本管理」，請按一下「物件版本管理 (用於版本管控)」核取方塊，並指定每個物件的版本數量上限，以及非現行版本失效的天數。
      - 如要為物件和 bucket 啟用資料保留政策，請勾選「保留 (符合法規)」核取方塊，然後執行下列操作：
        
        如要啟用 Object Retention Lock，請按一下「啟用物件保留功能」核取方塊。
        
        如要啟用 Bucket Lock，請勾選「Set bucket retention policy」(設定值區資料保留政策) 核取方塊，然後選擇保留期限的時間單位和長度。
    - 如要選擇物件資料的加密方式，請展開「資料加密」部分 ()，然後選取「資料加密」方法。
4. 點選「建立」。

定義叢集設定

Dataproc Hub 執行個體會根據 YAML 叢集設定檔中的設定值建立叢集。

預先定義的叢集設定： 您可以使用 Cloud Storage 中的下列預先定義設定檔：

example-cluster config：設定標準的 Jupyter 元件叢集，其中包含一個主要節點和 2 個 worker 節點
example-single-node config：設定包含一個節點的 Jupyter 元件叢集

如要查看這些公開的 Cloud Storage 設定檔，請執行下列指令：

gcloud storage cat gs://dataproc-spawner-dist/example-configs/example-cluster.yaml
gcloud storage cat gs://dataproc-spawner-dist/example-configs/example-single-node.yaml

建立快速入門中樞：如要使用預先定義的叢集設定建立中樞，請跳至「建立 Managed Service for Apache Spark Hub 執行個體」。上述預先定義的叢集設定的 Cloud Storage 位置，是 DATAPROC_CONFIGS 環境變數欄位的預設值。

叢集設定可以指定 Managed Service for Apache Spark 叢集可用的任何功能或元件 (例如機型、初始化動作和選用元件)。叢集映像檔版本必須為 1.4.13 以上。如果嘗試使用 1.4.13 以下的映像檔版本產生叢集，會導致錯誤並失敗。

YAML 叢集設定檔範例

clusterName: cluster-name
config:
  softwareConfig:
    imageVersion: 2.2-ubuntu22
    optionalComponents:
    - JUPYTER

所有設定都必須儲存在 Cloud Storage。您可以建立及儲存多個設定檔，讓使用者在使用 Dataproc Hub 建立 Managed Service for Apache Spark 叢集筆記本環境時，選擇要使用的設定檔。

建立 YAML 叢集設定檔的方式有兩種：

從控制台建立 YAML 叢集設定檔
從現有叢集匯出 YAML 叢集設定檔

從控制台建立 YAML 叢集設定檔

在 Google Cloud 控制台中開啟「Create a cluster」(建立叢集) 頁面，然後選取並填寫欄位，指定 Dataproc Hub 為使用者產生的叢集類型。
系統為使用者產生叢集時，會覆寫區域和可用區設定：產生的叢集區域會是 Dataproc Hub 所在的區域，使用者則會選取這個區域內的可用區。
1. 在左側面板底部選取「Equivalent REST」(對等 REST)。
2. 複製產生的 JSON 模塊 (不含開頭的 POST 要求行)，然後將 JSON 模塊貼到線上 JSON 轉 YAML 轉換器 (請在網路上搜尋「Convert JSON to YAML」(將 JSON 轉換成 YAML))。
  部分 JSON 轉 YAML 轉換器會產生包含「---」的第一行。YAML 檔案中是否要包含這行內容，則視情況而定。
3. 將轉換後的 YAML 複製到本機 cluster-config-filename.yaml 檔案。

從現有叢集匯出 YAML 叢集設定檔

建立符合您需求的叢集。

將叢集設定匯出至本機 cluster-config-filename.yaml 檔案。

gcloud dataproc clusters export cluster-name \
    --destination cluster-config-filename.yaml  \
    --region region

將 YAML 設定檔儲存在 Cloud Storage 中

將本機的 YAML 叢集設定檔複製到 Cloud Storage bucket。

gcloud storage cp cluster-config-filename.yaml gs://bucket-name/