Dataproc Hub 支援運用 Vertex AI Workbench 和 Dataproc,透過 Jupyter Notebook以及 Hadoop 和 Spark 生態系統,大規模執行互動式機器學習和資料處理工作。
Dataproc Hub Notebook 是由管理員精選的單一使用者Notebook,可在使用者專案中建立及執行的 Dataproc JupyterLab 叢集上運作。
Dataproc Hub 運用 JupyterHub 實現以下效益:
- 啟用這項功能後,管理員就能針對不同的資料和機器學習使用者群組,建立精選的 Notebook 範本清單,確保全體組織的一致性。
- 為資料和機器學習使用者提供符合軟硬體需求的預先設定環境,加快 Notebook 建立速度。
Dataproc Hub 為管理員和使用者提供不同的介面:
- 管理員可使用 Google Cloud 控制台的「Dataproc」→「Workbench」→「User-Managed Notebooks」(使用者自行管理的 Notebook) 頁面來建立 Dataproc Hub 執行個體。每個 Hub 執行個體都包含一組由 YAML 叢集設定檔預先定義的 Notebook 環境。
- 資料和機器學習使用者可透過Google Cloud 控制台的「Notebooks」→「Instances」(執行個體) 使用者介面,選取預先定義的 Notebook環境,用來在 Dataproc 叢集上生成 Notebook 伺服器。
- 使用者若無控制台存取權,則可透過管理員提供的 Dataproc Hub 執行個體網址,從網頁瀏覽器存取 Dataproc Hub 執行個體,進而生成 Dataproc 叢集。
Dataproc Hub 用途:
- 依照軟硬體需求,為資料與機器學習使用者進行分組 (使用者可歸類於多個群組)
- 限制 Dataproc 控制台存取權:使用者無法透過 Google Cloud 控制台存取 Dataproc
Dataproc Hub 功能:
- 預先定義的使用者環境
- 叢集及 Notebook 隔離:不同的群組成員無法輕易存取彼此的叢集和 Notebook
瞭解詳情
- 管理員:設定 Dataproc Hub
- 使用者:使用 Dataproc Hub