使用 Dataproc Hub

從 Dataproc Hub 建立 Dataproc JupyterLab 叢集

  1. 在 Google Cloud 控制台的「Dataproc」→「Workbench」頁面中,選取「使用者自行管理的筆記本」分頁。

  2. 在列出管理員建立的 Dataproc Hub 執行個體資料列中,按一下「Open JupyterLab」

    1. 如果您無法存取 Google Cloud 控制台,請在網頁瀏覽器中輸入管理員與您共用的 Dataproc Hub 執行個體網址。
  3. 在「Jupyterhub→Dataproc Options」(Jupyterhub→Dataproc 選項) 頁面中,選取叢集設定和區域。如果啟用,請指定任何自訂項目,然後按一下「建立」

    建立 Dataproc 叢集後,系統會將您重新導向至叢集上執行的 JupyterLab 介面。

建立筆記本並執行 Spark 工作

  1. 在 JupyterLab 介面的左側面板中,按一下 GCS (Cloud Storage)。

  2. 從 JupyterLab 啟動器建立 PySpark 筆記本。

  3. PySpark 核心會初始化 SparkContext (使用 sc 變數)。您可以檢查 SparkContext,並從筆記本執行 Spark 工作。

    rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
           .map(lambda word: (word, 1))
           .reduceByKey(lambda a, b: a + b))
    print(rdd.collect())
    
  4. 為筆記本命名並儲存。刪除 Dataproc 叢集後,筆記本會儲存在 Cloud Storage 中。

關閉 Dataproc 叢集

  1. 在 JupyterLab 介面中,選取「File」→「Hub Control Panel」,開啟 Jupyterhub 頁面。

  2. 按一下「Stop My Cluster」(停止我的叢集),關閉 (刪除) JupyterLab 伺服器,並刪除 Dataproc 叢集。