Dataproc Hub の使用

Dataproc Hub から Dataproc JupyterLab クラスタを作成する

  1. Google Cloud コンソールの [Dataproc] → [ワークベンチ] ページで、[ユーザー管理のノートブック] タブを選択します。

  2. 管理者が作成した Dataproc Hub インスタンスが一覧表示される行の [JupyterLab を開く] をクリックします。

    1. Google Cloud コンソールへのアクセス権がない場合は、管理者が共有している Dataproc Hub インスタンスの URL をウェブブラウザで入力します。
  3. [Jupyterhub] → [Dataproc Options] ページで、クラスタ構成とゾーンを選択します。有効である場合は、カスタマイズを指定して、[Create] をクリックします。

    Dataproc クラスタが作成されると、クラスタ上で実行されている JupyterLab インターフェースにリダイレクトされます。

ノートブックを作成して Spark ジョブを実行する

  1. JupyterLab インターフェースの左パネルで GCS(Cloud Storage)をクリックします。

  2. JupyterLab ランチャーから PySpark ノートブックを作成します。

  3. PySpark カーネルは(sc 変数を使用して)SparkContext を初期化します。SparkContext を調べて、ノートブックから Spark ジョブを実行できます。

    rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
           .map(lambda word: (word, 1))
           .reduceByKey(lambda a, b: a + b))
    print(rdd.collect())
    
  4. ノートブックに名前を付けて保存します。ノートブックが保存され、Dataproc クラスタの削除後も Cloud Storage に残ります。

Dataproc クラスタをシャットダウンする

  1. JupyterLab インターフェースから、[File] → [Hub Control Panel] を選択して、[Jupyterhub] ページを開きます。

  2. [Stop My Cluster] をクリックして、JupyterLab サーバーをシャットダウン(削除)し、Dataproc クラスタを削除します。