Dataproc Hub の使用
コレクションでコンテンツを整理
必要に応じて、コンテンツの保存と分類を行います。
Dataproc Hub から Dataproc JupyterLab クラスタを作成する
Google Cloud コンソールの [Dataproc] → [ワークベンチ] ページで、[ユーザー管理のノートブック] タブを選択します。
管理者が作成した Dataproc Hub インスタンスが一覧表示される行の [JupyterLab を開く] をクリックします。
- Google Cloud コンソールへのアクセス権がない場合は、管理者が共有している Dataproc Hub インスタンスの URL をウェブブラウザで入力します。
[Jupyterhub] → [Dataproc Options] ページで、クラスタ構成とゾーンを選択します。有効である場合は、カスタマイズを指定して、[Create] をクリックします。
Dataproc クラスタが作成されると、クラスタ上で実行されている JupyterLab インターフェースにリダイレクトされます。
ノートブックを作成して Spark ジョブを実行する
JupyterLab インターフェースの左パネルで GCS
(Cloud Storage)をクリックします。
JupyterLab ランチャーから PySpark ノートブックを作成します。
PySpark カーネルは(sc
変数を使用して)SparkContext を初期化します。SparkContext を調べて、ノートブックから Spark ジョブを実行できます。
rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a + b))
print(rdd.collect())
ノートブックに名前を付けて保存します。ノートブックが保存され、Dataproc クラスタの削除後も Cloud Storage に残ります。
Dataproc クラスタをシャットダウンする
JupyterLab インターフェースから、[File] → [Hub Control Panel] を選択して、[Jupyterhub] ページを開きます。
[Stop My Cluster] をクリックして、JupyterLab サーバーをシャットダウン(削除)し、Dataproc クラスタを削除します。
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2025-10-19 UTC。
[[["わかりやすい","easyToUnderstand","thumb-up"],["問題の解決に役立った","solvedMyProblem","thumb-up"],["その他","otherUp","thumb-up"]],[["わかりにくい","hardToUnderstand","thumb-down"],["情報またはサンプルコードが不正確","incorrectInformationOrSampleCode","thumb-down"],["必要な情報 / サンプルがない","missingTheInformationSamplesINeed","thumb-down"],["翻訳に関する問題","translationIssue","thumb-down"],["その他","otherDown","thumb-down"]],["最終更新日 2025-10-19 UTC。"],[],[]]