Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Membuat cluster JupyterLab Dataproc dari Dataproc Hub
Pilih tab User-Managed Notebooks di halaman
Dataproc→Workbench
di konsol Google Cloud .
Klik Open JupyterLab di baris yang mencantumkan instance Dataproc Hub yang dibuat oleh administrator.
Jika Anda tidak memiliki akses ke konsol Google Cloud , masukkan URL instance Hub Dataproc yang dibagikan oleh administrator kepada Anda di browser web.
Di halaman Jupyterhub→Dataproc Options, pilih
konfigurasi cluster dan zona. Jika diaktifkan, tentukan penyesuaian, lalu
klik Buat.
Setelah cluster Dataproc dibuat, Anda akan dialihkan
ke antarmuka JupyterLab yang berjalan di cluster.
Membuat notebook dan menjalankan tugas Spark
Di panel kiri antarmuka JupyterLab, klik GCS (Cloud Storage).
Buat notebook PySpark dari peluncur JupyterLab.
Kernel PySpark menginisialisasi SparkContext (menggunakan variabel sc).
Anda dapat memeriksa SparkContext dan menjalankan tugas Spark dari notebook.
rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a + b))
print(rdd.collect())
Beri nama dan simpan notebook. Notebook disimpan dan tetap berada di Cloud Storage setelah cluster Dataproc dihapus.
Matikan cluster Dataproc
Dari antarmuka JupyterLab, pilih File→Hub Control Panel untuk
membuka halaman Jupyterhub.
Klik Stop My Cluster untuk mematikan (menghapus) server JupyterLab, yang akan menghapus cluster Dataproc.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Sulit dipahami","hardToUnderstand","thumb-down"],["Informasi atau kode contoh salah","incorrectInformationOrSampleCode","thumb-down"],["Informasi/contoh yang saya butuhkan tidak ada","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-10-19 UTC."],[],[]]