Anda dapat menginstal komponen tambahan seperti Jupyter saat membuat cluster Managed Service untuk Apache Spark menggunakan fitur Komponen opsional. Halaman ini menjelaskan komponen Jupyter.
Komponen Jupyter
adalah notebook pengguna tunggal berbasis Web untuk analisis data interaktif dan mendukung UI Web JupyterLab. UI Web Jupyter tersedia di port 8123 pada node master pertama cluster.
Meluncurkan notebook untuk beberapa pengguna. Anda dapat membuat instance Vertex AI Workbench yang mendukung Managed Service untuk Apache Spark atau menginstal plugin JupyterLab Managed Service untuk Apache Spark di VM untuk menyediakan notebook ke beberapa pengguna.
Mengonfigurasi Jupyter. Jupyter dapat dikonfigurasi dengan memberikan dataproc:jupyter
properti cluster.
Untuk mengurangi risiko eksekusi kode jarak jauh melalui API server notebook yang tidak aman, setelan properti cluster dataproc:jupyter.listen.all.interfacesdefault adalah false, yang membatasi koneksi ke localhost (127.0.0.1) saat
Gateway Komponen diaktifkan (aktivasi Gateway Komponen diperlukan saat menginstal komponen Jupyter).
Notebook Jupyter menyediakan kernel Python untuk menjalankan kode Spark, dan kernel
PySpark. Secara default, notebook disimpan di Cloud Storage
di bucket staging Managed Service untuk Apache Spark, yang ditentukan oleh pengguna atau
dibuat otomatis
saat cluster dibuat. Lokasi dapat diubah pada waktu pembuatan cluster menggunakan properti cluster
dataproc:jupyter.notebook.gcs.dir.
Menggunakan file data. Anda dapat menggunakan notebook Jupyter untuk menggunakan file data yang telah diupload ke Cloud Storage. Karena konektor Cloud Storage telah diinstal sebelumnya di cluster Managed Service untuk Apache Spark, Anda dapat langsung mereferensikan file di notebook. Berikut adalah contoh yang mengakses file CSV di Cloud Storage:
df = spark.read.csv("gs://bucket/path/file.csv")
df.show()
Lihat Fungsi Pemuatan dan Penyimpanan Generik untuk contoh PySpark.
Menginstal Jupyter
Instal komponen saat Anda membuat cluster Managed Service untuk Apache Spark. Komponen Jupyter memerlukan aktivasi Managed Service untuk Apache Spark Gateway Komponen.
Konsol
- Aktifkan komponen.
- Di Google Cloud konsol, buka halaman Managed Service untuk Apache Spark Buat cluster. Panel Siapkan cluster dipilih.
- Di bagian Komponen :
- Di bagian Komponen opsional, pilih komponen Jupyter.
- Di bagian Gateway Komponen, pilih Aktifkan gateway komponen (lihat Melihat dan Mengakses URL Gateway Komponen).
gcloud CLI
Untuk membuat cluster Managed Service untuk Apache Spark yang menyertakan komponen Jupyter,
gunakan
gcloud dataproc clusters create cluster-name perintah dengan --optional-components flag.
Contoh versi image default terbaru
Contoh berikut menginstal komponen Jupyter di cluster yang menggunakan versi image default terbaru.
gcloud dataproc clusters create cluster-name \ --optional-components=JUPYTER \ --region=region \ --enable-component-gateway \ ... other flags
REST API
Komponen Jupyter
dapat diinstal melalui Managed Service untuk Apache Spark API menggunakan
SoftwareConfig.Component
sebagai bagian dari
clusters.create
permintaan.
- Tetapkan properti EndpointConfig.enableHttpPortAccess
ke
truesebagai bagian dari permintaanclusters.createuntuk mengaktifkan koneksi ke UI Web notebook Jupyter menggunakan Gateway Komponen.
Membuka UI Jupyter dan JupyterLab
Klik Google Cloud link Gateway Komponen konsol untuk membuka notebook Jupyter atau UI JupyterLab yang berjalan di node master cluster di browser lokal Anda.
Pilih "GCS" atau "Disk Lokal" untuk membuat Notebook Jupyter baru di salah satu lokasi.
Melampirkan GPU ke node master dan pekerja
Anda dapat menambahkan GPU ke node master dan pekerja cluster saat menggunakan notebook Jupyter untuk:
- Memproses data terlebih dahulu di Spark, lalu mengumpulkan a DataFrame ke master dan menjalankan TensorFlow
- Menggunakan Spark untuk mengatur eksekusi TensorFlow secara paralel
- Menjalankan Tensorflow-on-YARN
- Menggunakan dengan skenario machine learning lainnya yang menggunakan GPU