"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Komponen Jupyter opsional Managed Service untuk Apache Spark

Anda dapat menginstal komponen tambahan seperti Jupyter saat membuat cluster Managed Service untuk Apache Spark menggunakan fitur Komponen opsional. Halaman ini menjelaskan komponen Jupyter.

Komponen Jupyter adalah notebook pengguna tunggal berbasis Web untuk analisis data interaktif dan mendukung UI Web JupyterLab. UI Web Jupyter tersedia di port 8123 pada node master pertama cluster.

Luncurkan notebook untuk beberapa pengguna. Anda dapat membuat instance Vertex AI Workbench yang mendukung Managed Service untuk Apache Spark atau menginstal plugin JupyterLab Managed Service untuk Apache Spark di VM untuk menyajikan notebook kepada beberapa pengguna.

Konfigurasi Jupyter. Jupyter dapat dikonfigurasi dengan menyediakan dataproc:jupyter properti cluster. Untuk mengurangi risiko eksekusi kode jarak jauh melalui API server notebook yang tidak aman, setelan properti cluster dataproc:jupyter.listen.all.interfaces default adalah false, yang membatasi koneksi ke localhost (127.0.0.1) saat Component Gateway diaktifkan (aktivasi Component Gateway diperlukan saat menginstal komponen Jupyter).

Notebook Jupyter menyediakan kernel Python untuk menjalankan kode Spark, dan kernel PySpark. Secara default, notebook disimpan di Cloud Storage di bucket staging Managed Service untuk Apache Spark, yang ditentukan oleh pengguna atau dibuat otomatis saat cluster dibuat. Lokasi dapat diubah pada saat pembuatan cluster menggunakan properti cluster dataproc:jupyter.notebook.gcs.dir.

Bekerja dengan file data. Anda dapat menggunakan notebook Jupyter untuk memproses file data yang telah diupload ke Cloud Storage. Karena konektor Cloud Storage telah diinstal sebelumnya di cluster Managed Service untuk Apache Spark, Anda dapat mereferensikan file secara langsung di notebook Anda. Berikut adalah contoh yang mengakses file CSV di Cloud Storage:

df = spark.read.csv("gs://bucket/path/file.csv")
df.show()

Lihat Fungsi Pemuatan dan Penyimpanan Generik untuk contoh PySpark.

Menginstal Jupyter

Instal komponen saat Anda membuat cluster Managed Service untuk Apache Spark. Komponen Jupyter memerlukan aktivasi Component Gateway Managed Service untuk Apache Spark.

Konsol

Aktifkan komponen.
- Di konsol Google Cloud , buka halaman Managed Service untuk Apache Spark Create a cluster. Panel Set up cluster dipilih.
- Di bagian Komponen:
  - Di bagian Optional components, pilih komponen Jupyter.
  - Di bagian Component Gateway, pilih Aktifkan component gateway (lihat Melihat dan Mengakses URL Component Gateway).

gcloud CLI

Untuk membuat cluster Managed Service untuk Apache Spark yang menyertakan komponen Jupyter, gunakan perintah gcloud dataproc clusters create cluster-name dengan tanda --optional-components.

Contoh versi gambar default terbaru

Contoh berikut menginstal komponen Jupyter pada cluster yang menggunakan versi image default terbaru.

gcloud dataproc clusters create cluster-name \
    --optional-components=JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

REST API

Komponen Jupyter dapat diinstal melalui Managed Service untuk Apache Spark API menggunakan SoftwareConfig.Component sebagai bagian dari permintaan clusters.create.

Tetapkan properti EndpointConfig.enableHttpPortAccess ke true sebagai bagian dari permintaan clusters.create untuk mengaktifkan koneksi ke UI Web notebook Jupyter menggunakan Component Gateway.

Membuka UI Jupyter dan JupyterLab

Klik link Component Gateway konsolGoogle Cloud untuk membuka UI Jupyter notebook atau JupyterLab yang berjalan di node master cluster di browser lokal Anda.

Pilih "GCS" atau "Local Disk" untuk membuat Notebook Jupyter baru di salah satu lokasi.

Memasang GPU ke node master dan pekerja

Anda dapat menambahkan GPU ke node master dan pekerja cluster saat menggunakan notebook Jupyter untuk:

Lakukan pra-pemrosesan data di Spark, lalu kumpulkan DataFrame ke master dan jalankan TensorFlow
Menggunakan Spark untuk mengatur eksekusi TensorFlow secara paralel
Menjalankan Tensorflow-on-YARN
Gunakan dengan skenario machine learning lainnya yang menggunakan GPU