Komponen Managed Service untuk Apache Spark

Dokumen ini memberikan ringkasan tentang berbagai jenis komponen yang tersedia di cluster Managed Service untuk Apache Spark. Memahami komponen ini sangat penting untuk mengonfigurasi cluster Anda agar menyertakan alat dan layanan yang diperlukan untuk workload big data Anda. Komponen Managed Service untuk Apache Spark dikategorikan sebagai komponen yang diinstal, opsional, atau tindakan inisialisasi.

Jenis komponen

Cluster Managed Service untuk Apache Spark memiliki jenis komponen berikut:

  • Komponen yang diinstal: Komponen yang diinstal dalam image dan diaktifkan saat cluster dibuat.

  • Komponen opsional: Komponen yang Anda pilih untuk diinstal dan digunakan di cluster saat Anda membuat cluster. Managed Service untuk Apache Spark menginstal dan mengaktifkan komponen opsional, bergantung pada versi image cluster sebagai berikut:

    • Versi image 2.2 dan yang lebih lama: Komponen opsional diinstal secara otomatis. Komponen opsional yang dipilih diaktifkan dan komponen opsional yang tidak dipilih akan di-uninstal saat pembuatan cluster.

    • Versi image 2.3 dan yang lebih baru: Semua komponen opsional diinstal selama pembuatan cluster, kecuali komponen opsional Jupyter, Iceberg, dan Delta Lake, yang telah diinstal sebelumnya dalam versi image 2.3 dan yang lebih baru. Komponen opsional yang telah diinstal sebelumnya akan dihapus dari cluster versi image 2.3 atau yang lebih baru jika tidak diaktifkan saat cluster dibuat. Untuk mengetahui informasi selengkapnya, lihat Versi rilis Managed Service untuk Apache Spark 2.3.x.

  • Komponen tindakan inisialisasi: Komponen yang diinstal pada cluster sebagai bagian dari tindakan inisialisasi yang Anda tentukan saat membuat cluster.

Komponen opsional diinstal pada cluster sebelum tindakan inisialisasi dijalankan di cluster.

Halaman versi image Managed Service untuk Apache Spark mencantumkan komponen dan jenis komponen yang tersedia dalam rilis image Managed Service untuk Apache Spark terbaru.

Komponen opsional memiliki keunggulan berikut dibandingkan tindakan inisialisasi yang digunakan untuk menginstal komponen:

  • Komponen opsional diuji sebagai kompatibel dengan versi Managed Service untuk Apache Spark tertentu.
  • Komponen opsional diaktifkan dengan parameter pembuatan cluster; tindakan inisialisasi memerlukan skrip.

Komponen opsional yang tersedia

Komponen opsional Nama komponen
dalam perintah Google Cloud CLI dan permintaan API
Versi Image Tahap Rilis
Delta Lake DELTA 2.2.46 dan yang lebih baru GA
Docker DOCKER 1.5 dan yang lebih baru GA
Flink FLINK 1.5 dan yang lebih baru GA
HBase HBASE 1.5 dan yang lebih baru
(tidak tersedia di 2.1 dan yang lebih baru)
Tidak digunakan lagi
Hive WebHCat HIVE_WEBHCAT 1.3 dan yang lebih baru GA
Hudi HUDI 1.5 dan yang lebih baru GA
Iceberg ICEBERG 2.2 dan yang lebih baru GA
Jupyter Notebook JUPYTER 1.3 dan yang lebih baru GA
Pig PIG 1.5* dan yang lebih baru GA
Presto PRESTO 1.3 dan yang lebih baru
(tidak tersedia di 2.1 dan yang lebih baru)
GA
Ranger RANGER 1.3 dan yang lebih baru GA
Solr SOLR 1.3 dan yang lebih baru GA
Trino TRINO 2.1 dan yang lebih baru GA
Zeppelin Notebook ZEPPELIN 1.3 dan yang lebih baru GA
Zookeeper ZOOKEEPER 1.0 dan yang lebih baru GA

Catatan:

  • Apache Pig adalah komponen opsional dalam versi image 2.3 dan yang lebih baru. Komponen ini telah diinstal sebelumnya dalam versi image 2.2 dan yang lebih lama.

Menambahkan komponen opsional

Konsol

  1. Di Google Cloud konsol, buka halaman Managed Service untuk Apache Spark Create a cluster.

    Buka Buat cluster

    Panel Set up cluster dipilih.

  2. Di bagian Components, di bagian Optional components, pilih satu atau beberapa komponen untuk diinstal di cluster Anda.

Google Cloud CLI

Untuk membuat cluster Managed Service untuk Apache Spark dan menginstal satu atau lebih komponen opsional di cluster, gunakan gcloud beta dataproc clusters create cluster-name perintah dengan tanda --optional-components.

gcloud dataproc clusters create CLUSTER_NAME \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

REST API

Komponen opsional dapat ditentukan melalui Managed Service untuk Apache Spark API menggunakan SoftwareConfig.Component sebagai bagian dari clusters.create.