Dokumen ini memberikan ringkasan tentang berbagai jenis komponen yang tersedia di cluster Managed Service for Apache Spark. Memahami komponen ini sangat penting untuk mengonfigurasi cluster Anda agar menyertakan alat dan layanan yang diperlukan untuk workload big data Anda. Komponen Managed Service for Apache Spark dikategorikan sebagai komponen yang diinstal, opsional, atau tindakan inisialisasi.
Jenis komponen
Cluster Managed Service untuk Apache Spark memiliki jenis komponen berikut:
Komponen yang diinstal: Komponen yang diinstal dalam image dan diaktifkan saat cluster dibuat.
Komponen opsional: Komponen yang Anda pilih untuk diinstal dan digunakan di cluster saat Anda membuat cluster. Managed Service for Apache Spark menginstal dan mengaktifkan komponen opsional bergantung pada versi image cluster sebagai berikut:
2.2dan versi image sebelumnya: Komponen opsional diinstal secara otomatis. Komponen opsional yang dipilih diaktifkan dan komponen opsional yang tidak dipilih akan di-uninstal saat pembuatan cluster.Versi image
2.3dan yang lebih baru: Semua komponen opsional diinstal selama pembuatan cluster, kecuali komponen opsional Jupyter, Iceberg, dan Delta Lake, yang telah diinstal sebelumnya di versi image2.3dan yang lebih baru. Komponen opsional yang telah diinstal sebelumnya dihapus dari cluster versi image2.3atau yang lebih baru jika tidak diaktifkan saat cluster dibuat. Untuk mengetahui informasi selengkapnya, lihat Versi rilis Managed Service for Apache Spark 2.3.x.
Komponen tindakan inisialisasi: Komponen yang diinstal pada cluster sebagai bagian dari tindakan inisialisasi yang Anda tentukan saat membuat cluster.
Komponen opsional diinstal pada cluster sebelum tindakan inisialisasi dijalankan di cluster.
Halaman versi image Managed Service for Apache Spark mencantumkan komponen dan jenis komponen yang tersedia dalam rilis image Managed Service for Apache Spark terbaru.
Komponen opsional memiliki keuntungan berikut dibandingkan tindakan inisialisasi yang digunakan untuk menginstal komponen:
- Komponen opsional diuji agar kompatibel dengan Managed Service for Apache Spark versi tertentu.
- Komponen opsional diaktifkan dengan parameter pembuatan cluster; tindakan inisialisasi memerlukan skrip.
Komponen opsional yang tersedia
| Komponen opsional | Nama komponen dalam perintah Google Cloud CLI dan permintaan API |
Versi Gambar | Tahap Rilis |
|---|---|---|---|
| Delta Lake | DELTA | 2.2.46 dan yang lebih baru | GA |
| Docker | DOCKER | 1.5 dan yang lebih baru | GA |
| Flink | FLINK | 1.5 dan yang lebih baru | GA |
| HBase | HBASE | 1.5 dan yang lebih baru (tidak tersedia di 2.1 dan yang lebih baru) |
Tidak digunakan lagi |
| Hive WebHCat | HIVE_WEBHCAT | 1.3 dan yang lebih baru | GA |
| Hudi | HUDI | 1.5 dan yang lebih baru | GA |
| Iceberg | ICEBERG | 2.2 dan yang lebih baru | GA |
| Jupyter Notebook | JUPYTER | 1.3 dan yang lebih baru | GA |
| Pig | PIG | 1.5* dan yang lebih baru | GA |
| Presto | PRESTO | 1.3 dan yang lebih baru (tidak tersedia di 2.1 dan yang lebih baru) |
GA |
| Ranger | RANGER | 1.3 dan yang lebih baru | GA |
| Solr | SOLR | 1.3 dan yang lebih baru | GA |
| Trino | TRINO | 2.1 dan yang lebih baru | GA |
| Zeppelin Notebook | ZEPPELIN | 1.3 dan yang lebih baru | GA |
| Zookeeper | ZOOKEEPER | 1.0 dan yang lebih baru | GA |
Catatan:
- Apache Pig adalah komponen opsional dalam versi image 2.3 dan yang lebih baru. Aplikasi ini telah diinstal sebelumnya di
2.2dan versi image yang lebih lama.
Menambahkan komponen opsional
Konsol
- Di konsol Google Cloud , buka halaman Managed Service for Apache Spark
Create a cluster.
Panel Set up cluster dipilih.
- Di bagian Components, di bagian Optional components, pilih satu atau beberapa komponen untuk diinstal di cluster Anda.
Google Cloud CLI
Untuk membuat cluster Managed Service for Apache Spark dan menginstal satu atau beberapa
komponen opsional di cluster, gunakan perintah
gcloud beta dataproc clusters create cluster-name
dengan tanda --optional-components.
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=COMPONENT-NAME(s) \ ... other flags
REST API
Komponen opsional dapat ditentukan melalui Managed Service for Apache Spark API menggunakan SoftwareConfig.Component sebagai bagian dari permintaan clusters.create.