Managed Service untuk Apache Spark menggunakan image untuk mengikat konektor Google Cloud yang berguna dan komponen Apache Spark & Apache Hadoop menjadi satu paket yang dapat di-deploy di cluster Managed Service untuk Apache Spark. Image ini berisi sistem operasi dasar (Debian atau Ubuntu) untuk cluster, beserta komponen inti dan opsional yang diperlukan untuk menjalankan tugas, seperti Spark, Hadoop, dan Hive. Image ini diupgrade secara berkala untuk menghadirkan peningkatan dan fitur baru. Dengan pembuatan versi Managed Service untuk Apache Spark, Anda dapat memilih serangkaian versi software saat membuat cluster.
Cara kerja pembuatan versi
Saat sebuah image dibuat, image tersebut diberi nomor versi image dalam format berikut:
version_major.version_minor.version_sub_minor-os_distribution
Berikut adalah distribusi OS yang didukung/dipelihara:
| Kode Distribusi OS | Distribusi OS |
|---|---|
| debian12 | Debian 12 |
| debian10 | Debian 10 |
| debian11 | Debian 11 |
| rocky8 | Rocky Linux 8 |
| rocky9 | Rocky Linux 9 |
| ubuntu18 | Ubuntu 18.04 LTS |
| ubuntu20 | Ubuntu 20.04 LTS |
| ubuntu22 | Ubuntu 22.04 LTS |
Lihat versi image lama untuk distribusi OS yang didukung sebelumnya.
Praktik yang direkomendasikan adalah menentukan versi image major.minor untuk lingkungan produksi atau saat kompatibilitas dengan versi komponen tertentu menjadi penting. Distribusi OS dan subminor secara otomatis
disetel ke rilis mingguan terbaru.
Pilih versi
Saat Anda membuat cluster Managed Service untuk Apache Spark baru, versi image Debian terbaru yang tersedia akan digunakan secara default. Anda dapat memilih versi image Debian, Rocky Linux, atau Ubuntu saat membuat cluster (lihat
daftar versi image Managed Service untuk Apache Spark).
Saat menentukan image berbasis Debian, Anda dapat menghilangkan akhiran Kode Distribusi OS, misalnya dengan menentukan 2.0 untuk memilih image 2.0-debian10.
Akhiran OS harus digunakan untuk memilih image berbasis Rocky Linux atau
Ubuntu, misalnya dengan menentukan 2.0-ubuntu18.
perintah gcloud
Saat menggunakan perintah gcloud dataproc clusters create, Anda dapat
menggunakan argumen --image-version untuk menentukan versi image untuk
cluster baru.
Contoh image Debian:
gcloud dataproc clusters create CLUSTER_NAME \ --image-version=2.0 \ --region=REGION
Contoh image Ubuntu:
gcloud dataproc clusters create CLUSTER_NAME \ --image-version=2.0-ubuntu18 \ --region=REGION
Disarankan untuk menghilangkan versi subminor agar yang digunakan adalah versi subminor terbaru. Namun, jika perlu, versi subminor dapat ditentukan,
misalnya, 2.0.20.
Anda dapat memeriksa versi saat ini dengan Google Cloud CLI.
gcloud dataproc clusters describe CLUSTER_NAME \ --region=REGION
REST API
Anda dapat menentukan kolom SoftwareConfig
imageVersion
sebagai bagian dari
permintaan API
cluster.create.
Contoh
POST /v1/projects/project-id/regions/us-central1/clusters/
{
"projectId": "project-id",
"clusterName": "example-cluster",
"config": {
"configBucket": "",
"gceClusterConfig": {
"subnetworkUri": "default",
"zoneUri": "us-central1-b"
},
"masterConfig": {
...
}
},
"workerConfig": {
...
}
},
"softwareConfig": {
"imageVersion": "2.0"
}
}
}
Konsol
Buka halaman Managed Service untuk Apache Spark Create a cluster. Panel Set up cluster dipilih. Kolom Image type dan Version di bagian Versioning menampilkan image yang akan digunakan saat membuat cluster. Tanggal rilis image juga ditampilkan. Pada awalnya, image default, yaitu versi Debian terbaru yang tersedia, ditampilkan sebagai yang terpilih. Klik Change untuk menampilkan daftar image yang tersedia. Anda dapat memilih versi standar atau image kustom untuk digunakan di cluster Anda.
Saat versi baru dibuat
Versi utama baru akan dibuat secara berkala untuk menggabungkan satu atau beberapa komponen berikut:
- Rilis utama untuk:
- Spark, Hadoop, dan komponen Big Data lainnya
- KonektorGoogle Cloud
- Perubahan besar atau update pada fungsi Managed Service untuk Apache Spark
Versi pratinjau baru (dengan akhiran -RC) dirilis sebelum keluarnya
versi utama yang baru:
- Image pratinjau tidak ditujukan untuk digunakan dalam workload produksi.
- Versi komponen image pratinjau mungkin akan diupgrade ke versi komponen terbaru yang tersedia pada versi image GA setelah pratinjau.
Versi minor baru akan dibuat secara berkala untuk menggabungkan satu atau beberapa komponen berikut:
- Rilis dan update versi minor untuk:
- Spark, Hadoop, dan komponen Big Data lainnya
- KonektorGoogle Cloud
- Perubahan minor atau update fungsi Managed Service untuk Apache Spark
Saat versi minor baru dibuat, image Debian-nya akan menjadi default untuk versi utama, dan mewakili rilis terbaru dari versi utama.
Versi subminor baru akan dibuat secara berkala untuk menggabungkan satu atau beberapa hal berikut:
- Patch atau perbaikan untuk komponen dalam image
- Upgrade versi subminor komponen
Versi image dan dukungan Managed Service untuk Apache Spark
Versi image minor didukung selama 24 bulan setelah rilis awal GA (Ketersediaan Umum). Selama periode ini, cluster yang menggunakan versi image tersebut berhak mendapatkan dukungan (untuk menerima perbaikan, buat ulang cluster Anda menggunakan versi image subminor terbaru yang didukung). Setelah periode dukungan berakhir, cluster yang menggunakan versi image tidak lagi berhak mendapatkan dukungan.
Versi image lama
Distribusi OS yang sebelumnya didukung
Distribusi OS berikut sebelumnya didukung:
| Kode Distribusi OS | Distribusi OS | Patch Terakhir (Akhir dukungan) |
|---|---|---|
| debian9 | Debian 9 | 10 Juli 2020 |
| deb8 | Debian 8 | 26 Oktober 2018 |
Versi image tanpa distribusi OS yang eksplisit
Sebelum 16 Agustus 2018, versi image dibuat dengan Debian 8, dan tidak menyertakan Kode Distribusi OS. Versi image ditentukan dalam format berikut:
version_major.version_minor.version_sub_minor
Versi 0.1 dan 0.2
Versi image yang dirilis sebagai rilis alfa atau beta sebelum
ketersediaan umum Managed Service untuk Apache Spark versi 1.0
tidak tunduk pada
kebijakan dukungan Managed Service untuk Apache Spark.
Catatan penting terkait pembuatan versi
- Versi image berisi komponen berikut:
- Komponen inti yang diinstal di semua cluster, seperti Spark, Hadoop, dan Hive
- Komponen opsional yang Anda tentukan saat membuat cluster
- Cluster Managed Service untuk Apache Spark Anda tidak otomatis diupdate saat versi image baru dirilis.
- Rekomendasi:
- Jalankan cluster dengan versi image subminor terbaru.
Metadata image mencakup label
previous-subminor, yang disetel ketruejika cluster tidak menggunakan versi image subminor terbaru.- Untuk melihat metadata image:
- Jalankan perintah
gcloud compute images list --filterberikut untuk mencantumkan nama resource image Managed Service untuk Apache Spark.gcloud compute images list --project=PROJECT_NAME --filter="labels.goog-dataproc-version ~ ^IMAGE_VERSION (such as
2.2.16-debian12)" - Jalankan
gcloud compute images describeberikut untuk melihat metadata image.gcloud compute images describe --project=PROJECT_NAME IMAGE_NAME"
- Jalankan perintah
- Untuk melihat metadata image:
- Uji dan pastikan bahwa aplikasi Anda berhasil berjalan di cluster yang dibuat dengan versi image baru, terutama saat menggunakan rilis versi image utama yang baru.