Cluster Managed Service untuk Apache Spark dibangun di instance Compute Engine. Jenis mesin menentukan resource hardware virtual yang tersedia untuk instance. Compute Engine menawarkan jenis mesin yang telah ditetapkan dan jenis mesin kustom. Cluster Managed Service untuk Apache Spark dapat menggunakan jenis yang telah ditetapkan dan kustom untuk node master dan pekerja.
Cluster Managed Service untuk Apache Spark mendukung jenis mesin yang telah ditetapkan Compute Engine berikut (ketersediaan jenis mesin bervariasi menurut region):
- Jenis mesin untuk tujuan umum,
yang mencakup jenis mesin N1, N2, N2D, E2, C3, C4, N4, dan N4D (Managed Service untuk Apache Spark
juga mendukung jenis mesin kustom N1, N2, N2D, E2, N4, dan N4D ).
Batasan:
- Jenis mesin n1-standard-1 tidak didukung untuk image 2.0+ (jenis mesin n1-standard-1 tidak direkomendasikan untuk image sebelum 2.0—sebaiknya, gunakan jenis mesin dengan memori yang lebih tinggi).
- Jenis mesin dengan inti bersama tidak didukung, yang
mencakup jenis mesin yang tidak didukung berikut:
- E2: jenis mesin dengan inti bersama e2-micro, e2-small, dan e2-medium, dan
- N1: jenis mesin dengan inti bersama f1-micro dan g1-small.
- Managed Service untuk Apache Spark memilih
hyperdisk-balancedsebagai jenis boot disk jika jenis mesinnya adalah C4, N4, atau N4D.
- Jenis mesin yang dioptimalkan untuk komputasi, yang mencakup jenis mesin C2 dan C2D.
- Jenis mesin yang dioptimalkan untuk memori, yang mencakup jenis mesin M1 dan M2.
- Jenis mesin Arm, yang mencakup C4A jenis mesin.
Jenis mesin kustom
Managed Service untuk Apache Spark mendukung seri N1, N2, N2D, E2, N4, dan N4D jenis mesin kustom.
Jenis mesin kustom ideal untuk workload berikut:
- Workload yang tidak sesuai untuk jenis mesin yang telah ditetapkan.
- Workload yang memerlukan lebih banyak daya pemrosesan atau lebih banyak memori, tetapi tidak memerlukan semua upgrade yang disediakan oleh tingkat jenis mesin berikutnya.
Misalnya, jika Anda memiliki workload yang memerlukan lebih banyak daya pemrosesan daripada yang disediakan oleh instance n1-standard-4, tetapi langkah berikutnya, instance n1-standard-8, menyediakan kapasitas yang terlalu besar. Dengan jenis mesin kustom, Anda dapat membuat cluster Managed Service untuk Apache Spark dengan node master dan/atau pekerja di rentang menengah, dengan 6 CPU virtual dan memori 25 GB.
Menentukan jenis mesin kustom
Jenis mesin kustom menggunakan spesifikasi machine type khusus dan tunduk
pada batasan. Misalnya, spesifikasi jenis mesin kustom untuk VM kustom dengan 6 CPU virtual dan memori 22,5 GB adalah custom-6-23040.
Angka dalam spesifikasi jenis mesin sesuai dengan jumlah CPU virtual
(vCPU) di mesin (6) dan jumlah memori (23040).
Jumlah memori dihitung dengan mengalikan jumlah memori dalam
gigabyte dengan 1024 (lihat
Menyatakan memori dalam GB atau MB). Dalam contoh ini, 22,5 (GB) dikalikan dengan 1024: 22.5 * 1024 = 23040.
Anda menentukan jenis mesin kustom saat membuat cluster. Anda dapat menetapkan jenis mesin untuk node master atau pekerja atau keduanya saat membuat cluster. Jika Anda menetapkan keduanya, node master dapat menggunakan jenis mesin kustom yang berbeda dari jenis mesin kustom yang digunakan oleh pekerja. Jenis mesin yang digunakan oleh pekerja sekunder mengikuti setelan untuk pekerja utama dan tidak dapat ditetapkan secara terpisah (lihat Pekerja sekunder - VM preemptible dan non-preemptible).
Harga jenis mesin kustom
Harga jenis mesin kustom didasarkan pada resource yang digunakan dalam mesin kustom. Harga Managed Service untuk Apache Spark ditambahkan ke biaya resource komputasi, dan didasarkan pada jumlah total CPU virtual (vCPU) yang digunakan dalam cluster.
Membuat cluster Managed Service untuk Apache Spark dengan jenis mesin tertentu
Konsol
Dari panel Configure nodes di halaman Managed Service untuk Apache Spark Create a cluster di Google Cloud konsol, pilih machine family, series, dan type untuk node master dan pekerja cluster.
Perintah gcloud
Jalankan perintah
gcloud dataproc clusters create
dengan flag berikut untuk membuat cluster Managed Service untuk Apache Spark dengan jenis mesin master
dan/atau pekerja:
- Flag
--master-machine-type machine-typememungkinkan Anda menetapkan jenis mesin yang telah ditetapkan atau kustom yang digunakan oleh instance VM master di cluster Anda (atau instance master jika Anda membuat cluster HA) - Flag
--worker-machine-type custom-machine-typememungkinkan Anda menetapkan jenis mesin yang telah ditetapkan atau kustom yang digunakan oleh worker instance VM di cluster Anda
Contoh:
gcloud dataproc clusters create test-cluster / --master-machine-type custom-6-23040 / --worker-machine-type custom-6-23040 / other args
... properties: distcp:mapreduce.map.java.opts: -Xmx1638m distcp:mapreduce.map.memory.mb: '2048' distcp:mapreduce.reduce.java.opts: -Xmx4915m distcp:mapreduce.reduce.memory.mb: '6144' mapred:mapreduce.map.cpu.vcores: '1' mapred:mapreduce.map.java.opts: -Xmx1638m ...
API
Untuk membuat cluster dengan jenis mesin kustom, tetapkan
machineTypeUri di masterConfig dan/atau workerConfig
InstanceGroupConfig
dalam
cluster.create
API.
Contoh:
POST /v1/projects/my-project-id/regions/is-central1/clusters/
{
"projectId": "my-project-id",
"clusterName": "test-cluster",
"config": {
"configBucket": "",
"gceClusterConfig": {
"subnetworkUri": "default",
"zoneUri": "us-central1-a"
},
"masterConfig": {
"numInstances": 1,
"machineTypeUri": "n1-highmem-4",
"diskConfig": {
"bootDiskSizeGb": 500,
"numLocalSsds": 0
}
},
"workerConfig": {
"numInstances": 2,
"machineTypeUri": "n1-highmem-4",
"diskConfig": {
"bootDiskSizeGb": 500,
"numLocalSsds": 0
}
}
}
}
Membuat cluster Managed Service untuk Apache Spark dengan jenis mesin kustom dengan memori tambahan
Managed Service untuk Apache Spark mendukung jenis mesin kustom dengan memori tambahan di luar batas 6,5 GB per vCPU (lihat Harga Memori Tambahan).
Konsol
Klik Extend memory saat menyesuaikan memori Machine type di bagian Master node dan/atau Worker nodes dari panel Configure nodes di halaman Managed Service untuk Apache Spark Create a cluster di konsol. Google Cloud
Perintah gcloud
Untuk membuat cluster dari command line gcloud dengan
CPU kustom dengan memori tambahan, tambahkan akhiran -ext ke
‑‑master-machine-type dan/atau
‑‑worker-machine-type flag.
Contoh
Contoh command line gcloud berikut membuat cluster Managed Service untuk Apache Spark dengan 1 CPU dan memori 50 GB (50 * 1024 = 51200) di setiap node:
gcloud dataproc clusters create test-cluster / --master-machine-type custom-1-51200-ext / --worker-machine-type custom-1-51200-ext / other args
API
Cuplikan JSON <code.instancegroupconfig< code="" dir="ltr" translate="no"></code.instancegroupconfig<> contoh berikut dari permintaan Managed Service untuk Apache Spark REST API clusters.create menentukan 1 CPU dan memori 50 GB (50 * 1024 = 51200) di setiap node:
...
"masterConfig": {
"numInstances": 1,
"machineTypeUri": "custom-1-51200-ext",
...
},
"workerConfig": {
"numInstances": 2,
"machineTypeUri": "custom-1-51200-ext",
...
...
Jenis mesin Arm
Managed Service untuk Apache Spark mendukung pembuatan cluster dengan node yang menggunakan jenis mesin Arm, seperti jenis mesin C4A.
Persyaratan dan batasan:
- Image Managed Service untuk Apache Spark harus kompatibel dengan chipset Arm.
Image Managed Service untuk Apache Spark
2.1-ubuntu20-arm,2.2-ubuntu22-arm, dan2.3-ubuntu22-arm(dan akhiran-armyang lebih baru) kompatibel dengan chipset Arm. Image yang kompatibel dengan Arm tidak mendukung banyak komponen tindakan inisialisasi dan opsional seperti yang tercantum di halaman versi rilis image. - Karena satu image harus ditentukan untuk cluster, node master, pekerja, dan pekerja sekunder harus menggunakan jenis mesin Arm yang kompatibel dengan image Arm Managed Service untuk Apache Spark yang dipilih.
- Fitur Managed Service untuk Apache Spark yang tidak kompatibel dengan jenis mesin Arm tidak tersedia (misalnya, SSD lokal tidak didukung oleh jenis mesin C4A).
- Image Arm hanya mendukung komponen yang telah diinstal sebelumnya dan serangkaian komponen opsional yang terbatas. Komponen opsional lainnya dan semua tindakan inisialisasi tidak didukung.
Membuat cluster Managed Service untuk Apache Spark dengan jenis mesin Arm
Konsol
Untuk membuat cluster Managed Service untuk Apache Spark yang menggunakan jenis mesin Arm, lakukan hal berikut:
Di Google Cloud konsol, buka halaman Managed Service untuk Apache Spark Create a Dataproc cluster on Compute Engine.
Di bagian Versioning, klik Change untuk memilih image chipset Arm.
Pilih panel Configure nodes.
Pilih seri Arm (seperti
C4A) dan jenis mesin Arm untuk setiap node cluster.Konfirmasi atau tentukan detail cluster lainnya, lalu klik Create.
gcloud
Untuk membuat cluster Managed Service untuk Apache Spark yang menggunakan jenis mesin Arm, jalankan perintah gcloud berikut secara lokal di jendela terminal atau di
Cloud Shell. Contoh ini menentukan image 2.1-ubuntu20-arm dan jenis mesin Arm c4a-standard-4.
gcloud dataproc clusters create cluster-name \ --region=REGION \ --image-version=2.1-ubuntu20-arm \ --master-machine-type=c4a-standard-4 \ --worker-machine-type=c4a-standard-4
Catatan:
REGION: Region tempat cluster akan berada.
Lihat dokumentasi referensi gcloud dataproc clusters create untuk mengetahui informasi tentang flag command line tambahan yang dapat Anda gunakan untuk menyesuaikan cluster.
API
Contoh permintaan Managed Service untuk Apache Spark REST API
clusters.create
berikut membuat cluster yang menggunakan jenis mesin Arm c4a-standard-4.
POST /v1/projects/my-project-id/regions/is-central1/clusters/
{
"projectId": "my-project-id",
"clusterName": "sample-cluster",
"config": {
"configBucket": "",
"gceClusterConfig": {
"subnetworkUri": "default",
"zoneUri": "us-central1-a"
},
"masterConfig": {
"numInstances": 1,
"machineTypeUri": "c4a-standard-4",
"diskConfig": {
"bootDiskSizeGb": 500,
}
},
"workerConfig": {
"numInstances": 2,
"machineTypeUri": "c4a-standard-4",
"diskConfig": {
"bootDiskSizeGb": 500,
"numLocalSsds": 0
}
},
"softwareConfig": {
"imageVersion": "2.1-ubuntu20-arm"
}
}
}
Langkah berikutnya
- Pelajari lebih lanjut VM Arm di Compute Engine.
- Pelajari cara membuat VM dengan jenis mesin kustom.
- Pelajari cara membuat dan memulai instance Compute Engine.