Membuat cluster Managed Service untuk Apache Spark
Persyaratan:
Nama: Nama cluster harus dimulai dengan huruf kecil, diikuti dengan maksimal 51 huruf kecil, angka, dan tanda hubung, serta tidak boleh diakhiri dengan tanda hubung.
Region cluster: Anda harus menentukan region Compute Engine untuk cluster, seperti
us-east1ataueurope-west1, untuk mengisolasi resource cluster, seperti instance VM dan metadata cluster yang disimpan di Cloud Storage, dalam region tersebut.- Lihat Region cluster untuk mengetahui informasi selengkapnya tentang region Compute Engine.
- Lihat Region & zona yang tersedia
untuk mengetahui informasi tentang cara memilih region. Anda juga dapat menjalankan perintah
gcloud compute regions listuntuk menampilkan daftar region yang tersedia.
Konektivitas: Instance Virtual Machine (VM) Compute Engine dalam cluster Managed Service untuk Apache Spark, yang terdiri dari VM master dan pekerja, memerlukan konektivitas silang jaringan IP internal penuh. Jaringan VPC
defaultmenyediakan konektivitas ini (lihat Konfigurasi Jaringan Cluster Managed Service untuk Apache Spark).Jenis mesin (direkomendasikan): Meskipun menentukan jenis mesin bersifat opsional, Google merekomendasikan agar Anda memilih jenis mesin secara eksplisit untuk VM master dan pekerja di cluster Anda. Jika Anda tidak menentukan jenis mesin, Managed Service untuk Apache Spark akan memilih jenis mesin secara dinamis berdasarkan ketersediaan resource. Pemilihan dinamis ini dapat menyebabkan variasi dalam biaya dan performa.
- Untuk mengetahui informasi selengkapnya tentang cara memilih jenis mesin, lihat Jenis mesin yang didukung.
- Untuk mengurangi potensi masalah ketidaktersediaan resource, sebaiknya gunakan VM Fleksibel, yang memungkinkan Anda menentukan daftar jenis mesin yang dapat diterima.
Konsol
Buka halaman Managed Service untuk Apache Spark Create a cluster di Google Cloud konsol di browser Anda, lalu klik Create di cluster pada baris Compute engine di halaman Create a Dataproc cluster on Compute Engine. Panel Set up cluster dipilih dengan kolom yang diisi dengan nilai default. Anda dapat memilih setiap panel dan mengonfirmasi atau mengubah nilai default untuk menyesuaikan cluster.
Klik Create untuk membuat cluster. Nama cluster akan muncul di halaman Clusters, dan statusnya akan diperbarui menjadi Running setelah cluster disediakan. Klik nama cluster untuk membuka halaman detail cluster tempat Anda dapat memeriksa tugas, instance, dan setelan konfigurasi untuk cluster Anda serta terhubung ke antarmuka web yang berjalan di cluster Anda.
gcloud
Untuk membuat cluster Managed Service untuk Apache Spark di command line, jalankan perintah gcloud dataproc clusters create secara lokal di jendela terminal atau di Cloud Shell.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --master-machine-type=MASTER_MACHINE_TYPE \ --worker-machine-type=WORKER_MACHINE_TYPE
Perintah ini akan membuat cluster. Meskipun jenis mesin master dan pekerja bersifat opsional, sebaiknya tentukan jenis mesin secara eksplisit menggunakan flag --master-machine-type dan --worker-machine-type (misalnya, n4-standard-4) untuk memastikan biaya dan performa yang konsisten. Jika Anda tidak menentukan jenis mesin, jenis mesin default akan dipilih secara dinamis berdasarkan ketersediaan resource. Lihat perintah
gcloud dataproc clusters create
untuk mengetahui informasi tentang cara menggunakan flag command line untuk menyesuaikan setelan cluster.
Membuat cluster dengan file YAML
- Jalankan perintah
gcloudberikut untuk mengekspor konfigurasi cluster Managed Service untuk Apache Spark yang ada ke dalam filecluster.yaml.gcloud dataproc clusters export EXISTING_CLUSTER_NAME \ --region=REGION \ --destination=cluster.yaml
- Buat cluster baru dengan mengimpor konfigurasi file YAML.
gcloud dataproc clusters import NEW_CLUSTER_NAME \ --region=REGION \ --source=cluster.yaml
Catatan: Selama operasi ekspor, kolom khusus cluster, seperti nama cluster, kolom khusus output, dan label yang diterapkan secara otomatis akan difilter. Kolom ini tidak diizinkan dalam file YAML yang diimpor dan digunakan untuk membuat cluster.
REST
Bagian ini menunjukkan cara membuat cluster. Meskipun menentukan jenis mesin bersifat opsional, sebaiknya sertakan machine_type_uri secara eksplisit dalam master_config dan worker_config (misalnya, n4-standard-4) untuk memastikan biaya dan performa yang konsisten. Jika Anda tidak menentukan jenis mesin, jenis mesin default akan dipilih secara dinamis berdasarkan ketersediaan resource.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- CLUSTER_NAME: nama cluster
- PROJECT: Google Cloud project ID
- REGION: Region Compute Engine yang tersedia tempat cluster akan dibuat.
- ZONE: Zona opsional dalam region yang dipilih tempat cluster akan dibuat.
- MASTER_MACHINE_TYPE: (Direkomendasikan) Jenis mesin untuk node master (misalnya,
n4-standard-4). - WORKER_MACHINE_TYPE: (Direkomendasikan) Jenis mesin untuk node pekerja (misalnya,
n4-standard-4).
Metode HTTP dan URL:
POST https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters
Meminta isi JSON:
{
"project_id":"PROJECT",
"cluster_name":"CLUSTER_NAME",
"config":{
"master_config":{
"num_instances":1,
"machine_type_uri":"MASTER_MACHINE_TYPE",
"image_uri":""
},
"softwareConfig": {
"imageVersion": "",
"properties": {},
"optionalComponents": []
},
"worker_config":{
"num_instances":2,
"machine_type_uri":"WORKER_MACHINE_TYPE",
"image_uri":""
},
"gce_cluster_config":{
"zone_uri":"ZONE"
}
}
}
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
Anda akan melihat respons JSON seperti berikut:
{
"name": "projects/PROJECT/regions/REGION/operations/b5706e31......",
"metadata": {
"@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata",
"clusterName": "CLUSTER_NAME",
"clusterUuid": "5fe882b2-...",
"status": {
"state": "PENDING",
"innerState": "PENDING",
"stateStartTime": "2019-11-21T00:37:56.220Z"
},
"operationType": "CREATE",
"description": "Create cluster with 2 workers",
"warnings": [
"For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ...""
]
}
}
Go
- Instal library klien.
- Siapkan kredensial default aplikasi.
- Jalankan kode.
Catatan: Meskipun menentukan jenis mesin bersifat opsional, sebaiknya tetapkan jenis mesin master dan pekerja secara eksplisit dalam konfigurasi cluster Anda (misalnya, ke
n4-standard-4) untuk memastikan biaya dan performa yang konsisten. Jika dihilangkan, jenis mesin default akan dipilih secara dinamis berdasarkan ketersediaan resource.
Java
- Instal library klien.
- Siapkan kredensial default aplikasi.
- Jalankan kode.
Catatan: Meskipun menentukan jenis mesin bersifat opsional, sebaiknya tetapkan jenis mesin master dan pekerja secara eksplisit dalam konfigurasi cluster Anda (misalnya, ke
n4-standard-4) untuk memastikan biaya dan performa yang konsisten. Jika dihilangkan, jenis mesin default akan dipilih secara dinamis berdasarkan ketersediaan resource.
Node.js
- Instal library klien.
- Siapkan kredensial default aplikasi.
- Jalankan kode.
Catatan: Meskipun menentukan jenis mesin bersifat opsional, sebaiknya tetapkan jenis mesin master dan pekerja secara eksplisit dalam konfigurasi cluster Anda (misalnya, ke
n4-standard-4) untuk memastikan biaya dan performa yang konsisten. Jika dihilangkan, jenis mesin default akan dipilih secara dinamis berdasarkan ketersediaan resource.
Python
- Instal library klien.
- Siapkan kredensial default aplikasi.
- Jalankan kode.
Catatan: Meskipun menentukan jenis mesin bersifat opsional, sebaiknya tetapkan jenis mesin master dan pekerja secara eksplisit dalam konfigurasi cluster Anda (misalnya, ke
n4-standard-4) untuk memastikan biaya dan performa yang konsisten. Jika dihilangkan, jenis mesin default akan dipilih secara dinamis berdasarkan ketersediaan resource.