Membuat cluster
Persyaratan:
Nama: Nama cluster harus dimulai dengan huruf kecil, diikuti dengan maksimal 51 huruf kecil, angka, dan tanda hubung, serta tidak boleh diakhiri dengan tanda hubung.
Region cluster: Anda harus menentukan region Compute Engine untuk cluster, seperti
us-east1ataueurope-west1, untuk mengisolasi resource cluster, seperti instance VM dan metadata cluster yang disimpan di Cloud Storage, dalam region tersebut.- Lihat Region cluster untuk mengetahui informasi selengkapnya tentang region Compute Engine.
- Lihat Region & zona yang tersedia
untuk mengetahui informasi tentang cara memilih region. Anda juga dapat menjalankan perintah
gcloud compute regions listuntuk menampilkan daftar region yang tersedia.
Konektivitas: Instance Virtual Machine Compute Engine (VM) dalam cluster Managed Service untuk Apache Spark, yang terdiri dari VM master dan pekerja, memerlukan konektivitas silang jaringan IP internal penuh. Jaringan VPC
defaultmenyediakan konektivitas ini (lihat Konfigurasi Jaringan Cluster Managed Service untuk Apache Spark).Jenis mesin (direkomendasikan): Meskipun penentuan jenis mesin bersifat opsional, Google merekomendasikan agar Anda secara eksplisit memilih jenis mesin untuk VM master dan pekerja di cluster Anda. Jika Anda tidak menentukan jenis mesin, Managed Service untuk Apache Spark akan memilih jenis mesin secara dinamis berdasarkan ketersediaan resource. Pemilihan dinamis ini dapat menyebabkan variasi pada biaya dan performa.
- Untuk mengetahui informasi selengkapnya tentang cara memilih jenis mesin, lihat Jenis mesin yang didukung.
- Untuk mengurangi potensi masalah tidak tersedianya resource, sebaiknya gunakan VM Fleksibel, yang memungkinkan Anda menentukan daftar jenis mesin yang dapat diterima.
Konsol
Buka halaman Google Cloud console Create cluster untuk menampilkan setelan cluster default. Anda dapat mengonfirmasi atau mengubah setelan default yang ditampilkan, lalu mengklik Konfigurasi tambahan untuk menyesuaikan cluster lebih lanjut.
Klik Create cluster untuk membuat cluster. Nama cluster muncul di halaman Clusters, dan statusnya diperbarui menjadi Running setelah cluster disediakan. Klik nama cluster untuk membuka halaman detail cluster tempat Anda dapat memeriksa tugas, instance, dan setelan konfigurasi untuk cluster Anda serta terhubung ke antarmuka web yang berjalan di cluster.
gcloud
Untuk membuat cluster Managed Service untuk Apache Spark di command line, jalankan perintah gcloud dataproc clusters create secara lokal di jendela terminal atau di Cloud Shell.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --master-machine-type=MASTER_MACHINE_TYPE \ --worker-machine-type=WORKER_MACHINE_TYPE
Perintah ini akan membuat cluster. Meskipun jenis mesin master dan pekerja bersifat opsional, sebaiknya tentukan secara eksplisit menggunakan tanda --master-machine-type dan --worker-machine-type (misalnya, n4-standard-4) untuk memastikan biaya dan performa yang konsisten. Jika Anda tidak menentukan jenis mesin, jenis mesin default akan dipilih secara dinamis berdasarkan ketersediaan resource. Lihat perintah
gcloud dataproc clusters create
untuk mengetahui informasi tentang penggunaan flag command line guna menyesuaikan setelan cluster.
Membuat cluster dengan file YAML
- Jalankan perintah
gcloudberikut untuk mengekspor konfigurasi cluster Managed Service untuk Apache Spark yang ada ke dalam filecluster.yaml.gcloud dataproc clusters export EXISTING_CLUSTER_NAME \ --region=REGION \ --destination=cluster.yaml
- Buat cluster baru dengan mengimpor konfigurasi file YAML.
gcloud dataproc clusters import NEW_CLUSTER_NAME \ --region=REGION \ --source=cluster.yaml
**Catatan:** Selama operasi ekspor, kolom khusus cluster, seperti nama cluster, kolom hanya output, dan label yang diterapkan secara otomatis akan difilter. Kolom ini tidak diizinkan dalam file YAML yang diimpor dan digunakan untuk membuat cluster.
REST
Bagian ini menunjukkan cara membuat cluster. Meskipun penentuan jenis mesin bersifat opsional, sebaiknya sertakan machine_type_uri secara eksplisit dalam master_config dan worker_config (misalnya, n4-standard-4) untuk memastikan biaya dan performa yang konsisten. Jika Anda tidak menentukan jenis mesin, jenis mesin default akan dipilih secara dinamis berdasarkan ketersediaan resource.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- CLUSTER_NAME: nama cluster
- PROJECT: Google Cloud project ID
- REGION: Region Compute Engine yang tersedia tempat cluster akan dibuat.
- ZONE: Zona opsional dalam region yang dipilih tempat cluster akan dibuat.
- MASTER_MACHINE_TYPE: (Direkomendasikan) Jenis mesin untuk node master (misalnya,
n4-standard-4). - WORKER_MACHINE_TYPE: (Direkomendasikan) Jenis mesin untuk node pekerja (misalnya,
n4-standard-4).
Metode HTTP dan URL:
POST https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters
Meminta isi JSON:
{
"project_id":"PROJECT",
"cluster_name":"CLUSTER_NAME",
"config":{
"master_config":{
"num_instances":1,
"machine_type_uri":"MASTER_MACHINE_TYPE",
"image_uri":""
},
"softwareConfig": {
"imageVersion": "",
"properties": {},
"optionalComponents": []
},
"worker_config":{
"num_instances":2,
"machine_type_uri":"WORKER_MACHINE_TYPE",
"image_uri":""
},
"gce_cluster_config":{
"zone_uri":"ZONE"
}
}
}
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
Anda akan melihat respons JSON seperti berikut:
{
"name": "projects/PROJECT/regions/REGION/operations/b5706e31......",
"metadata": {
"@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata",
"clusterName": "CLUSTER_NAME",
"clusterUuid": "5fe882b2-...",
"status": {
"state": "PENDING",
"innerState": "PENDING",
"stateStartTime": "2019-11-21T00:37:56.220Z"
},
"operationType": "CREATE",
"description": "Create cluster with 2 workers",
"warnings": [
"For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ...""
]
}
}
Go
- Instal library klien.
- Siapkan kredensial default aplikasi.
- Jalankan kode.
Catatan: Meskipun penentuan jenis mesin bersifat opsional, sebaiknya tetapkan jenis mesin master dan pekerja secara eksplisit dalam konfigurasi cluster Anda (misalnya, ke
n4-standard-4) untuk memastikan biaya dan performa yang konsisten. Jika tidak ditentukan, jenis mesin default akan dipilih secara dinamis berdasarkan ketersediaan resource.
Java
- Instal library klien.
- Siapkan kredensial default aplikasi.
- Jalankan kode.
Catatan: Meskipun penentuan jenis mesin bersifat opsional, sebaiknya tetapkan jenis mesin master dan pekerja secara eksplisit dalam konfigurasi cluster Anda (misalnya, ke
n4-standard-4) untuk memastikan biaya dan performa yang konsisten. Jika tidak ditentukan, jenis mesin default akan dipilih secara dinamis berdasarkan ketersediaan resource.
Node.js
- Instal library klien.
- Siapkan kredensial default aplikasi.
- Jalankan kode.
Catatan: Meskipun penentuan jenis mesin bersifat opsional, sebaiknya tetapkan jenis mesin master dan pekerja secara eksplisit dalam konfigurasi cluster Anda (misalnya, ke
n4-standard-4) untuk memastikan biaya dan performa yang konsisten. Jika tidak ditentukan, jenis mesin default akan dipilih secara dinamis berdasarkan ketersediaan resource.
Python
- Instal library klien.
- Siapkan kredensial default aplikasi.
- Jalankan kode.
Catatan: Meskipun penentuan jenis mesin bersifat opsional, sebaiknya tetapkan jenis mesin master dan pekerja secara eksplisit dalam konfigurasi cluster Anda (misalnya, ke
n4-standard-4) untuk memastikan biaya dan performa yang konsisten. Jika tidak ditentukan, jenis mesin default akan dipilih secara dinamis berdasarkan ketersediaan resource.