Membuat cluster menggunakan gcloud CLI

Halaman ini berisi cara menggunakan alat command line gcloud Google Cloud CLI untuk membuat cluster Managed Service for Apache Spark, menjalankan tugas Apache Spark di cluster, lalu mengubah jumlah worker di cluster.

Anda dapat mengetahui cara melakukan tugas yang sama atau serupa dengan Panduan Memulai Menggunakan API Explorer, konsol di Membuat cluster menggunakan Google Cloud konsol, dan menggunakan library klien di Membuat cluster menggunakan library klien. Google Cloud

Sebelum memulai

  1. Login keakun Anda. Google Cloud Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. Instal Google Cloud CLI.

  3. Jika Anda menggunakan penyedia identitas (IdP) eksternal, Anda harus login ke gcloud CLI dengan identitas gabungan Anda terlebih dahulu.

  4. Untuk melakukan inisialisasi gcloud CLI, jalankan perintah berikut:

    gcloud init
  5. Buat atau pilih Google Cloud project.

    Peran yang diperlukan untuk memilih atau membuat project

    • Memilih project: Memilih project tidak memerlukan peran IAM tertentu Anda dapat memilih project mana pun yang telah diberi peran.
    • Membuat project: Untuk membuat project, Anda memerlukan peran Pembuat Project (roles/resourcemanager.projectCreator), yang berisi izin resourcemanager.projects.create. Pelajari cara memberikan peran.
    • Buat Google Cloud project:

      gcloud projects create PROJECT_ID

      Ganti PROJECT_ID dengan nama untuk Google Cloud project yang Anda buat.

    • Pilih Google Cloud project yang Anda buat:

      gcloud config set project PROJECT_ID

      Ganti PROJECT_ID dengan nama Google Cloud project Anda.

  6. Pastikan Anda memiliki izin yang diperlukan untuk menyelesaikan panduan ini.

  7. Pastikan penagihan diaktifkan untuk Google Cloud project Anda.

  8. Aktifkan Dataproc API:

    Peran yang diperlukan untuk mengaktifkan API

    Untuk mengaktifkan API, Anda memerlukan peran IAM Service Usage Admin (roles/serviceusage.serviceUsageAdmin), yang berisi izin serviceusage.services.enable. Pelajari cara memberikan peran.

    gcloud services enable dataproc.googleapis.com
  9. Instal Google Cloud CLI.

  10. Jika Anda menggunakan penyedia identitas (IdP) eksternal, Anda harus login ke gcloud CLI dengan identitas gabungan Anda terlebih dahulu.

  11. Untuk melakukan inisialisasi gcloud CLI, jalankan perintah berikut:

    gcloud init
  12. Buat atau pilih Google Cloud project.

    Peran yang diperlukan untuk memilih atau membuat project

    • Memilih project: Memilih project tidak memerlukan peran IAM tertentu Anda dapat memilih project mana pun yang telah diberi peran.
    • Membuat project: Untuk membuat project, Anda memerlukan peran Pembuat Project (roles/resourcemanager.projectCreator), yang berisi izin resourcemanager.projects.create. Pelajari cara memberikan peran.
    • Buat Google Cloud project:

      gcloud projects create PROJECT_ID

      Ganti PROJECT_ID dengan nama untuk Google Cloud project yang Anda buat.

    • Pilih Google Cloud project yang Anda buat:

      gcloud config set project PROJECT_ID

      Ganti PROJECT_ID dengan nama Google Cloud project Anda.

  13. Pastikan Anda memiliki izin yang diperlukan untuk menyelesaikan panduan ini.

  14. Pastikan penagihan diaktifkan untuk Google Cloud project Anda.

  15. Aktifkan Dataproc API:

    Peran yang diperlukan untuk mengaktifkan API

    Untuk mengaktifkan API, Anda memerlukan peran IAM Service Usage Admin (roles/serviceusage.serviceUsageAdmin), yang berisi izin serviceusage.services.enable. Pelajari cara memberikan peran.

    gcloud services enable dataproc.googleapis.com

Peran yang diperlukan

Peran IAM tertentu diperlukan untuk menjalankan contoh di halaman ini. Bergantung pada kebijakan organisasi, peran ini mungkin sudah diberikan. Untuk memeriksa pemberian peran, lihat Apakah Anda perlu memberikan peran?.

Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project,folder, dan organisasi.

Peran pengguna

Untuk mendapatkan izin yang Anda perlukan untuk membuat cluster Managed Service for Apache Spark, minta administrator Anda untuk memberikan peran IAM berikut:

Peran akun layanan

Untuk memastikan bahwa akun layanan default Compute Engine memiliki izin yang diperlukan untuk membuat cluster Managed Service for Apache Spark, minta administrator Anda untuk memberikan peran IAM Dataproc Worker (roles/dataproc.worker) ke akun layanan default Compute Engine di project.

Membuat cluster

Untuk membuat cluster bernama example-cluster, jalankan perintah gcloud Managed Service for Apache Spark clusters create berikut.

gcloud dataproc clusters create example-cluster --region=REGION

Ganti kode berikut:

REGION: Tentukan region tempat cluster akan berada.

Mengirim tugas

Untuk mengirimkan contoh tugas Spark yang menghitung nilai kasar untuk pi, jalankan perintah gcloud Managed Service for Apache Spark jobs submit spark berikut:

gcloud dataproc jobs submit spark --cluster example-cluster \
    --region=REGION \
    --class org.apache.spark.examples.SparkPi \
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

Catatan:

Ganti kode berikut:

REGION: Tentukan region cluster.

  • Tugas berjalan di example-cluster.
  • class berisi metode utama untuk SparkPi, yang menghitung nilai perkiraan pi. integritas aplikasi.
  • File jar berisi kode tugas.
  • 1000 adalah parameter tugas. Parameter ini menentukan jumlah tugas (iterasi) yang dilakukan tugas untuk menghitung nilai pi.

Tugas sedang berjalan dan output terakhir ditampilkan di jendela terminal:

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

Mengupdate cluster

Untuk mengubah jumlah worker di cluster menjadi lima, jalankan perintah berikut:

gcloud dataproc clusters update example-cluster \
    --region=REGION \
    --num-workers 5

Output perintah menampilkan detail cluster:

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

Untuk mengurangi jumlah worker node ke nilai aslinya, yaitu 2, jalankan perintah berikut:

gcloud dataproc clusters update example-cluster \
    --region=REGION \
    --num-workers 2

Pembersihan

Agar akun Anda tidak dikenai biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut. Google Cloud

  1. Untuk menghapus example-cluster, jalankan clusters delete perintah:
    gcloud dataproc clusters delete example-cluster \
        --region=REGION
    

Langkah berikutnya