Dalam dokumen ini, Anda akan menggunakan komponen yang dapat ditagih sebagai berikut Google Cloud:
- Dataproc
- Compute Engine
- Cloud Scheduler
Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda,
gunakan kalkulator harga.
Sebelum memulai
Menyiapkan project
- Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataproc, Compute Engine, and Cloud Scheduler APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
Instal Google Cloud CLI.
-
Jika Anda menggunakan penyedia identitas (IdP) eksternal, Anda harus login ke gcloud CLI dengan identitas gabungan Anda terlebih dahulu.
-
Untuk melakukan inisialisasi gcloud CLI, jalankan perintah berikut:
gcloud init -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataproc, Compute Engine, and Cloud Scheduler APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
Instal Google Cloud CLI.
-
Jika Anda menggunakan penyedia identitas (IdP) eksternal, Anda harus login ke gcloud CLI dengan identitas gabungan Anda terlebih dahulu.
-
Untuk melakukan inisialisasi gcloud CLI, jalankan perintah berikut:
gcloud init
Membuat peran khusus
- Buka halaman IAM & Admin → Roles
di Google Cloud konsol.
- Klik CREATE ROLE untuk membuka halaman Create Role.
- Isi kolom Title, Description, ID, Launch stage. Saran: Gunakan "Dataproc Workflow Template Create" sebagai judul peran.
- Klik ADD PERMISSIONS,
- Di formulir Add permissions, klik Filter, lalu pilih "Permission". Lengkapi filter untuk membaca "Permission: dataproc.workflowTemplates.instantiate".
- Klik kotak centang di sebelah kiri izin yang tercantum, lalu klik Add.

- Di halaman Create Role, klik ADD PERMISSIONS lagi untuk mengulangi
sub-langkah sebelumnya guna menambahkan izin "iam.serviceAccounts.actAs"
ke peran khusus. Halaman Create Role kini mencantumkan dua izin.

- Klik CREATE di halaman Custom Role.
Peran khusus tercantum di halaman Roles.

Membuat akun layanan
Di Google Cloud konsol, buka halaman Service Accounts.
Pilih project Anda.
Klik Create Service Account.
Di kolom Nama akun layanan, masukkan nama
workflow-scheduler. Konsol akan mengisi kolom ID akun layanan berdasarkan nama ini. Google CloudOpsional: Di kolom Service account description, masukkan deskripsi akun layanan.
Klik Create and continue.
Klik kolom Select a role , lalu pilih peran khusus Dataproc Workflow Template Create yang Anda buat pada langkah sebelumnya.
Klik Continue.
Di kolom Peran admin akun layanan, masukkan alamat email Akun Google Anda.
Klik Done untuk menyelesaikan pembuatan akun layanan.
Membuat template alur kerja.
Salin dan jalankan perintah yang tercantum di bawah di jendela terminal lokal atau di Cloud Shell untuk membuat dan menentukan template alur kerja.
Catatan:
- Perintah menentukan "us-central1"
region. Anda dapat menentukan
region lain atau menghapus flag
--regionjika sebelumnya telah menjalankangcloud config set compute/regionuntuk menetapkan properti region. - Urutan "-- " (dash dash space) dalam perintah
add-jobmeneruskan argumen1000ke tugas SparkPi, yang menentukan jumlah sampel yang akan digunakan untuk memperkirakan nilai Pi.
- Buat template alur kerja.
gcloud dataproc workflow-templates create sparkpi \ --region=us-central1
- Tambahkan tugas spark ke template alur kerja sparkpi. ID langkah "compute"
diperlukan, dan mengidentifikasi tugas SparkPi yang ditambahkan.
gcloud dataproc workflow-templates add-job spark \ --workflow-template=sparkpi \ --step-id=compute \ --class=org.apache.spark.examples.SparkPi \ --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \ --region=us-central1 \ -- 1000
- Gunakan
cluster,
node tunggal
yang dikelola untuk menjalankan alur kerja. Managed Service untuk Apache Spark akan membuat
cluster, menjalankan alur kerja di cluster tersebut, lalu menghapus cluster saat alur kerja selesai.
gcloud dataproc workflow-templates set-managed-cluster sparkpi \ --cluster-name=sparkpi \ --single-node \ --region=us-central1
- Klik nama
sparkpidi halaman Workflows Managed Service untuk Apache Spark di konsol untuk membuka halaman Workflow template details. Google Cloud Konfirmasi atribut template sparkpi.
Membuat tugas Cloud Scheduler
Buka halaman Cloud Scheduler di Google Cloud konsol (Anda mungkin perlu memilih project untuk membuka halaman tersebut). Klik CREATE JOB.
Masukkan atau pilih informasi tugas berikut:
- Select a region: "us-central" atau region lain tempat Anda membuat template alur kerja.
- Name: "sparkpi"
- Frekuensi: "* * * * *" memilih setiap menit; "0 9 * * 1" memilih setiap Senin pukul 09.00. Lihat Menentukan Jadwal Tugas untuk nilai unix-cron lainnya. Catatan: Anda dapat mengklik tombol RUN NOW di Jobs Cloud Scheduler di Google Cloud konsol untuk menjalankan dan menguji tugas Anda, terlepas dari frekuensi yang Anda tetapkan untuk tugas Anda.
- Zona waktu: Pilih timezone. Ketik "United States" untuk mencantumkan zona waktu AS.
- Target: "HTTP"
- URL: Sisipkan URL berikut setelah menyisipkan
your-project-id. Ganti "us-central1" jika Anda membuat template alur kerja di region lain. URL ini akan memanggil
Managed Service untuk Apache Spark
workflowTemplates.instantiateAPI untuk menjalankan template alur kerja sparkpi Anda.https://dataproc.googleapis.com/v1/projects/your-project-id/regions/us-central1/workflowTemplates/sparkpi:instantiate?alt=json
- HTTP method:
- "POST"
- Body: "{}"
- Auth header:
- "Add OAuth token"
- Akun layanan: Sisipkan service account address dari
akun layanan yang Anda buat untuk tutorial ini.
Anda dapat menggunakan alamat akun berikut setelah menyisipkan your-project-id:
workflow-scheduler@your-project-id.iam.gserviceaccount.com
- Scope: Anda dapat mengabaikan item ini.
- Klik CREATE.
Menguji tugas alur kerja terjadwal
Di baris tugas
sparkpidi Cloud Scheduler Jobs page, klik RUN NOW.Tunggu beberapa menit, lalu buka halaman Workflows Managed Service untuk Apache Spark untuk memverifikasi bahwa alur kerja sparkpi telah selesai.

Setelah alur kerja menghapus cluster yang dikelola, detail tugas akan tetap ada di Google Cloud konsol. Klik tugas
compute...yang tercantum di halaman Managed Service untuk Apache Spark Jobs untuk melihat detail tugas alur kerja.
Pembersihan
Alur kerja dalam tutorial ini menghapus cluster yang dikelolanya saat alur kerja selesai. Dengan menyimpan alur kerja, Anda dapat menjalankan kembali alur kerja dan tidak dikenai biaya. Anda dapat menghapus resource lain yang dibuat dalam tutorial ini untuk menghindari biaya berulang.
Menghapus project
- Di Google Cloud konsol, buka halaman Manage resources.
- Pada daftar project, pilih project yang Anda ingin Anda hapus, lalu klik Delete.
- Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.
Menghapus template alur kerja
gcloud dataproc workflow-templates delete sparkpi \ --region=us-central1
Menghapus tugas Cloud Scheduler
Buka halaman Cloud Scheduler Jobs
di Google Cloud konsol, centang kotak di sebelah kiri fungsi sparkpi, lalu klik DELETE.
Menghapus akun layanan
Buka halaman IAM & Admin → Service Accounts
di Google Cloud konsol, centang kotak di sebelah kiri workflow-scheduler...
akun layanan, lalu klik DELETE.
Langkah berikutnya
- Lihat Ringkasan template alur kerja Managed Service untuk Apache Spark.
- Lihat Solusi penjadwalan alur kerja.