Ringkasan Template Alur Kerja Managed Service for Apache Spark

Managed Service untuk Apache Spark WorkflowTemplates API menyediakan mekanisme fleksibel serta mudah digunakan untuk mengelola dan menjalankan alur kerja. Template Alur Kerja adalah konfigurasi alur kerja yang dapat digunakan kembali. Template ini menentukan grafik tugas dengan informasi tentang tempat untuk menjalankan tugas tersebut.

Poin-Poin Penting:

  • Membuat instance Template Alur Kerja akan meluncurkan Alur Kerja. Alur Kerja adalah operasi yang menjalankan a Directed Acyclic Graph (DAG) tugas pada suatu cluster.
    • Jika alur kerja menggunakan cluster terkelola, alur kerja tersebut akan membuat cluster, menjalankan tugas, lalu menghapus cluster saat tugas selesai.
    • Jika alur kerja menggunakan a pemilih cluster, alur kerja tersebut akan menjalankan tugas pada cluster yang ada dan dipilih.
  • Alur kerja ideal untuk alur tugas yang kompleks. Anda dapat membuat dependensi tugas sehingga tugas hanya dimulai setelah dependensinya berhasil diselesaikan.
  • Saat Anda membuat template alur kerja, Managed Service untuk Apache Spark tidak membuat cluster atau mengirimkan tugas ke cluster. Managed Service untuk Apache Spark membuat atau memilih cluster dan menjalankan tugas alur kerja di cluster saat template alur kerja dibuat instance-nya.

Jenis Template Alur Kerja

Cluster terkelola

Template alur kerja dapat menentukan cluster terkelola. Alur kerja akan membuat cluster "efemeral" untuk menjalankan tugas alur kerja, lalu menghapus cluster saat alur kerja selesai.

Pemilih cluster

Template alur kerja dapat menentukan cluster yang ada untuk menjalankan tugas alur kerja dengan menentukan satu atau beberapa label pengguna yang sebelumnya dilampirkan ke cluster. Alur kerja akan berjalan di cluster yang cocok dengan semua label. Jika beberapa cluster cocok dengan semua label, Managed Service untuk Apache Spark akan memilih cluster dengan memori YARN yang paling banyak tersedia untuk menjalankan semua tugas alur kerja. Di akhir alur kerja, Managed Service untuk Apache Spark tidak menghapus cluster yang dipilih. Lihat Menggunakan pemilih cluster dengan alur kerja untuk mengetahui informasi selengkapnya.

Berparameter

Jika Anda akan menjalankan template alur kerja beberapa kali dengan nilai yang berbeda, gunakan parameter untuk menghindari pengeditan template alur kerja untuk setiap eksekusi:

  1. tentukan parameter dalam template, lalu

  2. teruskan nilai yang berbeda untuk parameter untuk setiap eksekusi.

Lihat Parameterisasi Template Alur Kerja untuk mengetahui informasi selengkapnya.

Inline

Alur kerja dapat dibuat instance-nya secara inline menggunakan perintah gcloud dengan file YAML template alur kerja atau dengan memanggil Managed Service untuk Apache Spark InstantiateInline API (lihat Menggunakan alur kerja Dataproc inline). Alur kerja inline tidak membuat atau mengubah resource template alur kerja.

Kasus penggunaan Template Alur Kerja

  • Otomatisasi tugas berulang. Alur kerja merangkum konfigurasi dan tugas cluster yang sering digunakan.

  • Model interaksi API transaksional fire-and-forget. Template Alur Kerja menggantikan langkah-langkah yang terlibat dalam alur umum, yang mencakup:

    1. membuat cluster
    2. mengirimkan tugas
    3. polling
    4. menghapus cluster

    Template Alur Kerja menggunakan satu token untuk melacak progres dari pembuatan hingga penghapusan cluster, dan mengotomatiskan penanganan dan pemulihan error. Template ini juga menyederhanakan integrasi Managed Service untuk Apache Spark dengan alat lain, seperti fungsi Cloud Run dan Managed Service untuk Apache Airflow.

  • Dukungan untuk cluster efemeral dan berumur panjang. Kompleksitas umum yang terkait dengan menjalankan Apache Hadoop adalah penyesuaian dan penentuan ukuran cluster yang tepat. Cluster efemeral (terkelola) lebih mudah dikonfigurasi karena menjalankan satu workload. Pemilih cluster dapat digunakan dengan cluster yang berumur lebih panjang untuk menjalankan workload yang sama berulang kali tanpa menimbulkan biaya amortisasi pembuatan dan penghapusan cluster.

  • Keamanan IAM terperinci. Membuat cluster Managed Service untuk Apache Spark dan mengirimkan tugas memerlukan izin IAM all-or-nothing. Template Alur Kerja menggunakan izin per template workflowTemplates.instantiate, dan tidak bergantung pada izin cluster atau tugas.