Menggunakan Dynamic Workload Scheduler

Anda dapat menggunakan mode Mulai Fleksibel Dynamic Workload Scheduler (DWS) untuk meningkatkan ketersediaan resource GPU yang langka untuk beban kerja batch Managed Service for Apache Spark Anda.

Ringkasan

Dynamic Workload Scheduler adalah penjadwal yang mengetahui kapasitas dan mengelola resource komputasi langka secara global. Dalam mode Mulai Fleksibel, Managed Service untuk Apache Spark dapat mengantrekan permintaan Anda selama durasi yang dapat dikonfigurasi saat GPU tidak segera tersedia karena kehabisan stok regional.

Mulai Fleksibel adalah perilaku default untuk semua workload yang mendukung GPU yang dikirimkan ke Managed Service untuk Apache Spark versi runtime Spark 3.0+. Jika resource tidak tersedia, permintaan akan diantrekan, bukan gagal dengan error kehabisan stok. Setelah kapasitas diperoleh, DWS akan menyediakan seluruh cluster "sekaligus" sebelum eksekusi dimulai. Untuk mengetahui informasi selengkapnya, lihat Memperkenalkan Penjadwal Workload Dinamis.

Manfaat

  • Peningkatan ketersediaan: Pengurangan signifikan pada kegagalan tugas yang disebabkan oleh kekurangan kapasitas GPU sementara.
  • Penyediaan atomik: Penyediaan pekerja cluster sebagai satu unit, memastikan integritas cluster dan mencegah skenario ketika hanya sebagian pekerja yang dibuat.
  • Keandalan default: Meningkatkan pemerolehan resource tanpa konfigurasi parameter manual.

Persyaratan kuota

Untuk menggunakan Mulai Fleksibel DWS, project Anda harus memiliki kuota yang cukup:

  • Kuota GPU yang dapat dihentikan: DWS Flex Start menggunakan versi yang dapat dihentikan dari kumpulan kuota GPU, bukan kumpulan standar (misalnya, PREEMPTIBLE_NVIDIA_L4_GPUS). Untuk mengetahui informasi selengkapnya, lihat Kuota resource Managed Service untuk Apache Spark.
  • Kuota SSD lokal: Saat menggunakan class penyimpanan performance dengan mesin yang dipercepat GPU, Managed Service untuk Apache Spark menyediakan SSD Lokal untuk pengacakan berkecepatan tinggi dan penyimpanan sementara. Project Anda harus memiliki kuota SSD lokal yang memadai di region target.

Konfigurasi

DWS Flex Start diaktifkan secara default untuk workload GPU pada versi runtime 3.0+. Anda dapat menggunakan properti Spark berikut untuk menyesuaikan waktu tunggu atau menonaktifkan fitur ini:

Properti Deskripsi Nilai Default
spark.dataproc.[driver|executor].provisioning.mode Menentukan model penyediaan. Gunakan queue untuk DWS Flex Start (default untuk GPU) atau default untuk menonaktifkan DWS dan menggunakan penyediaan sesuai permintaan. queue, default queue (untuk GPU di 3.0+)
spark.dataproc.[driver|executor].provisioning.allocationTimeout Durasi maksimum node pool untuk menunggu dalam antrean kapasitas. Defaultnya adalah 1 jam (3600s) dan maksimumnya adalah 2 jam (7200s). Catatan: Nilai harus diakhiri dengan akhiran 's'. durasi dalam detik (misalnya, 1800s) 3600s

Contoh: Workload batch GPU dengan DWS Flex Start

Contoh berikut mengirimkan tugas batch PySpark menggunakan GPU NVIDIA L4. Dengan DWS Flex Start yang aktif secara default, perintah ini menetapkan waktu tunggu antrean 30 menit (1800s) untuk driver dan eksekutor:

gcloud dataproc batches submit pyspark \
    gs://my-bucket/path/to/your-script.py \
    --project="PROJECT_ID" \
    --region="REGION" \
    --version="3.0" \
    --properties="spark.dataproc.driver.resource.accelerator.type=l4,\
spark.dataproc.driver.provisioning.allocationTimeout=1800s,\
spark.dataproc.executor.resource.accelerator.type=l4,\
spark.dataproc.executor.provisioning.allocationTimeout=1800s,\
spark.dataproc.executor.compute.tier=premium,\
spark.dataproc.executor.disk.tier=premium"