Anda dapat menggunakan mode Mulai Fleksibel Dynamic Workload Scheduler (DWS) untuk meningkatkan ketersediaan resource GPU yang langka untuk beban kerja batch Managed Service for Apache Spark Anda.
Ringkasan
Dynamic Workload Scheduler adalah penjadwal yang mengetahui kapasitas dan mengelola resource komputasi langka secara global. Dalam mode Mulai Fleksibel, Managed Service untuk Apache Spark dapat mengantrekan permintaan Anda selama durasi yang dapat dikonfigurasi saat GPU tidak segera tersedia karena kehabisan stok regional.
Mulai Fleksibel adalah perilaku default untuk semua workload yang mendukung GPU yang dikirimkan ke Managed Service untuk Apache Spark versi runtime Spark 3.0+. Jika resource tidak tersedia, permintaan akan diantrekan, bukan gagal dengan error kehabisan stok.
Setelah kapasitas diperoleh, DWS akan menyediakan seluruh cluster "sekaligus" sebelum
eksekusi dimulai. Untuk mengetahui informasi selengkapnya, lihat Memperkenalkan Penjadwal Workload Dinamis.
Manfaat
- Peningkatan ketersediaan: Pengurangan signifikan pada kegagalan tugas yang disebabkan oleh kekurangan kapasitas GPU sementara.
- Penyediaan atomik: Penyediaan pekerja cluster sebagai satu unit, memastikan integritas cluster dan mencegah skenario ketika hanya sebagian pekerja yang dibuat.
- Keandalan default: Meningkatkan pemerolehan resource tanpa konfigurasi parameter manual.
Persyaratan kuota
Untuk menggunakan Mulai Fleksibel DWS, project Anda harus memiliki kuota yang cukup:
- Kuota GPU yang dapat dihentikan: DWS Flex Start menggunakan versi yang dapat dihentikan dari kumpulan kuota GPU, bukan kumpulan standar (misalnya,
PREEMPTIBLE_NVIDIA_L4_GPUS). Untuk mengetahui informasi selengkapnya, lihat Kuota resource Managed Service untuk Apache Spark. - Kuota SSD lokal: Saat menggunakan class penyimpanan
performancedengan mesin yang dipercepat GPU, Managed Service untuk Apache Spark menyediakan SSD Lokal untuk pengacakan berkecepatan tinggi dan penyimpanan sementara. Project Anda harus memiliki kuota SSD lokal yang memadai di region target.
Konfigurasi
DWS Flex Start diaktifkan secara default untuk workload GPU pada versi runtime 3.0+.
Anda dapat menggunakan properti Spark berikut untuk menyesuaikan waktu tunggu atau menonaktifkan fitur ini:
| Properti | Deskripsi | Nilai | Default |
|---|---|---|---|
spark.dataproc.[driver|executor].provisioning.mode |
Menentukan model penyediaan. Gunakan queue untuk DWS Flex Start (default untuk GPU) atau default untuk menonaktifkan DWS dan menggunakan penyediaan sesuai permintaan. |
queue, default |
queue (untuk GPU di 3.0+) |
spark.dataproc.[driver|executor].provisioning.allocationTimeout |
Durasi maksimum node pool untuk menunggu dalam antrean kapasitas. Defaultnya adalah 1 jam (3600s) dan maksimumnya adalah 2 jam (7200s). Catatan: Nilai harus diakhiri dengan akhiran 's'. |
durasi dalam detik (misalnya, 1800s) |
3600s |
Contoh: Workload batch GPU dengan DWS Flex Start
Contoh berikut mengirimkan tugas batch PySpark menggunakan GPU NVIDIA L4. Dengan DWS
Flex Start yang aktif secara default, perintah ini menetapkan waktu tunggu
antrean 30 menit (1800s) untuk driver dan eksekutor:
gcloud dataproc batches submit pyspark \
gs://my-bucket/path/to/your-script.py \
--project="PROJECT_ID" \
--region="REGION" \
--version="3.0" \
--properties="spark.dataproc.driver.resource.accelerator.type=l4,\
spark.dataproc.driver.provisioning.allocationTimeout=1800s,\
spark.dataproc.executor.resource.accelerator.type=l4,\
spark.dataproc.executor.provisioning.allocationTimeout=1800s,\
spark.dataproc.executor.compute.tier=premium,\
spark.dataproc.executor.disk.tier=premium"