Properti Spark

Dokumen ini menjelaskan properti Spark dan cara menyetelkannya. Serverless untuk Apache Spark menggunakan properti Spark untuk menentukan resource komputasi, memori, dan disk yang akan dialokasikan ke workload batch Anda. Setelan properti ini dapat memengaruhi konsumsi dan biaya kuota workload. Untuk mengetahui informasi selengkapnya, lihat Kuota Serverless untuk Apache Spark dan Harga Serverless untuk Apache Spark.

Menetapkan properti workload batch Spark

Anda dapat menentukan properti Spark saat Anda mengirimkan workload batch Spark Serverless untuk Apache Spark menggunakan Google Cloud konsol, gcloud CLI, atau Dataproc API.

Konsol

  1. Di Google Cloud konsol, buka halaman Dataproc create batch.

    Buka Dataproc Create batch

  2. Di bagian Properties, klik Add Property.

  3. Masukkan Key (nama) dan Value properti Spark yang didukung.

gcloud

Berikut adalah contoh pengiriman batch gcloud CLI. Beberapa properti dipisahkan dengan koma.

gcloud dataproc batches submit spark \
    --properties=spark.checkpoint.compress=true,spark.driver.cores=8  \
    --region=REGION \
    other args ...

API

Tetapkan RuntimeConfig.properties dengan properti Spark yang didukung sebagai bagian dari permintaan batches.create.

Properti Spark yang didukung

Serverless untuk Apache Spark mendukung sebagian besar properti Spark, tetapi tidak mendukung properti Spark terkait YARN dan terkait shuffle, seperti spark.master=yarn dan spark.shuffle.service.enabled. Jika kode aplikasi Spark menetapkan properti YARN atau shuffle, aplikasi akan gagal.

Properti lingkungan runtime

Serverless untuk Apache Spark mendukung properti Spark kustom berikut untuk mengonfigurasi lingkungan runtime:

Properti Deskripsi
spark.dataproc.driverEnv.ENVIRONMENT_VARIABLE_NAME Tambahkan ENVIRONMENT_VARIABLE_NAME ke proses driver. Anda dapat menentukan beberapa variabel lingkungan.
spark.executorEnv.ENVIRONMENT_VARIABLE_NAME Tambahkan ENVIRONMENT_VARIABLE_NAME ke proses eksekutor. Anda dapat menentukan beberapa variabel lingkungan.

Properti paket

Properti Deskripsi Default
dataproc.tier Paket tempat workload batch berjalan, baik standard maupun premium (lihat Google Cloud Paket Serverless untuk Apache Spark). Sesi interaktif selalu berjalan di dataproc.tier premium.
  • Menetapkan properti paket batch ini ke standard akan menetapkan properti paket runtime dan resource Dataproc ke paket standard (lihat properti alokasi resource).
  • Menetapkan properti paket batch ini ke premium akan menetapkan spark.dataproc.engine ke lightningEngine, dan menetapkan spark.dataproc.driver.compute.tier dan spark.dataproc.executor.compute.tier ke premium. Anda dapat mengganti sebagian besar setelan paket batch yang ditetapkan secara otomatis, tetapi setelan paket komputasi yang ditetapkan secara otomatis tidak dapat diganti untuk batch yang menggunakan runtime sebelum 3.0 (lihat properti alokasi resource).
standard

Properti mesin dan runtime

Properti Deskripsi Default
spark.dataproc.engine Mesin yang akan digunakan untuk menjalankan workload batch atau sesi interaktif: lightningEngine (lihat Lightning Engine) atau mesin default.
  • Workload batch: Jika Anda memilih dataproc.tier properti standar untuk workload, properti ini akan otomatis ditetapkan ke default dan tidak dapat diganti. Jika Anda memilih dataproc.tier premium untuk workload, properti ini akan otomatis ditetapkan ke lightningEngine, tetapi Anda dapat mengubah setelan ke default jika diperlukan.
  • Sesi interaktif: Setelan ini otomatis ditetapkan ke default, tetapi Anda dapat mengubah setelan ini ke lightningEngine. Perhatikan bahwa sesi interaktif selalu berjalan di paket premium.
  • Batch (paket standar): default
  • Batch (paket premium): lightningEngine
  • Sesi: default
spark.dataproc.lightningEngine.runtime Runtime yang akan digunakan saat Lightning Engine dipilih untuk workload batch atau sesi interaktif: default atau native (Eksekusi Kueri Native). default

Properti alokasi resource

Serverless untuk Apache Spark mendukung properti Spark berikut untuk mengonfigurasi alokasi resource:

Properti Deskripsi Default Contoh
spark.driver.cores Jumlah core (vCPU) yang akan dialokasikan ke driver Spark. Nilai yang valid: 4, 8, 16. 4
spark.driver.memory

Jumlah memori yang akan dialokasikan ke proses driver Spark, ditentukan dalam format string memori JVM dengan akhiran unit ukuran ("m", "g" atau "t").

Total memori driver per core driver, termasuk overhead memori driver, yang harus antara 1024m dan 7424m untuk paket komputasi Standar (24576m untuk paket komputasi Premium). Misalnya, jika spark.driver.cores = 4, maka 4096m <= spark.driver.memory + spark.driver.memoryOverhead <= 29696m.

512m, 2g
spark.driver.memoryOverhead

Jumlah memori JVM tambahan yang akan dialokasikan ke proses driver Spark , yang ditentukan dalam format string memori JVM dengan akhiran unit ukuran ("m", "g", atau "t").

Ini adalah memori non-heap yang terkait dengan overhead JVM, string internal, dan overhead native lainnya, serta mencakup memori yang digunakan oleh proses driver lain, seperti proses driver PySpark dan memori yang digunakan oleh proses non-driver lain yang berjalan di container. Ukuran memori maksimum container tempat driver berjalan adalah ditentukan oleh jumlah spark.driver.memoryOverhead ditambah spark.driver.memory.

Total memori driver per core driver, termasuk overhead memori driver, harus antara 1024m dan 7424m untuk paket komputasi Standar (24576m untuk paket komputasi Premium). Misalnya, jika spark.driver.cores = 4, maka 4096m <= spark.driver.memory + spark.driver.memoryOverhead <= 29696m.

10% memori driver, kecuali untuk workload batch PySpark, yang secara default adalah 40% memori driver 512m, 2g
spark.dataproc.driver.compute.tier Paket komputasi yang akan digunakan di driver. Paket komputasi Premium menawarkan performa per core yang lebih tinggi, tetapi ditagih dengan tarif yang lebih tinggi. standar standar, premium
spark.dataproc.driver.disk.size Jumlah ruang disk yang dialokasikan ke driver, yang ditentukan dengan akhiran unit ukuran ("k", "m", "g", atau "t"). Minimal harus 250GiB. Jika paket disk Premium dipilih di driver, ukuran yang valid adalah 375g, 750g, 1500g, 3000g, 6000g, atau 9000g. Jika paket disk Premium disk dan 16 core driver dipilih, ukuran disk minimum adalah 750g. 100GiB per core 1024g, 2t
spark.dataproc.driver.disk.tier Paket disk yang akan digunakan untuk penyimpanan lokal dan shuffle di driver. Paket disk Premium menawarkan performa yang lebih baik dalam IOPS dan throughput, tetapi ditagih dengan tarif yang lebih tinggi. Jika paket disk Premium dipilih di driver, paket komputasi Premium juga harus dipilih menggunakan spark.dataproc.driver.compute.tier=premium, dan jumlah ruang disk harus ditentukan menggunakan spark.dataproc.executor.disk.size.

Jika paket disk Premium dipilih, driver akan mengalokasikan ruang disk tambahan sebesar 50GiB untuk penyimpanan sistem, yang tidak dapat digunakan oleh aplikasi pengguna.

standar standar, premium
spark.executor.cores Jumlah core (vCPU) yang akan dialokasikan ke setiap eksekutor Spark. Nilai yang valid: 4, 8, 16. 4
spark.executor.memory

Jumlah memori yang akan dialokasikan ke setiap proses eksekutor Spark, ditentukan dalam format string memori JVM dengan akhiran unit ukuran ("m", "g" atau "t").

Total memori eksekutor per core eksekutor, termasuk overhead memori eksekutor, harus antara 1024m dan 7424m untuk paket komputasi Standar (24576m untuk paket komputasi Premium). Misalnya, jika spark.executor.cores = 4, maka 4096m <= spark.executor.memory + spark.executor.memoryOverhead <= 29696m.

512m, 2g
spark.executor.memoryOverhead

Jumlah memori JVM tambahan yang akan dialokasikan ke proses eksekutor Spark , yang ditentukan dalam format string memori JVM dengan akhiran unit ukuran ("m", "g", atau "t").

Ini adalah memori non-heap yang digunakan untuk overhead JVM, string internal, dan overhead native lainnya, serta mencakup memori eksekutor PySpark dan memori yang digunakan oleh proses non-eksekutor lain yang berjalan di container. Ukuran memori maksimum container tempat eksekutor berjalan ditentukan oleh jumlah spark.executor.memoryOverhead ditambah spark.executor.memory.

Total memori eksekutor per core eksekutor, termasuk overhead memori eksekutor, harus antara 1024m dan 7424m untuk paket komputasi Standar (24576m untuk paket komputasi Premium). Misalnya, jika spark.executor.cores = 4, maka 4096m <= spark.executor.memory + spark.executor.memoryOverhead <= 29696m.

10% memori eksekutor, kecuali untuk workload batch PySpark, yang secara default adalah 40% memori eksekutor 512m, 2g
spark.dataproc.executor.compute.tier Paket komputasi yang akan digunakan di eksekutor. Paket komputasi Premium menawarkan performa per core yang lebih tinggi, tetapi ditagih dengan tarif yang lebih tinggi. standar standar, premium
spark.dataproc.executor.disk.size Jumlah ruang disk yang dialokasikan ke setiap eksekutor, yang ditentukan dengan akhiran unit ukuran ("k", "m", "g", atau "t"). Ruang disk eksekutor dapat digunakan untuk data shuffle dan untuk menahapkan dependensi. Minimal harus 250GiB. Jika paket disk Premium dipilih di eksekutor, ukuran yang valid adalah 375g, 750g, 1500g, 3000g, 6000g, atau 9000g. Jika paket disk Premium disk dan 16 core eksekutor dipilih, ukuran disk minimum adalah 750g. 100GiB per core 1024g, 2t
spark.dataproc.executor.disk.tier Paket disk yang akan digunakan untuk penyimpanan lokal dan shuffle di eksekutor. Paket disk Premium menawarkan performa yang lebih baik dalam IOPS dan throughput, tetapi ditagih dengan tarif yang lebih tinggi. Jika paket disk Premium dipilih di eksekutor, paket komputasi Premium juga harus dipilih menggunakan spark.dataproc.executor.compute.tier=premium, dan jumlah ruang disk harus ditentukan menggunakan spark.dataproc.executor.disk.size.

Jika paket disk Premium dipilih, setiap eksekutor akan dialokasikan ruang disk tambahan sebesar 50GiB untuk penyimpanan sistem, yang tidak dapat digunakan oleh aplikasi pengguna.

standar standar, premium
spark.executor.instances Jumlah awal eksekutor yang akan dialokasikan. Setelah workload batch dimulai, penskalaan otomatis dapat mengubah jumlah eksekutor aktif. Minimal harus 2 dan maksimal 2000.

Properti penskalaan otomatis

Lihat Properti alokasi dinamis Spark untuk mengetahui daftar properti Spark yang dapat Anda gunakan untuk mengonfigurasi penskalaan otomatis Serverless untuk Apache Spark.

Properti logging

Properti Deskripsi Default Contoh
spark.log.level Jika ditetapkan, akan mengganti setelan log yang ditentukan pengguna dengan efek panggilan ke SparkContext.setLogLevel() saat startup Spark. Level log yang valid mencakup: ALL, DEBUG, ERROR, FATAL, INFO, OFF, TRACE, dan WARN. INFO, DEBUG
spark.executor.syncLogLevel.enabled Jika ditetapkan ke true, level log yang diterapkan melalui metode SparkContext.setLogLevel() akan diterapkan ke semua eksekutor. false true, false
spark.log.level.PackageName Jika ditetapkan, akan mengganti setelan log yang ditentukan pengguna dengan efek panggilan ke SparkContext.setLogLevel(PackageName, level) saat startup Spark. Level log yang valid mencakup: ALL, DEBUG, ERROR, FATAL, INFO, OFF, TRACE, dan WARN. spark.log.level.org.apache.spark=error

Properti penjadwalan

Properti Deskripsi Default Contoh
spark.scheduler.excludeShuffleSkewExecutors Mengecualikan eksekutor yang miring peta shuffle saat menjadwalkan, yang dapat mengurangi waktu tunggu pengambilan shuffle yang lama yang disebabkan oleh kemiringan tulis shuffle. false true
spark.scheduler.shuffleSkew.minFinishedTasks Jumlah minimum tugas peta shuffle yang selesai pada eksekutor untuk diperlakukan sebagai kemiringan. 10 100
spark.scheduler.shuffleSkew.maxExecutorsNumber Jumlah maksimum eksekutor yang akan diperlakukan sebagai kemiringan. Eksekutor yang miring dikecualikan dari putaran penjadwalan saat ini. 5 10
spark.scheduler.shuffleSkew.maxExecutorsRatio Rasio maksimum total eksekutor yang akan diperlakukan sebagai kemiringan. Eksekutor yang miring dikecualikan dari penjadwalan. 0,05 0.1
spark.scheduler.shuffleSkew.ratio Kelipatan tugas peta shuffle rata-rata yang selesai pada an eksekutor untuk diperlakukan sebagai kemiringan. 1,5 2.0

Properti lainnya

Properti Deskripsi
dataproc.diagnostics.enabled Aktifkan properti ini untuk menjalankan diagnostik pada kegagalan atau pembatalan workload batch. Jika diagnostik diaktifkan, workload batch Anda akan terus menggunakan resource komputasi setelah workload selesai hingga diagnostik selesai. URI yang mengarah ke lokasi file tar diagnostik tercantum di Batch.RuntimeInfo.diagnosticOutputUri kolom API.
dataproc.gcsConnector.version Gunakan properti ini untuk mengupgrade ke a versi konektor Cloud Storage yang berbeda dengan versi yang diinstal dengan versi runtime workload batch Anda.
dataproc.sparkBqConnector.version Gunakan properti ini untuk mengupgrade ke versi konektor Spark BigQuery yang berbeda dengan versi yang diinstal dengan workload batch Anda's versi runtime (lihat Menggunakan konektor BigQuery dengan Serverless untuk Apache Spark).
dataproc.profiling.enabled Tetapkan properti ini ke true untuk mengaktifkan pembuatan profil untuk workload Serverless untuk Apache Spark.
dataproc.profiling.name Gunakan properti ini untuk menetapkan nama yang digunakan untuk membuat profil di layanan Profiler.
spark.jars Gunakan properti ini untuk menetapkan daftar jar yang dipisahkan koma yang akan disertakan di classpath driver dan eksekutor
spark.archives Gunakan properti ini untuk menetapkan daftar arsip yang dipisahkan koma yang akan diekstrak ke direktori kerja setiap eksekutor. .jar, .tar.gz, .tgz, dan .zip didukung. Untuk sesi interaktif tanpa server, tambahkan properti ini saat membuat sesi/template interaktif
dataproc.artifacts.remove Gunakan properti ini untuk menghapus artefak default yang diinstal di runtime Serverless untuk Apache Spark. Artefak yang didukung adalah spark-bigquery-connector, conscrypt, iceberg, dan delta-lake.