Dokumen ini menjelaskan cara membuat profil penggunaan resource Serverless untuk Apache Spark. Google Cloud Cloud Profiler terus mengumpulkan dan melaporkan informasi penggunaan CPU dan alokasi memori aplikasi. Anda dapat mengaktifkan
pembuatan profil saat mengirimkan batch atau membuat beban kerja sesi
dengan menggunakan properti pembuatan profil yang tercantum dalam tabel berikut.
Google Cloud Serverless for Apache Spark menambahkan opsi JVM terkait ke
konfigurasi spark.driver.extraJavaOptions
dan spark.executor.extraJavaOptions
yang digunakan untuk workload.
Opsi | Deskripsi | Nilai | Default |
---|---|---|---|
dataproc.profiling.enabled |
Mengaktifkan pembuatan profil workload | true atau false |
false |
dataproc.profiling.name |
Nama profil di layanan Profiler | PROFILE_NAME | spark-WORKLOAD_TYPE-WORKLOAD_ID, dengan: |
Catatan:
- Serverless untuk Apache Spark menetapkan versi profiler ke UUID batch atau UUID sesi.
- Profiler mendukung jenis beban kerja Spark berikut:
Spark
,PySpark
,SparkSql
, danSparkR
. - Beban kerja harus berjalan selama lebih dari tiga menit agar Profiler dapat mengumpulkan dan mengupload data ke project.
- Anda dapat mengganti opsi pembuatan profil yang dikirimkan dengan workload dengan membuat
SparkConf
, lalu menyetelextraJavaOptions
dalam kode Anda. Perhatikan bahwa menyetel propertiextraJavaOptions
saat workload dikirimkan tidak akan menggantikan opsi pembuatan profil yang dikirimkan bersama workload.
Untuk contoh opsi profiler yang digunakan dengan pengiriman batch, lihat contoh workload batch PySpark.
Mengaktifkan pembuatan profil
Selesaikan langkah-langkah berikut untuk mengaktifkan pembuatan profil pada beban kerja:
- Aktifkan Profiler.
- Jika Anda menggunakan akun layanan VM kustom, berikan peran Cloud Profiler Agent ke akun layanan VM kustom. Peran ini berisi izin Profiler yang diperlukan.
- Tetapkan properti pembuatan profil saat Anda mengirimkan beban kerja batch atau membuat template sesi.
Contoh workload batch PySpark
Contoh berikut menggunakan gcloud CLI untuk mengirimkan workload batch PySpark dengan profil yang diaktifkan.
gcloud dataproc batches submit pyspark PYTHON_WORKLOAD_FILE \ --region=REGION \ --properties=dataproc.profiling.enabled=true,dataproc.profiling.name=PROFILE_NAME \ -- other args
Dua profil dibuat:
PROFILE_NAME-driver
untuk memprofilkan tugas driver sparkPROFILE_NAME-executor
untuk memprofilkan tugas eksekutor spark
Lihat profil
Anda dapat melihat profil dari Profiler di konsol Google Cloud .