Dokumen ini menjelaskan alat dan file yang dapat Anda gunakan untuk memantau dan memecahkan masalah workload batch Managed Service untuk Apache Spark.
Memecahkan masalah workload dari konsol Google Cloud
Jika tugas batch gagal atau memiliki performa yang buruk, langkah pertama yang direkomendasikan adalah membuka halaman Batch details dari halaman Batches di konsol Google Cloud .
Menggunakan tab Ringkasan: Hub pemecahan masalah Anda
Tab Ringkasan, yang dipilih secara default saat halaman Detail batch terbuka, menampilkan metrik penting dan log yang difilter untuk membantu Anda melakukan penilaian awal yang cepat terhadap kondisi batch. Setelah penilaian awal ini, Anda dapat melakukan analisis yang lebih mendalam menggunakan alat yang lebih khusus yang tersedia dari halaman Detail batch, seperti UI Spark, Logs Explorer, dan Gemini Cloud Assist.
Sorotan metrik batch
Tab Ringkasan di halaman Detail batch mencakup diagram yang menampilkan nilai metrik beban kerja batch yang penting. Diagram metrik diisi setelah selesai, dan memberikan indikasi visual tentang potensi masalah seperti perebutan resource, kecondongan data, atau tekanan memori.

Tabel berikut mencantumkan metrik beban kerja Spark yang ditampilkan di halaman Detail batch di konsol Google Cloud , dan menjelaskan cara nilai metrik dapat memberikan insight tentang status dan performa beban kerja.
| Metrik | Apa yang ditampilkan? |
|---|---|
| Metrik di tingkat Eksekutor | |
| Rasio Waktu GC JVM terhadap Runtime | Metrik ini menunjukkan rasio waktu pembersihan sampah memori (GC) JVM terhadap runtime per eksekutor. Rasio yang tinggi dapat menunjukkan kebocoran memori dalam tugas yang berjalan di executor tertentu atau struktur data yang tidak efisien, yang dapat menyebabkan churn objek yang tinggi. |
| Byte Disk yang Ditumpahkan | Metrik ini menunjukkan total jumlah byte disk yang tumpah di berbagai eksekutor. Jika eksekutor menunjukkan byte disk yang ditumpahkan dalam jumlah besar, hal ini dapat menunjukkan kecondongan data. Jika metrik meningkat dari waktu ke waktu, hal ini dapat menunjukkan bahwa ada tahap dengan tekanan memori atau kebocoran memori. |
| Byte yang Dibaca dan Ditulis | Metrik ini menunjukkan byte yang ditulis versus byte yang dibaca per eksekutor. Perbedaan besar dalam byte yang dibaca atau ditulis dapat menunjukkan skenario saat gabungan yang direplikasi menyebabkan amplifikasi data pada eksekutor tertentu. |
| Data yang Dibaca dan Ditulis | Metrik ini menampilkan data yang dibaca dan ditulis per eksekutor. Jumlah besar yang dibaca dengan jumlah kecil yang ditulis dapat menunjukkan hambatan dalam logika pemrosesan pada eksekutor tertentu, sehingga menyebabkan data dibaca saat menunggu. Eksekutor yang secara konsisten tertinggal dalam pembacaan dan penulisan dapat menunjukkan pertentangan resource pada node tersebut atau inefisiensi kode khusus eksekutor. |
| Rasio Waktu Penulisan Acak terhadap Waktu Proses | Metrik ini menunjukkan jumlah waktu yang dihabiskan executor dalam shuffle runtime dibandingkan dengan runtime keseluruhan. Jika nilai ini tinggi untuk beberapa eksekutor, hal ini dapat menunjukkan kecondongan data atau serialisasi data yang tidak efisien. Anda dapat mengidentifikasi tahap dengan waktu penulisan shuffle yang lama di UI Spark. Cari tugas pencilan dalam tahap tersebut yang memerlukan waktu lebih lama dari rata-rata untuk diselesaikan. Periksa apakah eksekutor dengan waktu penulisan shuffle yang tinggi juga menunjukkan aktivitas I/O disk yang tinggi. Serialisasi yang lebih efisien dan langkah-langkah partisi tambahan dapat membantu. Penulisan data yang sangat besar dibandingkan dengan pembacaan data dapat menunjukkan duplikasi data yang tidak diinginkan karena gabungan yang tidak efisien atau transformasi yang salah. |
| Metrik di tingkat Aplikasi | |
| Progres Tahapan | Metrik ini menunjukkan jumlah tahap dalam tahap yang gagal, menunggu, dan berjalan. Sejumlah besar stage yang gagal atau menunggu dapat menunjukkan kecondongan data. Periksa partisi data, dan debug alasan kegagalan tahap menggunakan tab Stages di Spark UI. |
| Batch Spark Executors | Metrik ini menunjukkan jumlah eksekutor yang mungkin diperlukan dibandingkan dengan jumlah eksekutor yang berjalan. Perbedaan besar antara eksekutor yang diperlukan dan yang berjalan dapat menunjukkan masalah penskalaan otomatis. |
| Metrik di tingkat VM | |
| Memori yang Digunakan | Metrik ini menunjukkan persentase memori VM yang sedang digunakan. Jika persentase master tinggi, hal ini dapat menunjukkan bahwa driver mengalami tekanan memori. Untuk node VM lainnya, persentase yang tinggi dapat menunjukkan bahwa eksekutor kehabisan memori, yang dapat menyebabkan tumpahan disk yang tinggi dan runtime workload yang lebih lambat. Gunakan UI Spark untuk menganalisis eksekutor guna memeriksa waktu GC yang tinggi dan kegagalan tugas yang tinggi. Selain itu, lakukan proses debug pada kode Spark untuk caching set data besar dan siaran variabel yang tidak perlu. |
Log tugas
Halaman Detail batch mencakup bagian Log tugas yang mencantumkan peringatan dan error yang difilter dari log tugas (workload batch). Fitur ini memungkinkan identifikasi cepat masalah penting tanpa perlu mengurai file log yang ekstensif secara manual. Anda dapat memilih Severity log (misalnya, Error) dari menu drop-down dan menambahkan Filter teks untuk mempersempit hasil. Untuk melakukan analisis yang lebih mendalam, klik ikon Lihat di Logs Explorer
untuk membuka log batch yang dipilih di Logs Explorer.
Contoh: Logs Explorer terbuka setelah memilih Errors dari pemilih Tingkat Keparahan di halaman Detail batch di konsol Google Cloud .

Spark UI
UI Spark mengumpulkan detail eksekusi Apache Spark dari workload batch Managed Service untuk Apache Spark. Tidak ada biaya untuk fitur UI Spark, yang diaktifkan secara default.
Data yang dikumpulkan oleh fitur UI Spark dipertahankan selama 90 hari. Anda dapat menggunakan antarmuka web ini untuk memantau dan men-debug workload Spark tanpa harus membuat Persistent History Server.
Izin dan peran Identity and Access Management yang diperlukan
Izin berikut diperlukan untuk menggunakan fitur UI Spark dengan workload batch.
Izin pengumpulan data:
dataproc.batches.sparkApplicationWrite. Izin ini harus diberikan ke akun layanan yang menjalankan beban kerja batch. Izin ini disertakan dalam peranManaged Service for Apache Spark Worker, yang otomatis diberikan ke akun layanan default Compute Engine yang digunakan Managed Service untuk Apache Spark secara default (lihat Akun layanan Managed Service untuk Apache Spark). Namun, jika Anda menentukan akun layanan kustom untuk workload batch, Anda harus menambahkan izindataproc.batches.sparkApplicationWriteke akun layanan tersebut (biasanya, dengan memberikan peran Managed Service untuk Apache SparkWorkerke akun layanan tersebut).Izin akses UI Spark:
dataproc.batches.sparkApplicationRead. Izin ini harus diberikan kepada pengguna untuk mengakses UI Spark di konsolGoogle Cloud . Izin ini disertakan dalam peranDataproc Viewer,Dataproc Editor, danDataproc Administrator. Untuk membuka UI Spark di konsol Google Cloud , Anda harus memiliki salah satu peran ini atau memiliki peran kustom yang menyertakan izin ini.
Membuka Spark UI
Halaman Spark UI tersedia di beban kerja batch konsol Google Cloud .
Buka halaman Sesi interaktif Managed Service untuk Apache Spark.
Klik ID Batch untuk membuka halaman Detail batch.
Klik Lihat UI Spark di menu atas.
Tombol View Spark UI dinonaktifkan dalam kasus berikut:
- Jika izin yang diperlukan tidak diberikan
- Jika Anda menghapus centang pada kotak Aktifkan UI Spark di halaman Detail batch
- Jika Anda menetapkan properti
spark.dataproc.appContext.enabledkefalsesaat Anda mengirimkan workload batch
Log Managed Service untuk Apache Spark
Pencatatan log diaktifkan secara default di Managed Service untuk Apache Spark, dan log workload tetap ada setelah workload selesai. Managed Service untuk Apache Spark mengumpulkan log workload di Cloud Logging. Anda dapat mengakses log Managed Service untuk Apache Spark di resource Cloud Dataproc Batch di Logs Explorer.
Mengkueri log Managed Service untuk Apache Spark
Logs Explorer di konsol Google Cloud menyediakan panel kueri untuk membantu Anda membuat kueri guna memeriksa log beban kerja batch. Berikut adalah langkah-langkah yang dapat Anda ikuti untuk membuat kueri guna memeriksa log workload batch:
- Project Anda saat ini dipilih. Anda dapat mengklik Perbaiki cakupan Project untuk memilih project lain.
Tentukan kueri log batch.
Gunakan menu filter untuk memfilter workload batch.
Di bagian Semua resource, pilih resource Cloud Managed Service untuk Apache Spark Batch.
Di panel Select resource, pilih LOCATION batch, lalu BATCH ID. Parameter batch ini tercantum di halaman Managed Service untuk Apache Spark Batches di konsol Google Cloud .
Klik Terapkan.
Di bagian Select log names, masukkan
dataproc.googleapis.comdi kotak Search log names untuk membatasi jenis log yang akan dikueri. Pilih satu atau beberapa nama file log yang tercantum.
Gunakan editor kueri untuk memfilter log khusus VM.
Tentukan jenis resource dan nama resource VM seperti yang ditunjukkan pada contoh berikut:
Catatan:resource.type="cloud_dataproc_batch" labels."dataproc.googleapis.com/resource_name"="VM_NAME_PREFIX-BATCH_UUID-VM_SUFFIX"
- VM_NAME_PREFIX: Gunakan
gdpic-rmuntuk workload batch yang berjalan di Managed Service untuk Apache Spark3.0dan versi runtime yang lebih baru; gunakangdpic-srvls-batchuntuk workload batch yang berjalan di versi runtime yang lebih lama. - BATCH_UUID: UUID batch tercantum di halaman Detail batch di konsol Google Cloud , yang terbuka saat Anda mengklik ID Batch di halaman Batches.
Log batch juga mencantumkan UUID batch dalam nama resource VM. Berikut adalah contoh dari batch driver.log:
- VM_NAME_PREFIX: Gunakan
Klik Run query.
Jenis log dan contoh kueri Managed Service untuk Apache Spark
Daftar berikut menjelaskan berbagai jenis log Managed Service untuk Apache Spark dan memberikan contoh kueri Logs Explorer untuk setiap jenis log.
dataproc.googleapis.com/output: File log ini berisi output workload batch. Managed Service untuk Apache Spark mengalirkan output batch ke namespaceoutput, dan menetapkan nama file keJOB_ID.driver.log.Contoh kueri Logs Explorer untuk log output:
resource.type="cloud_dataproc_batch" resource.labels.location="REGION" resource.labels.batch_id="BATCH_ID" logName="projects/PROJECT_ID/logs/dataproc.googleapis.com%2Foutput"
dataproc.googleapis.com/spark: Namespacesparkmenggabungkan log Spark untuk daemon dan executor yang berjalan di VM master dan pekerja cluster Managed Service untuk Apache Spark. Setiap entri log mencakup label komponenmaster,worker, atauexecutoruntuk mengidentifikasi sumber log, sebagai berikut:executor: Log dari eksekutor kode pengguna. Biasanya, ini adalah log terdistribusi.master: Log dari master pengelola resource mandiri Spark, yang serupa dengan logResourceManagerYARN Managed Service untuk Apache Spark.worker: Log dari pekerja pengelola resource mandiri Spark, yang serupa dengan logNodeManagerManaged Service untuk Apache Spark YARN.
Contoh kueri Logs Explorer untuk semua log di namespace
spark:resource.type="cloud_dataproc_batch" resource.labels.location="REGION" resource.labels.batch_id="BATCH_ID" logName="projects/PROJECT_ID/logs/dataproc.googleapis.com%2Fspark"
Contoh kueri Logs Explorer untuk log komponen mandiri Spark di namespace
spark:resource.type="cloud_dataproc_batch" resource.labels.location="REGION" resource.labels.batch_id="BATCH_ID" logName="projects/PROJECT_ID/logs/dataproc.googleapis.com%2Fspark" jsonPayload.component="COMPONENT"
dataproc.googleapis.com/startup: Namespacestartupmencakup log startup batch (cluster). Semua log skrip inisialisasi disertakan. Komponen diidentifikasi berdasarkan label, misalnya: Contoh kueri Logs Explorer untuk log startup di VM tertentu:startup-script[855]: ... activate-component-spark[3050]: ... enable spark-worker
resource.type="cloud_dataproc_batch" resource.labels.location="REGION" resource.labels.batch_id="BATCH_ID" logName="projects/PROJECT_ID/logs/dataproc.googleapis.com%2Fstartup" labels."dataproc.googleapis.com/resource_name"="VM_NAME_PREFIX-BATCH_UUID-VM_SUFFIX"
dataproc.googleapis.com/agent: Namespaceagentmenggabungkan log agen Managed Service untuk Apache Spark. Setiap entri log menyertakan label nama file yang mengidentifikasi sumber log.Contoh kueri Logs Explorer untuk log agen yang dihasilkan oleh worker VM tertentu:
resource.type="cloud_dataproc_batch" resource.labels.location="REGION" resource.labels.batch_id="BATCH_ID" logName="projects/PROJECT_ID/logs/dataproc.googleapis.com%2Fagent" labels."dataproc.googleapis.com/resource_name"="VM_NAME_PREFIX-BATCHUUID-wWORKER#"
dataproc.googleapis.com/autoscaler: Namespaceautoscalermenggabungkan log penskala otomatis Managed Service untuk Apache Spark.Contoh kueri Logs Explorer untuk log autoscaler yang dibuat oleh worker VM tertentu:
resource.type="cloud_dataproc_batch" resource.labels.location="REGION" resource.labels.batch_id="BATCH_ID" logName="projects/PROJECT_ID/logs/dataproc.googleapis.com%2Fautoscaler" labels."dataproc.googleapis.com/resource_name"="VM_NAME_PREFIX-BATCHUUID-wWORKER#"
Untuk mengetahui informasi selengkapnya, lihat Log Managed Service untuk Apache Spark.
Untuk mengetahui informasi tentang log audit Managed Service untuk Apache Spark, lihat Logging audit Managed Service untuk Apache Spark.
Metrik workload
Managed Service untuk Apache Spark menyediakan metrik batch dan Spark yang dapat Anda lihat dari Metrics Explorer atau halaman Detail batch di konsol Google Cloud .
Metrik batch
Metrik resource Managed Service untuk Apache Spark batch memberikan insight tentang resource batch, seperti jumlah eksekutor batch. Metrik batch diawali dengan
dataproc.googleapis.com/batch.

Metrik Spark
Secara default, Managed Service untuk Apache Spark mengaktifkan pengumpulan metrik Spark yang tersedia, kecuali jika Anda menggunakan properti pengumpulan metrik Spark untuk menonaktifkan atau mengganti pengumpulan satu atau beberapa metrik Spark.
Metrik Spark yang tersedia
mencakup metrik driver dan eksekutor Spark, serta metrik sistem. Metrik Spark yang tersedia diawali
dengan custom.googleapis.com/.

Menyiapkan pemberitahuan metrik
Anda dapat membuat pemberitahuan metrik Managed Service untuk Apache Spark untuk menerima pemberitahuan tentang masalah beban kerja.
Membuat diagram
Anda dapat membuat diagram yang memvisualisasikan metrik beban kerja menggunakan
Metrics Explorer di
konsolGoogle Cloud . Misalnya, Anda dapat
membuat diagram untuk menampilkan disk:bytes_used, lalu memfilter menurut batch_id.
Cloud Monitoring
Monitoring menggunakan metrik dan metadata workload untuk memberikan insight tentang kondisi dan performa workload Managed Service untuk Apache Spark. Metrik beban kerja mencakup metrik Spark, metrik batch, dan metrik operasi.
Anda dapat menggunakan Cloud Monitoring di konsol Google Cloud untuk menjelajahi metrik, menambahkan diagram, membuat dasbor, dan membuat pemberitahuan.
Membuat dasbor
Anda dapat membuat dasbor untuk memantau beban kerja menggunakan metrik dari beberapa project dan produk Google Cloud yang berbeda. Untuk mengetahui informasi selengkapnya, lihat Membuat dan mengelola dasbor kustom.
Persistent History Server
Managed Service untuk Apache Spark membuat resource komputasi yang diperlukan untuk menjalankan workload, menjalankan workload pada resource tersebut, lalu menghapus resource saat workload selesai. Metrik dan peristiwa beban kerja tidak dipertahankan setelah beban kerja selesai. Namun, Anda dapat menggunakan Persistent History Server (PHS) untuk menyimpan histori aplikasi workload (log peristiwa) di Cloud Storage.
Untuk menggunakan PHS dengan workload batch, lakukan langkah berikut:
Buat Managed Service untuk Apache Spark Persistent History Server (PHS).
Tentukan PHS Anda saat Anda mengirimkan workload.
Gunakan Component Gateway untuk terhubung ke PHS guna melihat detail aplikasi, tahap penjadwal, detail tingkat tugas, serta informasi lingkungan dan eksekutor.
Penyesuaian otomatis
- Mengaktifkan penyetelan otomatis untuk Managed Service untuk Apache Spark: Anda dapat mengaktifkan Penyetelan Otomatis untuk Managed Service untuk Apache Spark saat mengirimkan setiap workload batch Spark berulang menggunakan Google Cloud konsol, gcloud CLI, atau Managed Service untuk Apache Spark API.
Konsol
Lakukan langkah-langkah berikut untuk mengaktifkan penyetelan otomatis pada setiap beban kerja batch Spark berulang:
Di konsol Google Cloud , buka halaman Batches Managed Service untuk Apache Spark.
Untuk membuat workload batch, klik Buat.
Di bagian Container, isi nama Cohort, yang mengidentifikasi batch sebagai salah satu dari serangkaian workload berulang. Analisis yang dibantu Gemini diterapkan pada workload kedua dan berikutnya yang dikirimkan dengan nama kelompok ini. Misalnya, tentukan
TPCH-Query1sebagai nama kohor untuk workload terjadwal yang menjalankan kueri TPC-H harian.Isi bagian lain di halaman Buat batch sesuai kebutuhan, lalu klik Kirim. Untuk mengetahui informasi selengkapnya, lihat Mengirimkan workload batch.
gcloud
Jalankan perintah gcloud CLI
gcloud dataproc batches submit
berikut secara lokal di jendela terminal atau di Cloud Shell
untuk mengaktifkan penyetelan otomatis pada setiap beban kerja batch Spark berulang:
gcloud dataproc batches submit COMMAND \ --region=REGION \ --cohort=COHORT \ other arguments ...
Ganti kode berikut:
- COMMAND: jenis beban kerja Spark, seperti
Spark,PySpark,Spark-Sql, atauSpark-R. - REGION: region tempat workload Anda akan berjalan.
- COHORT: nama kohor, yang
mengidentifikasi batch sebagai salah satu dari serangkaian workload berulang.
Analisis yang dibantu Gemini diterapkan pada workload kedua dan berikutnya yang dikirimkan
dengan nama kohor ini. Misalnya, tentukan
TPCH Query 1sebagai nama kohor untuk workload terjadwal yang menjalankan kueri TPC-H harian.
API
Sertakan RuntimeConfig.cohort
nama dalam permintaan batches.create
untuk mengaktifkan penyetelan otomatis pada setiap workload batch Spark
berulang. Penyetelan otomatis diterapkan pada workload kedua dan berikutnya yang dikirimkan dengan nama kohor ini. Misalnya, tentukan TPCH-Query1 sebagai nama kohor untuk workload terjadwal yang menjalankan kueri TPC-H harian.
Contoh:
...
runtimeConfig:
cohort: TPCH-Query1
...