"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Output dan log tugas

Saat Anda mengirimkan tugas Managed Service untuk Apache Spark, Managed Service untuk Apache Spark akan otomatis mengumpulkan output tugas dan membuatnya dapat diakses. Artinya, Anda dapat meninjau output tugas dengan cepat tanpa harus mempertahankan koneksi ke cluster saat tugas Anda berjalan atau menelusuri file log yang rumit.

Log Spark

Ada dua jenis log Spark: log driver Spark dan log eksekutor Spark. Log driver Spark berisi output dari tugas, sedangkan log eksekutor Spark berisi output dari proses eksekusi atau peluncuran tugas, seperti pesan "Submitted application ... " spark-submit. Log ini sangat berguna untuk melakukan proses debug pada kegagalan tugas.

Driver tugas Managed Service untuk Apache Spark, yang berbeda dari driver Spark, adalah peluncur untuk berbagai jenis tugas. Saat meluncurkan tugas Spark, Dataproc bekerja sebagai wrapper pada file spark-submit yang dapat dieksekusi, yang kemudian meluncurkan driver Spark. Driver Spark menjalankan tugas di cluster Managed Service untuk Apache Spark dalam mode Spark client atau cluster mode:

Mode client: driver Spark menjalankan tugas dalam proses spark-submit, dan log Spark dikirim ke driver tugas Managed Service untuk Apache Spark.
Mode cluster: driver Spark menjalankan tugas dalam container YARN. Log driver Spark tidak tersedia untuk driver tugas Managed Service untuk Apache Spark.

Ringkasan properti tugas Managed Service untuk Apache Spark dan Spark

Properti	Nilai	Default	Deskripsi
`dataproc:dataproc.logging.stackdriver.job.driver.enable`	true atau false	false	Harus ditetapkan pada saat pembuatan cluster. Jika `true`, output driver tugas akan ada di Logging, terhubung dengan resource tugas; Jika `false`, output driver tugas tidak akan ada di Logging. Catatan: Setelan properti cluster berikut juga diperlukan untuk mengaktifkan log driver tugas di Logging, dan ditetapkan secara default saat cluster dibuat: `dataproc:dataproc.logging.stackdriver.enable=true` dan `dataproc:jobs.file-backed-output.enable=true`
`dataproc:dataproc.logging.stackdriver.job.yarn.container.enable`	true atau false	false	Harus ditetapkan pada saat pembuatan cluster. Jika `true`, log container YARN tugas akan dikaitkan dengan resource tugas; jika `false`, log container YARN tugas akan dikaitkan dengan resource cluster.
`spark:spark.submit.deployMode`	client atau cluster	client	Mengontrol mode Spark `client` atau `cluster`.

Tugas Spark yang dikirimkan menggunakan Managed Service untuk Apache Spark `jobs` API

Tabel di bagian ini mencantumkan pengaruh berbagai setelan properti pada tujuan output driver tugas Managed Service untuk Apache Spark saat tugas dikirimkan melalui Managed Service untuk Apache Spark jobs API, yang mencakup pengiriman tugas melalui Google Cloud konsol, gcloud CLI, dan Library Klien Cloud.

Properti Managed Service untuk Apache Spark dan Spark yang tercantum dapat ditetapkan dengan flag --properties saat cluster dibuat, dan akan berlaku untuk semua tugas Spark yang dijalankan di cluster. Properti Spark juga dapat ditetapkan dengan flag --properties (tanpa awalan "spark:") saat tugas dikirimkan ke Managed Service untuk Apache Spark jobs API, dan hanya akan berlaku untuk tugas tersebut.

Output driver tugas Managed Service untuk Apache Spark

Tabel berikut mencantumkan pengaruh berbagai setelan properti pada tujuan output driver tugas Managed Service untuk Apache Spark.

`dataproc: dataproc.logging.stackdriver.job.driver.enable`	Output
false (default)	Di-streaming ke klien Di Cloud Storage di Managed Service untuk Apache Spark-generated `driverOutputResourceUri` Tidak berada di Logging
true	Di-streaming ke klien Di Cloud Storage di Managed Service untuk Apache Spark-generated `driverOutputResourceUri` Di Logging: `dataproc.job.driver` di bagian resource tugas.

Log driver Spark

Tabel berikut mencantumkan pengaruh berbagai setelan properti pada tujuan log driver Spark.

`spark: spark.submit.deployMode`	`dataproc: dataproc.logging.stackdriver.job.driver.enable`	`dataproc: dataproc.logging.stackdriver.job.yarn.container.enable`	Output Driver
client	false (default)	true atau false	Di-streaming ke klien Di Cloud Storage di Managed Service untuk Apache Spark-generated `driverOutputResourceUri` Tidak berada di Logging
client	true	true atau false	Di-streaming ke klien Di Cloud Storage di Managed Service untuk Apache Spark-generated `driverOutputResourceUri` Di Logging: `dataproc.job.driver` di bagian resource tugas
cluster	false (default)	false	Tidak di-streaming ke klien Tidak berada di Cloud Storage Di Logging `yarn-userlogs` di bagian resource cluster
cluster	true	true	Tidak di-streaming ke klien Tidak berada di Cloud Storage Di Logging: `dataproc.job.yarn.container` di bagian resource tugas

Log eksekutor Spark

Tabel berikut mencantumkan pengaruh berbagai setelan properti pada tujuan log eksekutor Spark.

`dataproc: dataproc.logging.stackdriver.job.yarn.container.enable`	Log eksekutor
false (default)	Di Logging: `yarn-userlogs` di bagian resource cluster
true	Di Logging `dataproc.job.yarn.container` di bagian resource tugas

Tugas Spark yang dikirimkan tanpa menggunakan Managed Service untuk Apache Spark `jobs` API

Bagian ini mencantumkan pengaruh berbagai setelan properti pada tujuan log tugas Spark saat tugas dikirimkan tanpa menggunakan Managed Service untuk Apache Spark jobs API, misalnya saat mengirimkan tugas langsung di node cluster menggunakan spark-submit atau saat menggunakan notebook Jupyter atau Zeppelin. Tugas ini tidak memiliki ID tugas atau driver Managed Service untuk Apache Spark.

Log driver Spark

Tabel berikut mencantumkan pengaruh berbagai setelan properti pada tujuan log driver Spark untuk tugas yang tidak dikirimkan melalui Managed Service untuk Apache Spark jobs API.

`spark: spark.submit.deployMode`	Output Driver
client	Di-streaming ke klien Tidak berada di Cloud Storage Tidak berada di Logging
cluster	Tidak di-streaming ke klien Tidak berada di Cloud Storage Di Logging `yarn-userlogs` di bagian resource cluster

Log eksekutor Spark

Jika tugas Spark tidak dikirimkan melalui Managed Service untuk Apache Spark jobs API, log eksekutor akan berada di Logging yarn-userlogs di bagian resource cluster.

Melihat output tugas

Anda dapat mengakses output tugas Managed Service untuk Apache Spark di Google Cloud konsol, gcloud CLI, Cloud Storage, atau Logging.

Konsol

Untuk melihat output tugas, buka bagian Jobs Managed Service untuk Apache Spark project Anda, lalu klik ID pekerjaan untuk melihat output tugas.

Jika tugas sedang berjalan, output tugas akan diperbarui secara berkala dengan konten baru.

perintah gcloud

Saat Anda mengirimkan tugas dengan perintah gcloud dataproc jobs submit, output tugas akan ditampilkan di konsol. Anda dapat "bergabung kembali" dengan output tersebut di lain waktu, dari komputer yang berbeda, atau di jendela baru dengan meneruskan ID tugas ke perintah gcloud dataproc jobs wait. ID Tugas adalah GUID, seperti 5c1754a5-34f7-4553-b667-8a1199cb9cab. Berikut contohnya.

gcloud dataproc jobs wait 5c1754a5-34f7-4553-b667-8a1199cb9cab \
    --project my-project-id --region my-cluster-region

Waiting for job output...
... INFO gcs.GoogleHadoopFileSystemBase: GHFS version: 1.4.2-hadoop2
... 16:47:45 INFO client.RMProxy: Connecting to ResourceManager at my-test-cluster-m/
...

Cloud Storage

Output tugas disimpan di Cloud Storage di bucket staging atau bucket yang Anda tentukan saat membuat cluster. Link ke output tugas di Cloud Storage tersedia di kolom Job.driverOutputResourceUri yang ditampilkan oleh:

permintaan API jobs.get.

perintah gcloud dataproc jobs describe job-id.

$ gcloud dataproc jobs describe spark-pi
...
driverOutputResourceUri: gs://dataproc-nnn/jobs/spark-pi/driveroutput
...

Logging

Lihat Log Managed Service untuk Apache Spark untuk mengetahui informasi tentang cara melihat output tugas Managed Service untuk Apache Spark di Logging.

Output dan log tugas Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Log Spark

Ringkasan properti tugas Managed Service untuk Apache Spark dan Spark

Tugas Spark yang dikirimkan menggunakan Managed Service untuk Apache Spark jobs API

Output driver tugas Managed Service untuk Apache Spark

Log driver Spark

Log eksekutor Spark

Tugas Spark yang dikirimkan tanpa menggunakan Managed Service untuk Apache Spark jobs API

Log driver Spark

Log eksekutor Spark

Melihat output tugas

Konsol

perintah gcloud

Cloud Storage

Logging

Output dan log tugas

Tugas Spark yang dikirimkan menggunakan Managed Service untuk Apache Spark `jobs` API

Tugas Spark yang dikirimkan tanpa menggunakan Managed Service untuk Apache Spark `jobs` API