FAQ deployment serverless Managed Service for Apache Spark

Halaman ini berisi pertanyaan umum (FAQ) tentang deployment serverless Managed Service for Apache Spark beserta jawabannya. Kecuali dinyatakan lain, informasi ini hanya berlaku untuk Managed Service for Apache Spark serverless, bukan cluster, deployment.

Kapan saya harus menggunakan deployment serverless Managed Service for Apache Spark, bukan deployment cluster Managed Service for Apache Spark?

  • Deployment tanpa server Managed Service for Apache Spark:

    • Mendukung workload batch Spark dan sesi interaktif di notebook Jupyter kernel PySpark.
    • Membuat dan mengelola infrastruktur workload dan sesi interaktif Anda.
  • Deployment cluster Managed Service for Apache Spark:

    • Mendukung pengiriman berbagai jenis tugas Spark, dan tugas berdasarkan komponen open source lainnya, seperti Flink, Hadoop, Hive, Pig, Presto, dan lainnya.

    • Tidak membuat dan mengelola infrastruktur. Anda membuat dan mengelola cluster Managed Service for Apache Spark.

Apa yang dapat saya lakukan dengan deployment serverless Managed Service for Apache Spark?

Bagaimana cara menyiapkan rencana eksekusi workload?

Anda dapat menjalankan workload secara bersamaan atau berurutan. Rencana eksekusi Anda memengaruhi Google Cloud kuota resource Anda. Anda dapat menjalankan beban kerja secara paralel sebanyak yang diizinkan oleh kuota resource batch.

Dapatkah saya menggunakan image kustom dengan deployment tanpa server Managed Service for Apache Spark?

Dapatkah saya menentukan resource memori dan disk untuk workload Spark Managed Service for Apache Spark?

Ya. Anda dapat menentukan tingkat komputasi dan disk driver serta eksekutor premium dan jumlah resource komputasi dan disk driver serta eksekutor yang akan dialokasikan saat Anda mengirimkan workload (lihat Properti alokasi resource).

Bagaimana cara menentukan rentang alamat IP untuk jaringan VPC Managed Service for Apache Spark?

Workload Managed Service for Apache Spark berjalan dalam lingkungan Anda. Setiap driver Spark dan eksekutor Spark dalam workload Serverless Spark menggunakan satu alamat IP internal di jaringan VPC Managed Service for Apache Spark. /16 adalah rentang alamat CIDR yang ditentukan pengguna untuk jaringan VPC Managed Service for Apache Spark. Anda dapat membatasi rentang alamat IP jaringan berdasarkan jumlah beban kerja serentak yang ingin Anda jalankan.

Apakah Managed Service untuk Apache Spark mendukung residensi data?

Ya. Anda menentukan region tempat workload Anda diproses. Temukan set data input dan output Anda di region yang ditentukan.

Bagaimana cara Managed Service for Apache Spark memilih zona dalam region yang Anda tentukan untuk menjalankan beban kerja?

Managed Service for Apache Spark memilih zona Compute Engine tempat ia menjalankan workload berdasarkan kapasitas dan ketersediaan. Jika zona tidak tersedia setelah workload dimulai, workload akan gagal, dan Anda harus mengirimkan kembali workload yang gagal.

Bagaimana cara kerja workload Managed Service for Apache Spark menggunakan resource komputasi?

Setiap workload dijalankan di resource komputasinya sendiri. Beberapa pengiriman batch tidak berbagi atau menggunakan kembali resource komputasi.

Praktik Terbaik:

  • Optimalkan workload Anda untuk tugas yang berjalan sedang, bukan tugas yang berjalan singkat.

  • Mempertahankan data yang diakses oleh beberapa beban kerja di Cloud Storage.

Di mana saya dapat menemukan informasi tentang pengumuman, fitur, perbaikan bug, masalah umum, dan penghentian penggunaan Managed Service untuk Apache Spark?

Lihat catatan rilis Managed Service for Apache Spark.

Apakah workload serentak bersaing untuk mendapatkan resource?

Workload Managed Service for Apache Spark hanya bersaing untuk mendapatkan resource jika kuota resource Anda tidak cukup untuk menjalankan semua workload yang berjalan secara bersamaan. Jika tidak, workload akan sepenuhnya terisolasi satu sama lain.

Bagaimana kuota Managed Service for Apache Spark dialokasikan?

Batch Managed Service untuk Apache Spark menggunakan Google Cloud resource. Lihat Kuota Dataproc Serverless untuk mengetahui informasi selengkapnya.

Apakah saya perlu menyiapkan Managed Service for Apache Spark Persistent History Server?

Penyiapan Persistent History Server (PHS) untuk digunakan dengan Managed Service for Apache Spark bersifat opsional.Anda dapat menggunakan PHS untuk melihat peristiwa Spark dan log lainnya di bucket Cloud Storage tertentu hingga dan setelah periode retensi (TTL) 90 hari bucket sementara dan staging Managed Service for Apache Spark standar.

Log Spark Managed Service for Apache Spark apa yang tersedia?

Log driver dan eksekutor Spark tersedia di Cloud Logging selama dan setelah eksekusi beban kerja Spark. Selain itu, aplikasi Spark dapat dilihat di antarmuka web Persistent History Server (PHS) saat workload berjalan (pilih PHS > Incomplete Applications di UI PHS).

Jika Anda menyiapkan PHS Managed Service for Apache Spark, PHS tersebut akan memberikan akses persisten ke log peristiwa Spark yang disimpan di Cloud Storage, yang memberikan insight tentang eksekusi aplikasi Spark, seperti peristiwa DAG dan eksekutor.

Dapatkah saya menetapkan jumlah pengeksekusi untuk beban kerja Spark?

Ya. Anda dapat menetapkan jumlah eksekutor untuk beban kerja Spark menggunakan properti spark.executor.instances. Namun, jumlah total core yang dapat digunakan workload lebih penting daripada jumlah eksekutor karena Spark menjalankan 1 tugas per core. Misalnya, jika workload memiliki empat eksekutor dengan dua core masing-masing, workload tersebut akan menjalankan 4 * 2 = 8 tugas secara bersamaan. Selain itu, workload tersebut juga akan menjalankan jumlah tugas yang sama untuk workload yang memiliki dua eksekutor dengan masing-masing empat core. Karena jumlah core untuk setiap workload sama, jumlah tugas yang dijalankan juga akan sama. Anda dapat menggunakan properti spark.executor.cores untuk menetapkan jumlah core per eksekutor untuk workload Managed Service for Apache Spark.

Metrik Spark apa yang digunakan Managed Service for Apache Spark untuk penskalaan otomatis?

Managed Service for Apache Spark melihat metrik alokasi dinamis Spark maximum-needed dan running untuk menentukan apakah akan meningkatkan atau menurunkan skala. Lihat Penskalaan otomatis Managed Service for Apache Spark.

Dapatkah saya mengonfigurasi perilaku penskalaan otomatis Managed Service for Apache Spark menggunakan properti Spark?

Ya. Penskalaan otomatis Managed Service untuk Apache Spark didasarkan pada alokasi dinamis Spark, dan diaktifkan secara default. Anda dapat menyesuaikan properti Spark dan properti alokasi dinamis Spark berikut:

  • spark.executor.instances
  • spark.dynamicAllocation.initialExecutors
  • spark.dynamicAllocation.minExecutors
  • spark.dynamicAllocation.maxExecutors

Mengapa saya perlu mengemas kode dalam file JAR untuk mengirimkan beban kerja Spark?

Spark ditulis dalam Scala, yang berarti bahwa proses driver dan worker beroperasi sebagai proses JVM. Dalam bahasa JVM, file JAR adalah cara utama untuk memaketkan kode. Anda meneruskan file JAR ke Managed Service for Apache Spark saat Anda mengirimkan workload.