Properti penyedia Managed Service for Apache Spark

Penyedia Managed Service for Apache Spark di Cloud Data Fusion memanggil Dataproc API untuk membuat dan menghapus cluster di project Google Cloud Anda. Anda dapat mengonfigurasi cluster di setelan penyedia.

Untuk mengetahui informasi selengkapnya tentang kompatibilitas antara versi Cloud Data Fusion dan versi Managed Service for Apache Spark, lihat Kompatibilitas versi.

Properti

Properti	Deskripsi
Project ID	Google Cloud Project tempat cluster Managed Service for Apache Spark dibuat. Project harus mengaktifkan Dataproc API.
Kunci akun layanan kreator	Kunci akun layanan yang diberikan ke penyedia harus memiliki izin untuk mengakses Managed Service for Apache Spark dan Compute Engine API. Karena kunci akun Anda bersifat sensitif, sebaiknya berikan kunci akun menggunakan Secure Storage. Setelah membuat kunci aman, Anda dapat menambahkannya ke namespace atau profil komputasi sistem. Untuk profil komputasi namespace, klik perisai dan pilih kunci yang aman. Untuk profil komputasi sistem, masukkan nama kunci di kolom Secure Account Key.
Region	Lokasi geografis tempat Anda dapat menghosting resource, seperti node komputasi untuk cluster Managed Service for Apache Spark.
Zone	Area deployment yang terisolasi dalam suatu region.
Network	Jaringan VPC di Google Cloud project Anda yang akan digunakan saat membuat cluster Managed Service for Apache Spark.
ID project host jaringan	Jika jaringan berada di project Google Cloud lain, masukkan ID project tersebut. Untuk VPC Bersama, masukkan ID project host tempat jaringan berada.
Subnet	Subnet yang akan digunakan saat membuat cluster. Harus berada dalam jaringan yang diberikan dan di region tempat zona berada. Jika dibiarkan kosong, subnet akan dipilih berdasarkan jaringan dan zona.
Akun layanan runner	Nama akun layanan virtual machine (VM) Managed Service for Apache Spark yang digunakan untuk menjalankan program. Jika dibiarkan kosong, akun layanan Compute Engine default akan digunakan.
Jumlah master	Jumlah node master dalam cluster. Node ini berisi YARN Resource Manager, HDFS NameNode, dan semua driver. Harus ditetapkan ke 1 atau 3. Default adalah 1.
Jenis mesin master	Jenis mesin master yang akan digunakan. Pilih salah satu jenis mesin berikut: n1 n2 n2d e2 Di Cloud Data Fusion versi 6.7.2 dan yang lebih baru, defaultnya adalah e2. Pada versi 6.7.1, defaultnya adalah n2. Pada versi 6.7.0 dan yang lebih lama, defaultnya adalah n1.
Master core	Jumlah core virtual yang dialokasikan ke node master. Defaultnya adalah 2.
Memori master (GB)	Jumlah memori, dalam gigabyte, yang dialokasikan ke node master. Defaultnya adalah 8 GB.
Ukuran disk master (GB)	Ukuran disk, dalam gigabyte, yang dialokasikan ke node master. Defaultnya adalah 1000 GB.
Master disk type	Jenis boot disk untuk node master: Standard Persistent Disk Persistent Disk SSD Defaultnya adalah Persistent Disk Standar.
Jenis mesin pekerja	Jenis mesin pekerja yang akan digunakan. Pilih salah satu jenis mesin berikut: n1 n2 n2d e2 Di Cloud Data Fusion versi 6.7.2 dan yang lebih baru, defaultnya adalah e2. Pada versi 6.7.1, defaultnya adalah n2. Pada versi 6.7.0 dan yang lebih lama, defaultnya adalah n1.
Inti pekerja	Jumlah core virtual yang dialokasikan ke worker node. Defaultnya adalah 2.
Memori pekerja (GB)	Jumlah memori, dalam gigabyte, yang dialokasikan ke worker node. Defaultnya adalah 8 GB.
Ukuran disk pekerja (GB)	Ukuran disk, dalam gigabyte, yang dialokasikan ke worker node. Defaultnya adalah 1000 GB.
Jenis disk pekerja	Jenis boot disk untuk worker node: Standard Persistent Disk Persistent Disk SSD Defaultnya adalah Persistent Disk Standar.
Menggunakan Penskalaan Otomatis yang telah ditentukan sebelumnya	Memungkinkan penggunaan penskalaan otomatis Managed Service for Apache Spark yang telah ditentukan sebelumnya.
Jumlah pekerja utama	Node pekerja berisi YARN NodeManager dan HDFS DataNode. Defaultnya adalah 2.
Jumlah worker sekunder	Node worker sekunder berisi YARN NodeManager, tetapi bukan HDFS DataNode. Nilai ini biasanya ditetapkan ke nol, kecuali jika kebijakan penskalaan otomatis memerlukan nilai yang lebih tinggi.
Kebijakan penskalaan otomatis	Jalur untuk ID kebijakan penskalaan otomatis atau URI resource. Untuk mengetahui informasi tentang cara mengonfigurasi dan menggunakan penskalaan otomatis Managed Service for Apache Spark guna mengubah ukuran cluster secara otomatis dan dinamis untuk memenuhi permintaan workload, lihat Kapan harus menggunakan penskalaan otomatis dan Menskalakan otomatis cluster Managed Service for Apache Spark.
Metadata	Metadata tambahan untuk instance yang berjalan di cluster Anda. Anda biasanya dapat menggunakannya untuk melacak penagihan dan pengembalian dana. Untuk mengetahui informasi selengkapnya, lihat Metadata cluster.
Network tags	Tetapkan Tag jaringan untuk menerapkan aturan firewall ke node tertentu cluster. Tag jaringan harus dimulai dengan huruf kecil dan dapat berisi huruf kecil, angka, dan tanda hubung. Tag harus diakhiri dengan huruf kecil atau angka.
Mengaktifkan Booting Aman	Mengaktifkan Booting Aman di VM Managed Service for Apache Spark. Defaultnya adalah False.
Aktifkan vTPM	Mengaktifkan virtual Trusted Platform Module (vTPM) di VM Managed Service for Apache Spark. Defaultnya adalah False.
Aktifkan Pemantauan Integritas	Mengaktifkan Pemantauan Integritas virtual di VM Managed Service for Apache Spark. Defaultnya adalah False.
Versi gambar	Versi image Managed Service for Apache Spark. Jika dibiarkan kosong, salah satu akan dipilih secara otomatis. Jika properti URI gambar kustom dikosongkan, properti ini akan diabaikan.
URI gambar kustom	URI image Managed Service for Apache Spark. Jika dibiarkan kosong, nilai akan disimpulkan dari properti Versi gambar.
Bucket penyiapan	Bucket Cloud Storage yang digunakan untuk melakukan staging dependensi tugas dan file konfigurasi untuk menjalankan pipeline di Managed Service for Apache Spark.
Bucket sementara	Bucket Cloud Storage yang digunakan untuk menyimpan data cluster dan tugas efemeral, seperti file histori Spark di Managed Service for Apache Spark. Properti ini diperkenalkan di Cloud Data Fusion versi 6.9.2.
Nama kunci enkripsi	Kunci enkripsi yang dikelola pelanggan (CMEK) yang digunakan oleh Managed Service for Apache Spark.
Cakupan OAuth	Cakupan OAuth 2.0 yang mungkin perlu Anda minta untuk mengakses Google API, bergantung pada tingkat akses yang Anda butuhkan. Google Cloud Cakupan Platform selalu disertakan. Properti ini diperkenalkan di Cloud Data Fusion versi 6.9.2.
Tindakan inisialisasi	Daftar skrip yang akan dijalankan selama melakukan inisialisasi kluster. Tindakan inisialisasi harus ditempatkan di Cloud Storage.
Properti cluster	Properti cluster yang menggantikan properti konfigurasi default layanan Hadoop. Untuk mengetahui informasi selengkapnya tentang pasangan nilai kunci yang berlaku, lihat Properti cluster.
Label umum	Label untuk mengatur cluster dan tugas Managed Service for Apache Spark yang sedang dibuat. Anda dapat memberi label pada setiap resource, lalu memfilter resource menurut label. Informasi tentang label diteruskan ke sistem penagihan, sehingga pelanggan dapat mengelompokkan biaya penagihan berdasarkan label.
Waktu tidak ada aktivitas maksimum	Konfigurasi Managed Service for Apache Spark untuk menghapus cluster jika tidak ada aktivitas selama lebih dari jumlah menit yang ditentukan. Cluster biasanya dihapus tepat setelah proses berakhir, tetapi penghapusan dapat gagal dalam situasi yang jarang terjadi. Untuk informasi selengkapnya, lihat Memecahkan masalah penghapusan cluster. Defaultnya adalah 30 menit.
Lewati penghapusan cluster	Apakah akan melewati penghapusan cluster di akhir proses. Anda harus menghapus cluster secara manual. Ini hanya boleh digunakan saat men-debug eksekusi yang gagal. Defaultnya adalah False.
Mengaktifkan Integrasi Stackdriver Logging	Aktifkan integrasi Stackdriver Logging. Defaultnya adalah True.
Mengaktifkan Integrasi Stackdriver Monitoring	Aktifkan integrasi pemantauan Stackdriver. Defaultnya adalah True.
Mengaktifkan Gateway Komponen	Aktifkan gateway komponen untuk mengakses antarmuka cluster, seperti YARN ResourceManager dan Spark HistoryServer. Defaultnya adalah False.
Lebih memilih IP eksternal	Jika sistem berjalan di Google Cloud dalam jaringan yang sama dengan cluster, sistem biasanya menggunakan alamat IP internal saat berkomunikasi dengan cluster. Untuk selalu menggunakan alamat IP eksternal, tetapkan nilai ini ke True. Defaultnya adalah False.
Membuat penundaan polling	Jumlah detik untuk menunggu setelah membuat cluster untuk mulai melakukan polling guna melihat apakah cluster telah dibuat. Defaultnya adalah 60 detik. Setelan polling mengontrol frekuensi status cluster di-polling saat membuat dan menghapus cluster. Jika Anda memiliki banyak pipeline yang dijadwalkan untuk dijalankan secara bersamaan, Anda dapat mengubah setelan ini.
Buat jitter polling	Jumlah maksimum jitter acak, dalam detik, yang akan ditambahkan ke penundaan saat membuat cluster. Anda dapat menggunakan properti ini untuk mencegah banyak panggilan API serentak di Google Cloud saat Anda memiliki banyak pipeline yang dijadwalkan untuk berjalan pada waktu yang sama persis. Defaultnya adalah 20 detik.
Penundaan penghapusan polling	Jumlah detik untuk menunggu setelah menghapus cluster untuk memulai polling guna melihat apakah cluster telah dihapus. Defaultnya adalah 30 detik.
Interval polling	Jumlah detik untuk menunggu di antara polling status cluster. Defaultnya adalah 2.

Properti antarmuka web profil Managed Service untuk Apache Spark dipetakan ke properti JSON

Nama properti UI profil Managed Service for Apache Spark	Nama properti JSON profil Managed Service untuk Apache Spark
Label profil	`name`
Nama profil	`label`
Deskripsi	`description`
Project ID	`projectId`
Kunci akun layanan kreator	`accountKey`
Region	`region`
Zone	`zone`
Network	`network`
ID project host jaringan	`networkHostProjectId`
Subnet	`subnet`
Akun layanan runner	`serviceAccount`
Jumlah master	`masterNumNodes`
Jenis mesin master	`masterMachineType`
Master core	`masterCPUs`
Memori master (GB)	`masterMemoryMB`
Ukuran disk master (GB)	`masterDiskGB`
Master disk type	`masterDiskType`
Jumlah pekerja utama	`workerNumNodes`
Jumlah worker sekunder	`secondaryWorkerNumNodes`
Jenis mesin pekerja	`workerMachineType`
Inti pekerja	`workerCPUs`
Memori pekerja (GB)	`workerMemoryMB`
Ukuran disk pekerja (GB)	`workerDiskGB`
Jenis disk pekerja	`workerDiskType`
Metadata	`clusterMetaData`
Network tags	`networkTags`
Mengaktifkan Booting Aman	`secureBootEnabled`
Aktifkan vTPM	`vTpmEnabled`
Aktifkan Pemantauan Integritas	`integrityMonitoringEnabled`
Versi gambar	`imageVersion`
URI gambar kustom	`customImageUri`
Bucket Cloud Storage	`gcsBucket`
Nama kunci enkripsi	`encryptionKeyName`
Kebijakan penskalaan otomatis	`autoScalingPolicy`
Tindakan inisialisasi	`initActions`
Properti cluster	`clusterProperties`
Label	`clusterLabels`
Waktu tidak ada aktivitas maksimum	`idleTTL`
Lewati penghapusan cluster	`skipDelete`
Mengaktifkan Integrasi Stackdriver Logging	`stackdriverLoggingEnabled`
Mengaktifkan Integrasi Stackdriver Monitoring	`stackdriverMonitoringEnabled`
Mengaktifkan Gateway Komponen	`componentGatewayEnabled`
Lebih memilih IP eksternal	`preferExternalIP`
Membuat penundaan polling	`pollCreateDelay`
Buat jitter polling	`pollCreateJitter`
Penundaan penghapusan polling	`pollDeleteDelay`
Interval polling	`pollInterval`

Praktik Terbaik

Saat membuat cluster statis untuk pipeline, lihat praktik terbaik konfigurasi cluster.

Langkah berikutnya

Pelajari lebih lanjut cara mengelola profil komputasi.

Properti penyedia Managed Service for Apache Spark Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Properti

Properti antarmuka web profil Managed Service untuk Apache Spark dipetakan ke properti JSON

Praktik Terbaik

Langkah berikutnya

Properti penyedia Managed Service for Apache Spark