Saat Anda menggunakan Managed Service untuk Apache Spark guna membuat cluster dan menjalankan tugas di cluster, layanan ini akan menyiapkan peran dan izin Managed Service untuk Apache Spark yang diperlukan di project Anda untuk mengakses dan menggunakan resource yang dibutuhkan guna menyelesaikan tugas ini. Namun, jika Anda melakukan pekerjaan lintas project, misalnya untuk mengakses data di project lain, Anda harus menyiapkan peran dan izin yang diperlukan untuk mengakses resource lintas project. Google Cloud
Untuk membantu Anda melakukan pekerjaan lintas project dengan sukses, dokumen ini mencantumkan berbagai akun utama yang menggunakan Managed Service untuk Apache Spark dan peran yang berisi izin yang diperlukan agar akun utama tersebut dapat mengakses dan menggunakan resource Google Cloud .
Ada tiga prinsipal (identitas) yang mengakses dan menggunakan Managed Service untuk Apache Spark:
- Identitas Pengguna
- Identitas Bidang Kontrol
Identitas Bidang Data

Pengguna Dataproc API (Identitas pengguna)
Contoh: username@example.com
Pengguna ini adalah pengguna yang memanggil Managed Service untuk Apache Spark guna membuat cluster, mengirimkan tugas, dan membuat permintaan lain ke layanan. Pengguna biasanya adalah individu, tetapi juga dapat berupa akun layanan jika Managed Service untuk Apache Spark dipanggil melalui klien API atau dari Google Cloud layanan lain seperti Compute Engine, Cloud Run Functions, atau Managed Service untuk Apache Airflow.
Peran terkait
Catatan
- Tugas yang dikirimkan melalui Dataproc API dijalankan sebagai
rootdi Linux. Cluster Managed Service untuk Apache Spark mewarisi metadata SSH Compute Engine di seluruh project, kecuali jika diblokir secara eksplisit dengan menyetel
--metadata=block-project-ssh-keys=truesaat Anda membuat cluster (lihat Metadata cluster).Direktori pengguna HDFS dibuat untuk setiap pengguna SSH tingkat project. Direktori HDFS ini dibuat pada saat deployment cluster, dan pengguna SSH baru (setelah deployment) tidak diberi direktori HDFS di cluster yang ada.
Agen Layanan Managed Service untuk Apache Spark (Identitas Control Plane)
Contoh: service-project-number@dataproc-accounts.iam.gserviceaccount.com
Akun layanan Managed Service for Apache Spark Service Agent digunakan untuk melakukan serangkaian operasi sistem yang luas pada resource yang berada dalam project tempat cluster Managed Service untuk Apache Spark dibuat, termasuk:
- Pembuatan resource Compute Engine, termasuk instance VM, grup instance, dan template instance
- Operasi
getdanlistuntuk mengonfirmasi konfigurasi resource seperti image, firewall, tindakan inisialisasi Managed Service untuk Apache Spark, dan bucket Cloud Storage - Pembuatan otomatis bucket sementara dan staging Managed Service untuk Apache Spark jika bucket sementara atau staging tidak ditentukan oleh pengguna
- Menulis metadata konfigurasi cluster ke bucket penyiapan
- Mengakses jaringan VPC di project host
Peran terkait
Akun layanan VM Managed Service untuk Apache Spark (identitas Data Plane)
Contoh: project-number-compute@developer.gserviceaccount.com
Kode aplikasi Anda berjalan sebagai akun layanan VM di VM Managed Service untuk Apache Spark. Tugas pengguna diberi peran (dengan izin terkaitnya) akun layanan ini.
Akun layanan VM melakukan hal berikut:
- Berkomunikasi dengan bidang kontrol Managed Service untuk Apache Spark.
- Membaca dan menulis data dari dan ke bucket sementara dan staging Managed Service untuk Apache Spark.
- Sesuai kebutuhan tugas Managed Service untuk Apache Spark, membaca dan menulis data dari dan ke Cloud Storage, BigQuery, Cloud Logging, dan resource Google Cloud lainnya.
Peran terkait
Langkah berikutnya
- Pelajari lebih lanjut peran dan izin Managed Service untuk Apache Spark.
- Pelajari lebih lanjut akun layanan Managed Service untuk Apache Spark.
- Lihat Kontrol Akses BigQuery.
- Lihat Opsi Kontrol Akses Cloud Storage.