Saat Anda membuat cluster, HDFS akan digunakan sebagai sistem file default. Anda dapat mengganti perilaku ini dengan menetapkan defaultFS sebagai bucket Cloud Storage bucket. Secara default, Managed Service untuk Apache Spark juga membuat bucket staging Cloud Storage dan bucket sementara Cloud Storage di project Anda atau menggunakan kembali bucket staging dan bucket sementara yang dibuat oleh Managed Service untuk Apache Spark dari permintaan pembuatan cluster sebelumnya.
Bucket staging: Digunakan untuk melakukan staging dependensi tugas cluster, output driver tugas, dan file konfigurasi cluster. Juga menerima output dari pengumpulan data diagnostik Snapshot.
Bucket sementara: Digunakan untuk menyimpan data cluster dan tugas sementara, seperti file histori Spark dan MapReduce. Juga menyimpan data diagnostik checkpoint yang dikumpulkan selama siklus proses cluster.
Jika Anda tidak menentukan bucket staging atau bucket sementara saat membuat cluster, Managed Service untuk Apache Spark akan menetapkan lokasi Cloud Storage di AS, ASIA, atau Uni Eropa untuk bucket staging dan bucket sementara cluster Anda sesuai dengan zona Compute Engine tempat cluster Anda di-deploy, lalu membuat dan mengelola bucket tingkat project per lokasi ini. Bucket staging dan bucket sementara yang dibuat oleh Managed Service untuk Apache Spark digunakan bersama oleh berbagai cluster di region yang sama, dan dibuat dengan durasi retensi penghapusan sementara Cloud Storage yang ditetapkan ke 0 detik. Jika Anda menentukan bucket staging dan bucket sementara sendiri, pertimbangkan untuk menyesuaikan retensi penghapusan sementara guna mengurangi biaya penyimpanan yang ditagih oleh objek yang dihapus sementara.
Bucket sementara berisi data sementara, dan memiliki TTL 90 hari. Bucket staging, yang dapat berisi data konfigurasi dan file dependensi yang diperlukan oleh beberapa cluster, tidak memiliki TTL. Namun, Anda dapat menerapkan aturan siklus proses ke file dependensi (file dengan ekstensi nama file ".jar" yang terletak di folder bucket staging) untuk menjadwalkan penghapusan file dependensi saat tidak lagi diperlukan oleh cluster Anda.
Membuat bucket staging dan bucket sementara Anda sendiri
Daripada mengandalkan pembuatan bucket staging dan bucket sementara default, Anda dapat menentukan bucket Cloud Storage yang ada yang akan digunakan oleh Managed Service untuk Apache Spark sebagai bucket staging dan bucket sementara cluster Anda.
Perintah gcloud
Jalankan perintah gcloud dataproc clusters create dengan flag --bucket dan/atau --temp-bucket secara lokal di jendela terminal atau di Cloud Shell untuk menentukan bucket staging dan/atau bucket sementara cluster Anda.
gcloud dataproc clusters create cluster-name \ --region=region \ --bucket=bucket-name \ --temp-bucket=bucket-name \ other args ...
REST API
Gunakan ClusterConfig.configBucket dan
ClusterConfig.tempBucket
kolom
dalam permintaan clusters.create
untuk menentukan bucket staging dan bucket sementara cluster Anda.
Konsol
Di Google Cloud konsol, buka halaman Managed Service untuk Apache Spark Create a cluster. Pilih panel Customize cluster, lalu gunakan kolom File storage untuk menentukan atau memilih bucket staging cluster.
Catatan: Saat ini, penentuan bucket sementara menggunakan konsol tidak didukung. Google Cloud
Managed Service untuk Apache Spark menggunakan struktur folder yang ditentukan untuk bucket Cloud Storage yang terlampir ke cluster. Managed Service untuk Apache Spark juga mendukung pelampiran lebih dari satu cluster ke bucket Cloud Storage. Struktur folder yang digunakan untuk menyimpan output driver tugas di Cloud Storage adalah:
cloud-storage-bucket-name
- google-cloud-dataproc-metainfo
- list of cluster IDs
- list of job IDs
- list of output logs for a job
Anda dapat menggunakan alat command line gcloud, Managed Service untuk Apache Spark API, atau
Google Cloud konsol untuk mencantumkan nama bucket staging dan bucket sementara cluster.
Konsol
- \Lihat detail cluster, yang mencakupnama bucket staging cluster, di halaman Managed Service untuk Apache Spark Clusters di Google Cloud konsol.
- Di halaman Google Cloud konsol Browser Cloud Storage, filter hasil yang berisi "dataproc-temp-".
Perintah gcloud
Jalankan perintah
gcloud dataproc clusters describe
secara lokal di jendela terminal atau di
Cloud Shell.
Bucket staging dan bucket sementara yang terkait dengan cluster Anda akan tercantum dalam output.
gcloud dataproc clusters describe cluster-name \
--region=region \
...
clusterName: cluster-name
clusterUuid: daa40b3f-5ff5-4e89-9bf1-bcbfec ...
config:
configBucket: dataproc-...
...
tempBucket: dataproc-temp...
REST API
Panggil clusters.get untuk mencantumkan detail cluster, termasuk nama bucket staging dan bucket sementara cluster.
{
"projectId": "vigilant-sunup-163401",
"clusterName": "cluster-name",
"config": {
"configBucket": "dataproc-...",
...
"tempBucket": "dataproc-temp-...",
}
defaultFS
Anda dapat menetapkan core:fs.defaultFS ke lokasi bucket di Cloud Storage (gs://defaultFS-bucket-name) untuk menetapkan Cloud Storage sebagai sistem file default. Tindakan ini juga menetapkan core:fs.gs.reported.permissions, izin yang dilaporkan yang ditampilkan oleh konektor Cloud Storage untuk semua file, ke 777.
Jika Cloud Storage tidak ditetapkan sebagai sistem file default, HDFS akan digunakan, dan properti core:fs.gs.reported.permissions akan menampilkan 700, nilai default.
gcloud dataproc clusters create cluster-name \ --properties=core:fs.defaultFS=gs://defaultFS-bucket-name \ --region=region \ --bucket=staging-bucket-name \ --temp-bucket=temp-bucket-name \ other args ...