Bucket sementara dan penyiapan Managed Service for Apache Spark

Saat Anda membuat cluster, HDFS digunakan sebagai sistem file default. Anda dapat mengganti perilaku ini dengan menetapkan defaultFS sebagai bucket Cloud Storage. Secara default, Managed Service for Apache Spark juga membuat bucket sementara dan penyiapan Cloud Storage di project Anda atau menggunakan kembali bucket sementara dan penyiapan yang dibuat Managed Service for Apache Spark dari permintaan pembuatan cluster sebelumnya.

Jika Anda tidak menentukan bucket sementara atau penyiapan saat membuat cluster, Managed Service for Apache Spark akan menetapkan lokasi Cloud Storage di AS, ASIA, atau Uni Eropa untuk bucket sementara dan penyiapan cluster Anda sesuai dengan zona Compute Engine tempat cluster Anda di-deploy, lalu membuat dan mengelola bucket tingkat project per lokasi ini. Bucket sementara dan staging yang dibuat oleh Managed Service for Apache Spark digunakan bersama oleh cluster di region yang sama, dan dibuat dengan durasi retensi penghapusan sementara Cloud Storage yang ditetapkan ke 0 detik. Jika Anda menentukan bucket sementara dan penyiapan sendiri, pertimbangkan untuk menyesuaikan retensi penghapusan sementara guna mengurangi biaya penyimpanan yang ditanggung oleh objek yang dihapus sementara.

Bucket sementara berisi data sementara, dan memiliki TTL 90 hari. Bucket penyiapan, yang dapat berisi data konfigurasi dan file dependensi yang diperlukan oleh beberapa cluster, tidak memiliki TTL. Namun, Anda dapat menerapkan aturan siklus proses ke file dependensi Anda (file dengan ekstensi nama file ".jar" yang berada di folder bucket penyiapan) untuk menjadwalkan penghapusan file dependensi Anda saat file tersebut tidak lagi diperlukan oleh cluster Anda.

Membuat bucket staging dan sementara Anda sendiri

Daripada mengandalkan pembuatan bucket sementara dan staging default, Anda dapat menentukan bucket Cloud Storage yang sudah ada yang akan digunakan Managed Service for Apache Spark sebagai bucket sementara dan staging cluster Anda.

Perintah gcloud

Jalankan perintah gcloud dataproc clusters create dengan flag --bucket dan/atau --temp-bucket secara lokal di jendela terminal atau di Cloud Shell untuk menentukan bucket penyiapan dan/atau sementara cluster Anda.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --bucket=bucket-name \
    --temp-bucket=bucket-name \
    other args ...

REST API

Gunakan kolom ClusterConfig.configBucket dan ClusterConfig.tempBucket dalam permintaan clusters.create untuk menentukan bucket sementara dan penyiapan cluster Anda.

Konsol

Di konsol Google Cloud , buka halaman Managed Service for Apache Spark Create a cluster. Pilih panel Sesuaikan cluster, lalu gunakan kolom Penyimpanan file untuk menentukan atau memilih bucket penyiapan cluster.

Catatan: Saat ini, penentuan bucket sementara menggunakan Google Cloud konsol tidak didukung.

Managed Service untuk Apache Spark menggunakan struktur folder yang ditentukan untuk bucket Cloud Storage yang terpasang ke cluster. Managed Service for Apache Spark juga mendukung pelampiran lebih dari satu cluster ke bucket Cloud Storage. Struktur folder yang digunakan untuk menyimpan output driver tugas di Cloud Storage adalah:

cloud-storage-bucket-name
  - google-cloud-dataproc-metainfo
    - list of cluster IDs
        - list of job IDs
          - list of output logs for a job

Anda dapat menggunakan alat command line gcloud, Managed Service for Apache Spark API, atau konsol gcloud untuk mencantumkan nama bucket penyiapan dan sementara cluster.Google Cloud

Konsol

  • \Lihat detail cluster, yang mencakup nama bucket penyiapan cluster, di halaman Managed Service for Apache Spark Clusters di konsol Google Cloud .
  • Di halaman Google Cloud konsol Cloud Storage Browser, filter hasil yang berisi "dataproc-temp-".

Perintah gcloud

Jalankan perintah gcloud dataproc clusters describe secara lokal di jendela terminal atau di Cloud Shell. Bucket sementara dan penyiapan yang terkait dengan cluster Anda tercantum dalam output.

gcloud dataproc clusters describe cluster-name \
    --region=region \
...
clusterName: cluster-name
clusterUuid: daa40b3f-5ff5-4e89-9bf1-bcbfec ...
config:
    configBucket: dataproc-...
    ...
    tempBucket: dataproc-temp...

REST API

Panggil clusters.get untuk mencantumkan detail cluster, termasuk nama bucket sementara dan penyiapan cluster.

{
 "projectId": "vigilant-sunup-163401",
 "clusterName": "cluster-name",
 "config": {
  "configBucket": "dataproc-...",
...
  "tempBucket": "dataproc-temp-...",
}

defaultFS

Anda dapat menetapkan core:fs.defaultFS ke lokasi bucket di Cloud Storage (gs://defaultFS-bucket-name) untuk menetapkan Cloud Storage sebagai sistem file default. Hal ini juga menetapkan core:fs.gs.reported.permissions, izin yang dilaporkan yang ditampilkan oleh konektor Cloud Storage untuk semua file, ke 777.

Jika Cloud Storage tidak ditetapkan sebagai sistem file default, HDFS akan digunakan, dan properti core:fs.gs.reported.permissions akan menampilkan 700, nilai default.

gcloud dataproc clusters create cluster-name \
    --properties=core:fs.defaultFS=gs://defaultFS-bucket-name \
    --region=region \
    --bucket=staging-bucket-name \
    --temp-bucket=temp-bucket-name \
    other args ...