"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google menggunakan teknologi AI untuk menerjemahkan konten ke dalam bahasa pilihan Anda. Terjemahan AI mungkin mengandung kesalahan.

Bucket sementara dan penyiapan Managed Service for Apache Spark

Saat Anda membuat cluster, HDFS digunakan sebagai sistem file default. Anda dapat mengganti perilaku ini dengan menetapkan defaultFS sebagai bucket Cloud Storage. Secara default, Managed Service untuk Apache Spark juga membuat bucket staging Cloud Storage dan bucket sementara Cloud Storage di project Anda atau menggunakan kembali bucket staging dan bucket sementara yang dibuat Managed Service untuk Apache Spark dari permintaan pembuatan cluster sebelumnya.

Bucket staging: Digunakan untuk melakukan staging dependensi tugas cluster, output driver tugas, dan file konfigurasi cluster. Juga menerima output dari Pengumpulan data diagnostik snapshot.
Bucket sementara: Digunakan untuk menyimpan data tugas dan cluster efemeral, seperti file histori Spark dan MapReduce. Juga menyimpan data diagnostik titik pemeriksaan yang dikumpulkan selama siklus proses cluster.

Jika Anda tidak menentukan bucket penyiapan atau sementara saat membuat cluster, Managed Service untuk Apache Spark akan menetapkan lokasi Cloud Storage di AS, ASIA, atau Uni Eropa untuk bucket penyiapan dan sementara cluster Anda sesuai dengan zona Compute Engine tempat cluster Anda di-deploy, lalu membuat dan mengelola bucket level project per lokasi ini. Bucket staging dan bucket sementara yang dibuat oleh Managed Service untuk Apache Spark digunakan secara bersama oleh berbagai cluster di region yang sama, dan dibuat dengan durasi retensi penghapusan sementara Cloud Storage yang ditetapkan ke 0 detik. Jika Anda menentukan bucket sementara dan penyiapan sendiri, pertimbangkan untuk menyesuaikan retensi penghapusan sementara guna mengurangi biaya penyimpanan yang ditanggung oleh objek yang dihapus sementara.

Bucket sementara berisi data sementara, dan memiliki TTL 90 hari. Bucket penyiapan, yang dapat berisi data konfigurasi dan file dependensi yang diperlukan oleh beberapa cluster, tidak memiliki TTL. Namun, Anda dapat menerapkan aturan siklus proses ke file dependensi Anda (file dengan ekstensi nama file ".jar" yang berada di folder bucket penyiapan) untuk menjadwalkan penghapusan file dependensi Anda saat file tersebut tidak lagi diperlukan oleh cluster Anda.

Membuat bucket staging dan sementara Anda sendiri

Daripada mengandalkan pembuatan bucket sementara dan staging default, Anda dapat menentukan bucket Cloud Storage yang sudah ada yang akan digunakan Managed Service untuk Apache Spark sebagai bucket sementara dan staging cluster Anda.

KonsolGoogle Cloud

Untuk menentukan atau memilih bucket penyiapan cluster:

Buka halaman Buat cluster.
Klik Konfigurasi tambahan untuk meluaskan bagian tersebut.
Edit Penyesuaian & Lainnya.
Di panel yang terbuka, di bagian Cloud Storage staging bucket, tentukan bucket.

Catatan: Menentukan bucket sementara menggunakan konsol Google Cloud tidak didukung.

gcloud CLI

Jalankan perintah gcloud dataproc clusters create dengan tanda --bucket dan/atau --temp-bucket secara lokal di jendela terminal atau di Cloud Shell untuk menentukan bucket sementara dan/atau penyiapan cluster Anda.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --bucket=bucket-name \
    --temp-bucket=bucket-name \
    other args ...

REST API

Gunakan kolom ClusterConfig.configBucket dan ClusterConfig.tempBucket dalam permintaan clusters.create untuk menentukan bucket sementara dan penyiapan cluster Anda.

Managed Service untuk Apache Spark menggunakan struktur folder yang ditentukan untuk bucket Cloud Storage yang terpasang ke cluster, dan juga mendukung pemasangan lebih dari satu cluster ke bucket. Struktur folder yang digunakan untuk menyimpan output driver tugas di Cloud Storage adalah sebagai berikut:

cloud-storage-bucket-name
  - google-cloud-dataproc-metainfo
    - list of cluster IDs
        - list of job IDs
          - list of output logs for a job

Anda dapat menggunakan alat command line gcloud, Dataproc API, atau konsolGoogle Cloud untuk mencantumkan nama bucket sementara dan penyiapan cluster.

KonsolGoogle Cloud

Anda dapat melihat detail cluster, yang mencakup nama bucket penyiapan cluster, di halaman Clusters di konsol Google Cloud .
Di halaman Google Cloud konsol Cloud Storage Browser, filter hasil yang berisi "dataproc-temp-".

gcloud CLI

Jalankan perintah gcloud dataproc clusters describe secara lokal di jendela terminal atau di Cloud Shell. Bucket sementara dan penyiapan yang terkait dengan cluster Anda tercantum dalam output.

gcloud dataproc clusters describe cluster-name \
    --region=region \
...
clusterName: cluster-name
clusterUuid: daa40b3f-5ff5-4e89-9bf1-bcbfec ...
config:
    configBucket: dataproc-...
    ...
    tempBucket: dataproc-temp...

REST API

Panggil clusters.get untuk mencantumkan detail cluster, termasuk nama bucket sementara dan penyiapan cluster.

{
 "projectId": "vigilant-sunup-163401",
 "clusterName": "cluster-name",
 "config": {
  "configBucket": "dataproc-...",
...
  "tempBucket": "dataproc-temp-...",
}

defaultFS

Anda dapat menetapkan core:fs.defaultFS ke lokasi bucket di Cloud Storage (gs://defaultFS-bucket-name) untuk menetapkan Cloud Storage sebagai sistem file default. Tindakan ini juga menetapkan core:fs.gs.reported.permissions, izin yang dilaporkan yang ditampilkan oleh konektor Cloud Storage untuk semua file, ke 777.

Jika Cloud Storage tidak ditetapkan sebagai sistem file default, HDFS akan digunakan, dan properti core:fs.gs.reported.permissions akan menampilkan 700, nilai default.

gcloud dataproc clusters create cluster-name \
    --properties=core:fs.defaultFS=gs://defaultFS-bucket-name \
    --region=region \
    --bucket=staging-bucket-name \
    --temp-bucket=temp-bucket-name \
    other args ...

Bucket sementara dan penyiapan Managed Service for Apache Spark Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Membuat bucket staging dan sementara Anda sendiri

KonsolGoogle Cloud

gcloud CLI

REST API

KonsolGoogle Cloud

gcloud CLI

REST API

defaultFS

Bucket sementara dan penyiapan Managed Service for Apache Spark