Penyimpanan cache cluster

Saat Anda mengaktifkan caching cluster Managed Service untuk Apache Spark, cluster akan menyimpan data Cloud Storage yang sering diakses oleh tugas Spark Anda ke dalam cache.

Manfaat

  • Performa yang ditingkatkan: Caching dapat meningkatkan performa tugas dengan mengurangi waktu yang dihabiskan untuk mengambil data dari penyimpanan.
  • Pengurangan biaya penyimpanan: Karena data aktif di-cache di disk lokal, lebih sedikit panggilan API yang dilakukan ke penyimpanan untuk mengambil data.
  • Penerapan tugas Spark: Jika caching cluster diaktifkan di cluster, caching akan berlaku untuk semua tugas Spark yang dijalankan di cluster, baik yang dikirimkan ke layanan Managed Service untuk Apache Spark maupun yang dijalankan secara independen di cluster.

Batasan dan persyaratan

  • Caching hanya berlaku untuk tugas Spark Managed Service untuk Apache Spark.
  • Hanya data Cloud Storage yang di-cache.
  • Caching hanya berlaku untuk cluster yang memenuhi persyaratan berikut:

Mengaktifkan caching cluster

Anda dapat mengaktifkan caching cluster saat membuat cluster Managed Service untuk Apache Spark menggunakan Google Cloud konsol, Google Cloud CLI, atau Dataproc API.

Google Cloud Konsol

  • Buka halaman Managed Service untuk Apache Spark Create a cluster di Google Cloud konsol.
  • Panel Set up cluster dipilih. Di bagian Spark performance enhancements, pilih Enable Google Cloud Storage caching.
  • Setelah mengonfirmasi dan menentukan detail cluster di panel pembuatan cluster, klik Create.

gcloud CLI

Jalankan perintah gcloud dataproc clusters create secara lokal di jendela terminal atau di Cloud Shell menggunakan dataproc:dataproc.cluster.caching.enabled=true properti cluster.

Contoh:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

REST API

Tetapkan SoftwareConfig.properties untuk menyertakan "dataproc:dataproc.cluster.caching.enabled": "true" properti cluster sebagai bagian dari clusters.create.