שמירה במטמון של אשכול

כשמפעילים אחסון במטמון של אשכול Dataproc, האשכול שומר במטמון נתונים מ-Cloud Storage שניגשים אליהם לעיתים קרובות על ידי משימות Spark.

יתרונות

  • ביצועים משופרים: שמירה במטמון יכולה לשפר את ביצועי העבודה על ידי קיצור הזמן שנדרש לאחזור נתונים מהאחסון.
  • עלויות אחסון מופחתות: מכיוון שנתונים בשימוש תדיר נשמרים במטמון בדיסק מקומי, מתבצעות פחות קריאות ל-API לאחסון כדי לאחזר נתונים.
  • החלת המטמון על משימות Spark: כשהמטמון של האשכול מופעל באשכול, הוא חל על כל משימות Spark שמופעלות באשכול, בין אם הן נשלחות לשירות Dataproc או מופעלות באופן עצמאי באשכול.

מגבלות ודרישות

הפעלת שמירה במטמון של אשכול

אפשר להפעיל שמירה במטמון של אשכול כשיוצרים אשכול Dataproc באמצעות מסוף Google Cloud , Google Cloud CLI או Dataproc API.

מסוףGoogle Cloud

  • פותחים את הדף Dataproc Create a cluster on Compute Engine במסוף Google Cloud .
  • החלונית הגדרת אשכול נבחרת. בקטע Spark performance enhancements, בוחרים באפשרות Enable Google Cloud Storage caching.
  • אחרי שמאשרים ומציינים את פרטי האשכול בחלוניות של יצירת האשכול, לוחצים על יצירה.

‫CLI של gcloud

מריצים את הפקודה gcloud dataproc clusters create באופן מקומי בחלון טרמינל או ב-Cloud Shell באמצעות dataproc:dataproc.cluster.caching.enabled=true מאפיין האשכול.

דוגמה:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

API ל-REST

מגדירים את SoftwareConfig.properties כך שיכלול את "dataproc:dataproc.cluster.caching.enabled": "true" מאפיין האשכול כחלק מבקשת clusters.create.