שמירה במטמון של אשכול

כשמפעילים את האפשרות Managed Service for Apache Spark cluster caching, הנתונים ב-Cloud Storage שניגשים אליהם לעיתים קרובות על ידי משימות Spark נשמרים במטמון של האשכול.

יתרונות

  • ביצועים משופרים: שמירה במטמון יכולה לשפר את ביצועי העבודה על ידי קיצור הזמן שנדרש לאחזור נתונים מהאחסון.
  • עלויות אחסון מופחתות: מכיוון שנתונים בשימוש תדיר נשמרים במטמון בדיסק מקומי, מתבצעות פחות קריאות ל-API לאחסון כדי לאחזר נתונים.
  • התאמה למשימות Spark: כשהתכונה 'שמירת נתונים במטמון של אשכולות' מופעלת באשכול, היא חלה על כל משימות Spark שמופעלות באשכול, בין אם הן נשלחות אל Managed Service for Apache Spark או מופעלות באופן עצמאי באשכול.

מגבלות ודרישות

הפעלת שמירת נתונים במטמון של אשכול

אפשר להפעיל אחסון במטמון של אשכול כשיוצרים אשכול של Managed Service for Apache Spark באמצעות Google Cloud המסוף, Google Cloud CLI או Dataproc API.

מסוףGoogle Cloud

  1. פותחים את מסוף Google Cloud . נכנסים לדף Create cluster.
  2. לוחצים על הגדרה נוספת כדי להרחיב את הקטע.
  3. עורכים את התאמה אישית ואחר.
  4. בחלונית שנפתחת, בקטע מאפייני האשכול, לוחצים על + הוספת מאפיינים.
  5. בוחרים באפשרות dataproc ברשימה Prefix, ואז מוסיפים את המפתח dataproc.cluster.caching.enabled ואת הערך true.

‫CLI של gcloud

מריצים את הפקודה gcloud dataproc clusters create באופן מקומי בחלון טרמינל או ב-Cloud Shell באמצעות dataproc:dataproc.cluster.caching.enabled=true מאפיין האשכול.

דוגמה:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

‫API בארכיטקטורת REST

מגדירים את SoftwareConfig.properties כך שיכלול את "dataproc:dataproc.cluster.caching.enabled": "true" מאפיין האשכול כחלק מבקשת clusters.create.