כשמפעילים את האפשרות Managed Service for Apache Spark cluster caching, הנתונים ב-Cloud Storage שניגשים אליהם לעיתים קרובות על ידי משימות Spark נשמרים במטמון של האשכול.
יתרונות
- ביצועים משופרים: שמירה במטמון יכולה לשפר את ביצועי העבודה על ידי קיצור הזמן שנדרש לאחזור נתונים מהאחסון.
- עלויות אחסון מופחתות: מכיוון שנתונים בשימוש תדיר נשמרים במטמון בדיסק מקומי, מתבצעות פחות קריאות ל-API לאחסון כדי לאחזר נתונים.
- התאמה למשימות Spark: כשהתכונה 'שמירת נתונים במטמון של אשכולות' מופעלת באשכול, היא חלה על כל משימות Spark שמופעלות באשכול, בין אם הן נשלחות אל Managed Service for Apache Spark או מופעלות באופן עצמאי באשכול.
מגבלות ודרישות
- השימוש במטמון רלוונטי רק למשימות של Managed Service for Apache Spark.
- רק נתונים מ-Cloud Storage נשמרים במטמון.
- השמירה במטמון חלה רק על אשכולות שעומדים בדרישות הבאות:
- בצביר יש צומת ראשי אחד ו-
nצמתים לעיבוד נתונים (צבירים עם זמינות גבוהה (HA) וצבירים עם צומת יחיד לא נתמכים). - התכונה הזו זמינה ב-Managed Service for Apache Spark בגרסאות התמונות
2.0.72+,2.1.20+ו-2.2.0+. - לכל צומת באשכול צריך להיות מצורף כונן SSD מקומי עם ממשק NVME (Non-Volatile Memory Express) (לא ניתן להשתמש בכונני דיסק קשיח (PD)). הנתונים נשמרים במטמון רק בכונני NVME SSD מקומיים.
- האימות באשכול מתבצע באמצעות חשבון השירות שמוגדר כברירת מחדל למכונה הווירטואלית. אין תמיכה בחשבונות שירות של מכונות וירטואליות בהתאמה אישית.
- בצביר יש צומת ראשי אחד ו-
הפעלת שמירת נתונים במטמון של אשכול
אפשר להפעיל אחסון במטמון של אשכול כשיוצרים אשכול של Managed Service for Apache Spark באמצעות Google Cloud המסוף, Google Cloud CLI או Dataproc API.
מסוףGoogle Cloud
- פותחים את מסוף Google Cloud . נכנסים לדף Create cluster.
- לוחצים על הגדרה נוספת כדי להרחיב את הקטע.
- עורכים את התאמה אישית ואחר.
- בחלונית שנפתחת, בקטע מאפייני האשכול, לוחצים על + הוספת מאפיינים.
- בוחרים באפשרות dataproc ברשימה Prefix, ואז מוסיפים את המפתח
dataproc.cluster.caching.enabledואת הערךtrue.
CLI של gcloud
מריצים את הפקודה gcloud dataproc clusters create באופן מקומי בחלון טרמינל או ב-Cloud Shell באמצעות dataproc:dataproc.cluster.caching.enabled=true
מאפיין האשכול.
דוגמה:
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties dataproc:dataproc.cluster.caching.enabled=true \ --num-master-local-ssds=2 \ --master-local-ssd-interface=NVME \ --num-worker-local-ssds=2 \ --worker-local-ssd-interface=NVME \ other args ...
API בארכיטקטורת REST
מגדירים את SoftwareConfig.properties
כך שיכלול את "dataproc:dataproc.cluster.caching.enabled": "true"
מאפיין האשכול
כחלק מבקשת
clusters.create.