כשמפעילים אחסון במטמון של אשכול Dataproc, האשכול שומר במטמון נתונים מ-Cloud Storage שניגשים אליהם לעיתים קרובות על ידי משימות Spark.
יתרונות
- ביצועים משופרים: שמירה במטמון יכולה לשפר את ביצועי העבודה על ידי קיצור הזמן שנדרש לאחזור נתונים מהאחסון.
- עלויות אחסון מופחתות: מכיוון שנתונים בשימוש תדיר נשמרים במטמון בדיסק מקומי, מתבצעות פחות קריאות ל-API לאחסון כדי לאחזר נתונים.
- החלת המטמון על משימות Spark: כשהמטמון של האשכול מופעל באשכול, הוא חל על כל משימות Spark שמופעלות באשכול, בין אם הן נשלחות לשירות Dataproc או מופעלות באופן עצמאי באשכול.
מגבלות ודרישות
- השימוש במטמון רלוונטי רק למשימות Dataproc Spark.
- רק נתונים מ-Cloud Storage נשמרים במטמון.
- השמירה במטמון חלה רק על אשכולות שעומדים בדרישות הבאות:
- בצביר יש צומת ראשי אחד ו-
nצמתים לעיבוד נתונים (לא נתמכים צבירים עם זמינות גבוהה (HA) וצבירים עם צומת יחיד). - התכונה הזו זמינה ב-Dataproc ב-Compute Engine בגרסאות התמונות
2.0.72+,2.1.20+ו-2.2.0+. - לכל צומת באשכול חייבים להיות מצורפים כונני SSD מקומיים עם ממשק NVME (Non-Volatile Memory Express) (Persistent Disks (PDs) אינם נתמכים). הנתונים נשמרים במטמון רק בכונני NVME SSD מקומיים.
- האימות באשכול מתבצע באמצעות חשבון השירות שמוגדר כברירת מחדל למכונה הווירטואלית. אין תמיכה בחשבונות שירות מותאמים אישית של VM.
- בצביר יש צומת ראשי אחד ו-
הפעלת שמירה במטמון של אשכול
אפשר להפעיל שמירה במטמון של אשכול כשיוצרים אשכול Dataproc באמצעות מסוף Google Cloud , Google Cloud CLI או Dataproc API.
מסוףGoogle Cloud
- פותחים את הדף Dataproc Create a cluster on Compute Engine במסוף Google Cloud .
- החלונית הגדרת אשכול נבחרת. בקטע Spark performance enhancements, בוחרים באפשרות Enable Google Cloud Storage caching.
- אחרי שמאשרים ומציינים את פרטי האשכול בחלוניות של יצירת האשכול, לוחצים על יצירה.
CLI של gcloud
מריצים את הפקודה gcloud dataproc clusters create באופן מקומי בחלון טרמינל או ב-Cloud Shell באמצעות dataproc:dataproc.cluster.caching.enabled=true
מאפיין האשכול.
דוגמה:
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties dataproc:dataproc.cluster.caching.enabled=true \ --num-master-local-ssds=2 \ --master-local-ssd-interface=NVME \ --num-worker-local-ssds=2 \ --worker-local-ssd-interface=NVME \ other args ...
API ל-REST
מגדירים את SoftwareConfig.properties
כך שיכלול את "dataproc:dataproc.cluster.caching.enabled": "true"
מאפיין האשכול
כחלק מבקשת
clusters.create.