אחסון נתונים ב-Hadoop

‫Managed Service for Apache Spark משתלב עם Apache Hadoop ועם Hadoop Distributed File System ‏ (HDFS). התכונות והשיקולים הבאים יכולים להיות חשובים כשבוחרים אפשרויות מחשוב ואחסון נתונים עבור אשכולות ומשימות של Managed Service for Apache Spark:

  • ‫HDFS עם Cloud Storage:‏ Managed Service for Apache Spark משתמש ב-Hadoop Distributed File System ‏ (HDFS) לאחסון. בנוסף, Managed Service for Apache Spark מתקין אוטומטית את המחבר של Cloud Storage שתואם ל-HDFS, ומאפשר להשתמש ב-Cloud Storage במקביל ל-HDFS. אפשר להעביר נתונים אל אשכול וממנו באמצעות העלאה והורדה אל HDFS או Cloud Storage.
  • דיסקים של מכונות וירטואליות:
    • כברירת מחדל, אם לא מסופקים כונני SSD מקומיים, נתוני HDFS ונתוני shuffle ביניים מאוחסנים בדיסקים של מכונות וירטואליות, שהם דיסקים קבועים.
    • אם משתמשים בכונני SSD מקומיים, נתוני HDFS ונתוני ביניים של ערבוב נשמרים בכונני ה-SSD.
    • הגודל והסוג של דיסק מתמיד (PD) משפיעים על הביצועים ועל גודל המכונה הווירטואלית, בין אם משתמשים ב-HDFS או ב-Cloud Storage לאחסון נתונים.
    • דיסקים לאתחול של מכונות וירטואליות נמחקים כשמחקקים את האשכול.