"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

אחסון נתונים ב-Hadoop

‫Managed Service for Apache Spark משתלב עם Apache Hadoop ועם Hadoop Distributed File System ‏ (HDFS). התכונות והשיקולים הבאים יכולים להיות חשובים כשבוחרים אפשרויות מחשוב ואחסון נתונים עבור אשכולות ומשימות של Managed Service for Apache Spark:

‫HDFS עם Cloud Storage:‏ Managed Service for Apache Spark משתמש ב-Hadoop Distributed File System ‏ (HDFS) לאחסון. בנוסף, Managed Service for Apache Spark מתקין אוטומטית את המחבר של Cloud Storage שתואם ל-HDFS, ומאפשר להשתמש ב-Cloud Storage במקביל ל-HDFS. אפשר להעביר נתונים אל אשכול וממנו באמצעות העלאה והורדה אל HDFS או Cloud Storage.
דיסקים של מכונות וירטואליות:
- כברירת מחדל, אם לא מסופקים כונני SSD מקומיים, נתוני HDFS ונתוני shuffle ביניים מאוחסנים בדיסקים של מכונות וירטואליות, שהם דיסקים קבועים.
- אם משתמשים בכונני SSD מקומיים, נתוני HDFS ונתוני ביניים של ערבוב נשמרים בכונני ה-SSD.
- הגודל והסוג של דיסק מתמיד (PD) משפיעים על הביצועים ועל גודל המכונה הווירטואלית, בין אם משתמשים ב-HDFS או ב-Cloud Storage לאחסון נתונים.
- דיסקים לאתחול של מכונות וירטואליות נמחקים כשמחקקים את האשכול.

אחסון נתונים ב-Hadoop קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

אחסון נתונים ב-Hadoop