Dataproc משתלב עם Apache Hadoop ועם מערכת הקבצים המבוזרת של Hadoop (HDFS). התכונות והשיקולים הבאים יכולים להיות חשובים כשבוחרים אפשרויות מחשוב ואחסון נתונים עבור אשכולות ועבודות של Dataproc:
- HDFS עם Cloud Storage: Dataproc משתמש במערכת הקבצים המבוזרת של Hadoop (HDFS) לאחסון. בנוסף, Dataproc מתקין באופן אוטומטי את המחבר של Cloud Storage שתואם ל-HDFS, ומאפשר להשתמש ב-Cloud Storage במקביל ל-HDFS. אפשר להעביר נתונים אל אשכול וממנו באמצעות העלאה והורדה אל HDFS או Cloud Storage.
- דיסקים של מכונות VM:
- כברירת מחדל, אם לא מסופקים כונני SSD מקומיים, נתוני HDFS ונתוני ערבוב ביניים מאוחסנים בדיסקים של מכונות וירטואליות (VM), שהם דיסקים קבועים.
- אם משתמשים בכונני SSD מקומיים, נתוני HDFS ונתוני ערבוב ביניים מאוחסנים בכונני ה-SSD.
- הגודל והסוג של דיסק אחסון מתמיד (persistent disk) (PD) משפיעים על הביצועים ועל גודל מכונת ה-VM, בין אם משתמשים ב-HDFS או ב-Cloud Storage לאחסון נתונים.
- דיסקי האתחול של המכונות הווירטואליות נמחקים כשהאשכול נמחק.