Managed Service for Apache Spark si integra con Apache Hadoop e Hadoop Distributed File System (HDFS). Le seguenti funzionalità e considerazioni possono essere importanti quando si selezionano le opzioni di calcolo e archiviazione dei dati per i cluster e i job di Managed Service for Apache Spark:
- HDFS con Cloud Storage: Managed Service for Apache Spark utilizza Hadoop Distributed File System (HDFS) per l'archiviazione. Inoltre, Managed Service for Apache Spark installa automaticamente il connettore Cloud Storage compatibile con HDFS, che consente l'utilizzo di Cloud Storage in parallelo con HDFS. I dati possono essere spostati all'interno e all'esterno di un cluster tramite il caricamento e il download su HDFS o Cloud Storage.
- Dischi VM:
- Per impostazione predefinita, quando non vengono forniti SSD locali, i dati HDFS e i dati di shuffle intermedi vengono archiviati sui dischi di avvio della VM, che sono dischi permanenti.
- Se utilizzi gli SSD locali, i dati HDFS e i dati di shuffle intermedi vengono archiviati sugli SSD.
- Le dimensioni e il tipo di disco permanente (DP) influiscono sulle prestazioni e sulle dimensioni della VM, sia che si utilizzi HDFS o Cloud Storage per l'archiviazione dei dati.
- I dischi di avvio della VM vengono eliminati quando viene eliminato il cluster.