Archiviazione dei dati Hadoop

Managed Service for Apache Spark si integra con Apache Hadoop e Hadoop Distributed File System (HDFS). Le seguenti funzionalità e considerazioni possono essere importanti quando selezioni le opzioni di calcolo e archiviazione dei dati per i cluster e i job Managed Service for Apache Spark:

  • HDFS con Cloud Storage: Managed Service for Apache Spark utilizza Hadoop Distributed File System (HDFS) per l'archiviazione. Inoltre, Managed Service for Apache Spark installa automaticamente il connettore Cloud Storage compatibile con HDFS, che consente l'utilizzo di Cloud Storage in parallelo con HDFS. I dati possono essere spostati all'interno e all'esterno di un cluster tramite caricamento e download su HDFS o Cloud Storage.
  • Dischi VM:
    • Per impostazione predefinita, quando non vengono forniti SSD locali, i dati HDFS e i dati di shuffle intermedi vengono archiviati sui dischi di avvio della VM, che sono dischi permanenti.
    • Se utilizzi SSD locali, i dati HDFS e i dati di shuffle intermedi vengono archiviati sugli SSD.
    • Le dimensioni e il tipo di Persistent Disk (DP) influiscono sulle prestazioni e sulle dimensioni della VM, indipendentemente dal fatto che utilizzi HDFS o Cloud Storage per l'archiviazione dei dati.
    • I dischi di avvio delle VM vengono eliminati quando viene eliminato il cluster.