"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google utilizza la tecnologia AI per tradurre i contenuti nella tua lingua preferita. Le traduzioni generate dall'AI potrebbero contenere errori.

Archiviazione dei dati Hadoop

Managed Service for Apache Spark si integra con Apache Hadoop e Hadoop Distributed File System (HDFS). Le seguenti funzionalità e considerazioni possono essere importanti quando si selezionano le opzioni di calcolo e archiviazione dei dati per i cluster e i job di Managed Service for Apache Spark:

HDFS con Cloud Storage: Managed Service for Apache Spark utilizza Hadoop Distributed File System (HDFS) per l'archiviazione. Inoltre, Managed Service for Apache Spark installa automaticamente il connettore Cloud Storage compatibile con HDFS, che consente l'utilizzo di Cloud Storage in parallelo con HDFS. I dati possono essere spostati all'interno e all'esterno di un cluster tramite il caricamento e il download su HDFS o Cloud Storage.
Dischi VM:
- Per impostazione predefinita, quando non vengono forniti SSD locali, i dati HDFS e i dati di shuffle intermedi vengono archiviati sui dischi di avvio della VM, che sono dischi permanenti.
- Se utilizzi gli SSD locali, i dati HDFS e i dati di shuffle intermedi vengono archiviati sugli SSD.
- Le dimensioni e il tipo di disco permanente (DP) influiscono sulle prestazioni e sulle dimensioni della VM, sia che si utilizzi HDFS o Cloud Storage per l'archiviazione dei dati.
- I dischi di avvio della VM vengono eliminati quando viene eliminato il cluster.

Archiviazione dei dati Hadoop Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Archiviazione dei dati Hadoop