Quando crei un cluster, HDFS viene utilizzato come file system predefinito. Puoi sostituire questo comportamento impostando defaultFS come bucket Cloud Storage bucket. Per impostazione predefinita, Managed Service for Apache Spark crea anche un bucket gestione temporanea e di gestione temporanea Cloud Storage nel tuo progetto o riutilizza i bucket temporanei e di gestione temporanea creati da Managed Service for Apache Spark nelle richieste di creazione di cluster precedenti.
Bucket di gestione temporanea: utilizzato per la gestione temporanea delle dipendenze dei job del cluster, dell'output del driver dei job, e dei file di configurazione del cluster. Riceve anche l'output della raccolta dei dati di diagnostica degli snapshot.
Bucket temporaneo: utilizzato per archiviare i dati temporanei di cluster e job, come i file di cronologia di Spark e MapReduce. Archivia anche i dati di diagnostica dei checkpoint raccolti durante il ciclo di vita di un cluster.
Se non specifichi un bucket gestione temporanea o di gestione temporanea quando crei un cluster, Managed Service for Apache Spark imposta una località Cloud Storage negli Stati Uniti, in Asia, o nell'UE per i bucket temporanei e di gestione temporanea del cluster in base alla zona Compute Engine in cui è stato eseguito il deployment del cluster, quindi crea e gestisce questi bucket a livello di progetto per località. I bucket temporanei e di gestione temporanea creati da Managed Service for Apache Spark vengono condivisi tra i cluster nella stessa regione e vengono creati con una durata di conservazione dell'eliminazione temporanea di Cloud Storage impostata su 0 secondi. Se specifichi i tuoi bucket temporanei e di gestione temporanea, valuta la possibilità di ottimizzare la conservazione dell'eliminazione temporanea per ridurre gli addebiti di spazio di archiviazione sostenuti dagli oggetti eliminati temporaneamente.
Il bucket temporaneo contiene dati temporanei e ha un TTL di 90 giorni. Il bucket di gestione temporanea, che può contenere dati di configurazione e file di dipendenza necessari per più cluster, non ha un TTL. Tuttavia, puoi applicare una regola del ciclo di vita a i file di dipendenza (file con estensione del nome file ".jar" che si trovano nella cartella del bucket di gestione temporanea) per pianificare la rimozione dei file di dipendenza quando non sono più necessari per i cluster.
Crea i tuoi bucket temporanei e di gestione temporanea
Anziché fare affidamento sulla creazione di un bucket gestione temporanea e di gestione temporanea predefinito, puoi specificare i bucket Cloud Storage esistenti che Managed Service for Apache Spark utilizzerà come bucket gestione temporanea e di gestione temporanea del cluster.
Comando g-cloud
Esegui il comando gcloud dataproc clusters create con i flag --bucket e/o --temp-bucket in locale in una finestra del terminale o in Cloud Shell per specificare il bucket temporaneo e/o di gestione temporanea del cluster.
gcloud dataproc clusters create cluster-name \ --region=region \ --bucket=bucket-name \ --temp-bucket=bucket-name \ other args ...
API REST
Utilizza i campi ClusterConfig.configBucket e
ClusterConfig.tempBucket
in una richiesta clusters.create
per specificare i bucket temporanei e di gestione temporanea del cluster.
Console
Nella Google Cloud console, apri la pagina Crea un cluster di Managed Service for Apache Spark. Seleziona il riquadro Personalizza cluster, quindi utilizza il campo Archiviazione file per specificare o selezionare il bucket di gestione temporanea del cluster.
Nota: al momento non è supportata la specifica di un bucket temporaneo utilizzando la Google Cloud console non è supportata.
Managed Service for Apache Spark utilizza una struttura di cartelle definita per i bucket Cloud Storage collegati ai cluster. Managed Service for Apache Spark supporta anche il collegamento di più cluster a un bucket Cloud Storage. La struttura di cartelle utilizzata per salvare l'output del driver dei job in Cloud Storage è la seguente:
cloud-storage-bucket-name
- google-cloud-dataproc-metainfo
- list of cluster IDs
- list of job IDs
- list of output logs for a job
Puoi utilizzare lo strumento a riga di comando gcloud, l'API Managed Service for Apache Spark o
Google Cloud la console per elencare il nome dei bucket temporanei e di gestione temporanea di un cluster.
Console
- \Visualizza i dettagli del cluster, incluso il nome del bucket di gestione temporanea del cluster, nella pagina Cluster di Managed Service for Apache Spark nella Google Cloud console.
- Nella pagina Google Cloud console Browser Cloud Storage della console, filtra i risultati che contengono "dataproc-temp-".
Comando g-cloud
Esegui il
gcloud dataproc clusters describe
comando in locale in una finestra del terminale o in
Cloud Shell.
I bucket temporanei e di gestione temporanea associati al cluster sono elencati nell'output.
gcloud dataproc clusters describe cluster-name \
--region=region \
...
clusterName: cluster-name
clusterUuid: daa40b3f-5ff5-4e89-9bf1-bcbfec ...
config:
configBucket: dataproc-...
...
tempBucket: dataproc-temp...
API REST
Chiama clusters.get per elencare i dettagli del cluster, inclusi i nomi dei bucket temporanei e di gestione temporanea del cluster.
{
"projectId": "vigilant-sunup-163401",
"clusterName": "cluster-name",
"config": {
"configBucket": "dataproc-...",
...
"tempBucket": "dataproc-temp-...",
}
defaultFS
Puoi impostare core:fs.defaultFS su una località del bucket in Cloud Storage (gs://defaultFS-bucket-name) per impostare Cloud Storage come file system predefinito. Inoltre, imposta core:fs.gs.reported.permissions, l'autorizzazione segnalata restituita dal connettore Cloud Storage per tutti i file, su 777.
Se Cloud Storage non è impostato come file system predefinito, verrà utilizzato HDFS e la proprietà core:fs.gs.reported.permissions restituirà 700, il valore predefinito.
gcloud dataproc clusters create cluster-name \ --properties=core:fs.defaultFS=gs://defaultFS-bucket-name \ --region=region \ --bucket=staging-bucket-name \ --temp-bucket=temp-bucket-name \ other args ...