"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Bucket temporanei e di staging di Managed Service per Apache Spark

Quando crei un cluster, HDFS viene utilizzato come file system predefinito. Puoi ignorare questo comportamento impostando defaultFS come bucket Cloud Storage. Per impostazione predefinita, Managed Service for Apache Spark crea anche un bucket gestione temporanea e di gestione temporanea Cloud Storage nel tuo progetto o riutilizza i bucket temporanei e di gestione temporanea Cloud Storage creati da Managed Service for Apache Spark dalle richieste di creazione del cluster precedenti.

Bucket temporaneo: utilizzato per organizzare le dipendenze dei job del cluster, l'output del driver dei job e i file di configurazione del cluster. Riceve anche l'output della raccolta dei dati diagnostici dello snapshot.
Bucket temporaneo: utilizzato per archiviare dati effimeri di cluster e job, come i file della cronologia di Spark e MapReduce. Memorizza anche i dati diagnostici del checkpoint raccolti durante il ciclo di vita di un cluster.

Se non specifichi un bucket di staging o gestione temporanea durante la creazione di un cluster, Managed Service for Apache Spark imposta una posizione Cloud Storage negli Stati Uniti, in Asia o nell'UE per i bucket di staging e temporanei del cluster in base alla zona di Compute Engine in cui viene eseguito il deployment del cluster, quindi crea e gestisce questi bucket a livello di progetto per località. I bucket temporanei e di gestione temporanea creati da Managed Service for Apache Spark vengono condivisi tra i cluster nella stessa regione e vengono creati con una durata di conservazione dell'eliminazione temporanea di Cloud Storage impostata su 0 secondi. Se specifichi i tuoi bucket temporanei e di staging, valuta la possibilità di ottimizzare il periodo di conservazione dell'eliminazione temporanea per ridurre gli addebiti per l'archiviazione sostenuti dagli oggetti eliminati temporaneamente.

Il bucket temporaneo contiene dati effimeri e ha un TTL di 90 giorni. Il bucket di staging, che può contenere dati di configurazione e file di dipendenza necessari a più cluster, non ha un TTL. Tuttavia, puoi applicare una regola del ciclo di vita ai file di dipendenza (file con estensione del nome file ".jar" che si trovano nella cartella del bucket di staging) per pianificare la rimozione dei file di dipendenza quando non sono più necessari ai cluster.

Crea i tuoi bucket temporanei e di gestione temporanea

Anziché fare affidamento sulla creazione di un bucket gestione temporanea e di gestione temporanea predefinito, puoi specificare bucket Cloud Storage esistenti che Managed Service for Apache Spark utilizzerà come bucket gestione temporanea e di gestione temporanea del cluster.

ConsoleGoogle Cloud

Per specificare o selezionare il bucket di staging del cluster:

Apri la pagina Crea cluster.
Fai clic su Configurazione aggiuntiva per espandere la sezione.
Modifica Personalizzazione e altro.
Nel riquadro che si apre, specifica un bucket nella sezione Bucket di staging di Cloud Storage.

Nota: la specifica di un bucket temporaneo utilizzando la console Google Cloud non è supportata.

gcloud CLI

Esegui il comando gcloud dataproc clusters create con i flag --bucket e/o --temp-bucket in locale in una finestra del terminale o in Cloud Shell per specificare il bucket di staging e/o gestione temporanea del cluster.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --bucket=bucket-name \
    --temp-bucket=bucket-name \
    other args ...

API REST

Utilizza i campi ClusterConfig.configBucket e ClusterConfig.tempBucket in una richiesta clusters.create per specificare i bucket di staging e temporanei del cluster.

Managed Service for Apache Spark utilizza una struttura di cartelle definita per i bucket Cloud Storage collegati ai cluster e supporta anche il collegamento di più cluster a un bucket. La struttura delle cartelle utilizzata per salvare l'output del driver dei job in Cloud Storage è la seguente:

cloud-storage-bucket-name
  - google-cloud-dataproc-metainfo
    - list of cluster IDs
        - list of job IDs
          - list of output logs for a job

Puoi utilizzare lo strumento a riga di comando gcloud, l'API Dataproc o la consoleGoogle Cloud per elencare il nome dei bucket di staging e temporanei di un cluster.

ConsoleGoogle Cloud

Puoi visualizzare i dettagli del cluster, incluso il nome del bucket di gestione temporanea del cluster, nella pagina Cluster della console Google Cloud .
Nella console Google Cloud pagina Browser Cloud Storage, filtra i risultati che contengono "dataproc-temp-".

gcloud CLI

Esegui il comando gcloud dataproc clusters describe localmente in una finestra del terminale o in Cloud Shell. I bucket di staging e temporanei associati al tuo cluster sono elencati nell'output.

gcloud dataproc clusters describe cluster-name \
    --region=region \
...
clusterName: cluster-name
clusterUuid: daa40b3f-5ff5-4e89-9bf1-bcbfec ...
config:
    configBucket: dataproc-...
    ...
    tempBucket: dataproc-temp...

API REST

Chiama clusters.get per elencare i dettagli del cluster, inclusi i nomi dei bucket temporanei e di staging del cluster.

{
 "projectId": "vigilant-sunup-163401",
 "clusterName": "cluster-name",
 "config": {
  "configBucket": "dataproc-...",
...
  "tempBucket": "dataproc-temp-...",
}

defaultFS

Puoi impostare core:fs.defaultFS su una posizione del bucket in Cloud Storage (gs://defaultFS-bucket-name) per impostare Cloud Storage come file system predefinito. Inoltre, imposta core:fs.gs.reported.permissions, l'autorizzazione segnalata restituita dal connettore Cloud Storage per tutti i file, su 777.

Se Cloud Storage non è impostato come file system predefinito, verrà utilizzato HDFS e la proprietà core:fs.gs.reported.permissions restituirà 700, il valore predefinito.

gcloud dataproc clusters create cluster-name \
    --properties=core:fs.defaultFS=gs://defaultFS-bucket-name \
    --region=region \
    --bucket=staging-bucket-name \
    --temp-bucket=temp-bucket-name \
    other args ...

Bucket temporanei e di staging di Managed Service per Apache Spark Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Crea i tuoi bucket temporanei e di gestione temporanea

ConsoleGoogle Cloud

gcloud CLI

API REST

ConsoleGoogle Cloud

gcloud CLI

API REST

defaultFS

Bucket temporanei e di staging di Managed Service per Apache Spark