Questo documento descrive come creare un cluster Managed Service for Apache Spark con scalabilità a zero.
I cluster Managed Service for Apache Spark con scalabilità zero offrono un modo conveniente per utilizzare i cluster Managed Service for Apache Spark. A differenza dei cluster Managed Service for Apache Spark standard che richiedono almeno due worker primari, i cluster Managed Service for Apache Spark con scalabilità zero utilizzano solo worker secondari che possono essere ridimensionati fino a zero.
I cluster Managed Service for Apache Spark con scalabilità a zero sono ideali per l'utilizzo come cluster a esecuzione prolungata che presentano periodi di inattività, ad esempio un cluster che ospita un notebook Jupyter. Offrono un migliore utilizzo delle risorse grazie all'utilizzo di criteri di scalabilità automatica con scalabilità a zero.
Requisiti e limitazioni
Un cluster Managed Service for Apache Spark con scalabilità zero presenta i seguenti requisiti e limitazioni:
- Richiede la versione dell'immagine
2.2.61o successive. - Richiede l'utilizzo di Cloud Storage, non del file system HDFS.
- Supporta solo i worker secondari, non quelli principali.
- Non può essere convertito in o da un cluster standard.
- Non supporta il componente Oozie.
Crea un cluster Managed Service for Apache Spark con scalabilità a zero
Puoi creare un cluster con scalabilità a zero utilizzando gcloud CLI o l'API Managed Service for Apache Spark.
gcloud
Esegui
gcloud dataproc clusters create
il comando localmente in una finestra del terminale o in
Cloud Shell.
gcloud dataproc clusters create CLUSTER_NAME \
--region=REGION \
--cluster-type=zero-scale \
--autoscaling-policy=AUTOSCALING_POLICY \
--properties=core:fs.defaultFS=gs://BUCKET_NAME \
...other args
Sostituisci quanto segue:
- CLUSTER_NAME: nome del cluster Managed Service for Apache Spark con scalabilità a zero.
- REGION: una regione di Compute Engine disponibile.
- AUTOSCALING_POLICY (facoltativo): se crei una policy di scalabilità automatica da applicare al cluster con scalabilità a zero, utilizza questo flag per specificare l'ID o l'URI risorsa della policy di scalabilità automatica. Quando crei la policy:
- Imposta
clusterTypesuZERO_SCALE. - Configura un criterio di scalabilità automatica solo per
secondaryWorkerConfig.
- Imposta
- File system Cloud Storage: devi impostare
core:fs.defaultFSsu un bucket Cloud Storage per impostare il file system del cluster con scalabilità a zero su Cloud Storage anziché su HDFS predefinito.- BUCKET_NAME: il nome di un bucket Cloud Storage. Il nome del bucket deve essere univoco per ogni cluster con scalabilità a zero.
REST
- Tipo di cluster: imposta
ClusterConfig.ClusterTypesuZERO_SCALE. - (Facoltativo) Policy di scalabilità automatica: se crei una policy di scalabilità automatica da applicare al cluster con scalabilità a zero, imposta
AutoscalingConfig.policyUricon l'ID policy di scalabilità automaticaZERO_SCALE. Quando crei la policy:- Imposta
clusterTypesuZERO_SCALE. - Configura un criterio di scalabilità automatica solo per
secondaryWorkerConfig.
- Imposta
- File system Cloud Storage: devi impostare
core:fs.defaultFSsu un bucket Cloud Storage per impostare il file system del cluster con scalabilità a zero su Cloud Storage anziché su HDFS predefinito.- Aggiungi
core:fs.defaultFS:gs://BUCKET_NAMESoftwareConfig.property. Sostituisci BUCKET_NAME con il nome del tuo bucket Cloud Storage. Specifica un nome di bucket univoco per ogni cluster con scalabilità a zero.
- Aggiungi
Passaggi successivi
- Scopri di più sulla scalabilità automatica di Managed Service for Apache Spark.