"Managed Service for Apache Spark" è il nuovo nome del prodotto precedentemente noto come "Dataproc on Compute Engine" (deployment del cluster) e "Google Cloud Serverless for Apache Spark" (deployment serverless).

Scalare i cluster

Dopo aver creato un cluster Managed Service for Apache Spark, puoi modificare ("scalare") il cluster aumentando o diminuendo il numero di nodi worker primari o secondari (scalabilità orizzontale) nel cluster. Puoi scalare un cluster Managed Service for Apache Spark in qualsiasi momento, anche quando i job sono in esecuzione sul cluster. Non puoi modificare il tipo di macchina di un cluster esistente (scalabilità verticale). Per scalare verticalmente, crea un cluster utilizzando un tipo di macchina supportato, quindi esegui la migrazione dei job al nuovo cluster.

Puoi scalare un cluster Managed Service for Apache Spark per:

Aumentare il numero di worker per velocizzare l'esecuzione di un job.
Diminuire il numero di worker per risparmiare denaro (vedi Ritiro gestito automaticamente come opzione da utilizzare quando riduci le dimensioni di un cluster per evitare di perdere il lavoro in corso).
Aumentare il numero di nodi per espandere lo spazio di archiviazione Hadoop Distributed File System (HDFS) disponibile.

Poiché i cluster possono essere scalati più di una volta, potresti voler aumentare o diminuire le dimensioni del cluster contemporaneamente e poi diminuire o aumentare le dimensioni in un secondo momento.

Utilizzare la scalabilità

Esistono tre modi per scalare il cluster Managed Service for Apache Spark:

Utilizza lo strumento a riga di comando in gcloud CLI.gcloud
Modifica la configurazione del cluster nella Google Cloud console.
Utilizza l'API REST.

I nuovi worker aggiunti a un cluster utilizzeranno lo stesso tipo di macchina dei worker esistenti. Ad esempio, se un cluster viene creato con worker che utilizzano il tipo di macchina n1-standard-8, anche i nuovi worker utilizzeranno il tipo di macchina n1-standard-8.

Puoi scalare il numero di worker primari o il numero di worker secondari (preemptive) o entrambi. Ad esempio, se scali solo il numero di worker preemptive, il numero di worker primari rimane invariato.

gcloud

Per scalare un cluster con gcloud dataproc clusters update, esegui il comando seguente:

gcloud dataproc clusters update cluster-name \
    --region=region \
    [--num-workers and/or --num-secondary-workers]=new-number-of-workers

dove cluster-name è il nome del cluster da aggiornare e new-number-of-workers è il numero aggiornato di nodi worker primari e/o secondari. Ad esempio, per scalare un cluster denominato "dataproc-1" in modo che utilizzi cinque nodi worker primari, esegui il comando seguente.

gcloud dataproc clusters update dataproc-1 \
    --region=region \
    --num-workers=5
...
Waiting on operation [operations/projects/project-id/operations/...].
Waiting for cluster update operation...done.
Updated [https://dataproc.googleapis.com/...].
clusterName: my-test-cluster
...
  masterDiskConfiguration:
    bootDiskSizeGb: 500
  masterName: dataproc-1-m
  numWorkers: 5
  ...
  workers:
  - my-test-cluster-w-0
  - my-test-cluster-w-1
  - my-test-cluster-w-2
  - my-test-cluster-w-3
  - my-test-cluster-w-4
...

API REST

Vedi clusters.patch.

Esempio

PATCH /v1/projects/project-id/regions/us-central1/clusters/example-cluster?updateMask=config.worker_config.num_instances,config.secondary_worker_config.num_instances
{
  "config": {
    "workerConfig": {
      "numInstances": 4
    },
    "secondaryWorkerConfig": {
      "numInstances": 2
    }
  },
  "labels": null
}

Google Cloud

Console

Dopo aver creato un cluster, puoi scalarlo aprendo la pagina Dettagli cluster del cluster da Google Cloud console Cluster, quindi facendo clic sul pulsante Modifica nella scheda Configurazione.

Inserisci un nuovo valore per il numero di nodi worker e/o nodi worker preemptive (aggiornati rispettivamente a "5" e "2" nello screenshot seguente).

Fai clic su Salva per aggiornare il cluster.

In che modo Managed Service for Apache Spark seleziona i nodi del cluster da rimuovere

Nei cluster creati con le versioni immagine 1.5.83+, 2.0.57+, e 2.1.5+, quando riduci le dimensioni di un cluster, Managed Service for Apache Spark tenta di ridurre al minimo l'impatto della rimozione dei nodi sulle applicazioni YARN in esecuzione rimuovendo prima i nodi inattivi, non integri e inattivi, quindi rimuovendo i nodi con il minor numero di master di applicazioni YARN e container in esecuzione.

Dismissione controllata

Quando riduci le dimensioni di un cluster, il lavoro in corso potrebbe interrompersi prima del completamento. Se utilizzi Managed Service for Apache Spark v 1.2 o versioni successive, puoi utilizzare il ritiro gestito automaticamente, che incorpora il ritiro gestito dei nodi YARN per completare il lavoro in corso su un worker prima che venga rimosso dal cluster Cloud Managed Service for Apache Spark.

Dismissione controllata e worker secondari

Il gruppo di worker preemptive (secondari) continua a eseguire il provisioning o l'eliminazione dei worker per raggiungere le dimensioni previste anche dopo che un'operazione di scalabilità del cluster è stata contrassegnata come completata. Se tenti di ritirare in modo gestito un worker secondario e ricevi un messaggio di errore simile al seguente:

"Il gruppo di worker secondari non può essere modificato al di fuori di Managed Service for Apache Spark. Se hai creato o aggiornato di recente questo cluster, attendi qualche minuto prima di ritirarlo in modo gestito per consentire a tutte le istanze secondarie di unirsi al cluster o di lasciarlo. Dimensioni previste del gruppo di worker secondari: x, dimensioni effettive: y",

attendi qualche minuto, quindi ripeti la richiesta di rimozione controllata.

Utilizzare rimozione controllata

Il ritiro gestito automaticamente di Managed Service for Apache Spark incorpora il ritiro gestito dei nodi YARN per completare il lavoro in corso su un worker prima che venga rimosso dal cluster Cloud Managed Service for Apache Spark. Per impostazione predefinita, rimozione controllata è disattivata. Puoi attivarlo impostando un valore di timeout quando aggiorni il cluster per rimuovere uno o più worker dal cluster.

gcloud

Quando aggiorni un cluster per rimuovere uno o più worker, utilizza il comando gcloud dataproc clusters update con il flag --graceful-decommission-timeout. I valori di timeout (stringa) possono essere "0s" (valore predefinito; ritiro forzato, non gestito) o una durata positiva rispetto all'ora corrente (ad esempio, "3s"). La durata massima è di 1 giorno.

gcloud dataproc clusters update cluster-name \
    --region=region \
    --graceful-decommission-timeout="timeout-value" \
    [--num-workers and/or --num-secondary-workers]=decreased-number-of-workers \
    ... other args ...

API REST

Vedi clusters.patch.gracefulDecommissionTimeout. I valori di timeout (stringa) possono essere "0" (valore predefinito; ritiro forzato, non gestito) o una durata in secondi (ad esempio, "3s"). La durata massima è di 1 giorno.

Console

Dopo aver creato un cluster, puoi selezionare rimozione controllata di un cluster aprendo la pagina Dettagli cluster del cluster da la pagina Google Cloud console Cluster, quindi facendo clic sul pulsante Modifica nella scheda Configurazione.

Nella sezione Dismissione controllata, seleziona Utilizza la dismissione controllata, quindi seleziona un valore di timeout.

Fai clic su Salva per aggiornare il cluster.

Annullare un'operazione di riduzione delle dimensioni con rimozione controllata

Nei cluster Managed Service for Apache Spark creati con le versioni immagine 2.0.57+ o 2.1.5+, puoi eseguire il comando gcloud dataproc operations cancel o inviare una richiesta operations.cancel dell'API Managed Service for Apache Spark per annullare un'operazione di riduzione rimozione controllata.

Quando annulli un'operazione di riduzione delle dimensioni con rimozione controllata:

I worker in stato DECOMMISSIONING vengono riattivati e diventano ACTIVE al termine dell'annullamento dell'operazione.
Se l'operazione di riduzione delle dimensioni include aggiornamenti delle etichette, questi potrebbero non essere applicati.

Per verificare lo stato della richiesta di annullamento, puoi eseguire il gcloud dataproc operations describe comando o inviare una richiesta dell'API Managed Service for Apache Spark operations.get. Se l'operazione di annullamento va a buon fine, lo stato dell'operazione interna viene contrassegnato come CANCELLED.

Scalare i cluster Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Utilizzare la scalabilità

gcloud

API REST

Console

In che modo Managed Service for Apache Spark seleziona i nodi del cluster da rimuovere

Dismissione controllata

Dismissione controllata e worker secondari

Utilizzare rimozione controllata

gcloud

API REST

Console

Annullare un'operazione di riduzione delle dimensioni con rimozione controllata

Scalare i cluster