Utilizzare i selettori di cluster con i flussi di lavoro

In alternativa all'esecuzione di un workflow su un cluster gestito, puoi utilizzare un selettore di cluster per scegliere un cluster esistente per il tuo workflow. Al termine del workflow, il cluster selezionato non viene eliminato.

I selettori specificano una o più etichette utente di Managed Service for Apache Spark. I cluster nella stessa regione del workflow le cui etichette corrispondono a tutte le etichette del selettore sono idonei per l'esecuzione dei job del workflow. Se più cluster corrispondono al selettore, Managed Service for Apache Spark sceglierà il cluster con la maggiore quantità di memoria YARN libera.

Aggiungere un selettore di cluster a un modello

Puoi aggiungere un selettore di cluster a un modello di flusso di lavoro utilizzando Google Cloud CLI o l'API Dataproc.

Comando g-cloud

gcloud dataproc workflow-templates set-cluster-selector template-id \
    --region=region \
    --cluster-labels=name=value[[,name=value]...]

API REST

Vedi WorkflowTemplatePlacement.ClusterSelector. Questo campo viene fornito nell'ambito di un WorkflowTemplate completato inviato con una richiesta workflowTemplates.create o workflowTemplates.update.

Console

Puoi visualizzare i modelli di workflow esistenti e i workflow con istanze create dalla pagina Workflow di Managed Service for Apache Spark nella console Google Cloud .

Utilizzare le etichette applicate automaticamente

Puoi indirizzare un selettore di cluster a un cluster esistente utilizzando una delle seguenti etichette di cluster applicate automaticamente:

  • goog-dataproc-cluster-name
  • goog-dataproc-cluster-uuid

Esempio:

gcloud dataproc workflow-templates set-cluster-selector template-id \
    --region=region \
    --cluster-labels=goog-dataproc-cluster-name=my-cluster

Selezionare da un pool di cluster

Puoi consentire a Managed Service for Apache Spark di scegliere un cluster da un pool di cluster. I pool di cluster possono essere definiti con le etichette.

Esempio:

gcloud dataproc clusters create cluster-1 --labels cluster-pool=pool-1 \
    --region=region
gcloud dataproc clusters create cluster-2 --labels cluster-pool=pool-1 \
    --region=region
gcloud dataproc clusters create cluster-3 --labels cluster-pool=pool-2 \
    --region=region

Dopo la creazione del cluster…

gcloud dataproc workflow-templates create my-template \
    --region=region
gcloud dataproc workflow-templates set-cluster-selector my-template \
    --region=region \
    --cluster-labels=cluster-pool=pool-1

Il flusso di lavoro verrà eseguito su cluster-1 o cluster-2, ma non su cluster-3.