"Managed Service for Apache Spark" è il nuovo nome del prodotto precedentemente noto come "Dataproc on Compute Engine" (deployment del cluster) e "Google Cloud Serverless for Apache Spark" (deployment serverless).

Utilizzare i selettori di cluster con i flussi di lavoro

In alternativa all'esecuzione di un flusso di lavoro su un cluster gestito, puoi utilizzare un selettore di cluster per scegliere un cluster esistente per il flusso di lavoro. Al termine del flusso di lavoro, il cluster selezionato non viene eliminato.

I selettori specificano una o più etichette utente di Managed Service per Apache Spark. I cluster nella stessa regione del flusso di lavoro le cui etichette corrispondono a tutte le etichette del selettore sono idonei per l'esecuzione dei job del flusso di lavoro. Se più cluster corrispondono al selettore, Managed Service per Apache Spark sceglierà il cluster con la maggiore quantità di memoria YARN libera.

Aggiungere un selettore di cluster a un modello

Puoi aggiungere un selettore di cluster a un modello di flusso di lavoro utilizzando Google Cloud CLI o l'API Dataproc.

Comando g-cloud

gcloud dataproc workflow-templates set-cluster-selector template-id \
    --region=region \
    --cluster-labels=name=value[[,name=value]...]

API REST

Consulta WorkflowTemplatePlacement.ClusterSelector. Questo campo viene fornito come parte di un completato WorkflowTemplate inviato con una workflowTemplates.create o workflowTemplates.update richiesta.

Console

Puoi visualizzare i modelli di flusso di lavoro esistenti e i flussi di lavoro con istanze create da Managed Service per Apache Spark Flussi di lavoro nella pagina della Google Cloud console.

Utilizzare le etichette applicate automaticamente

Puoi indirizzare un selettore di cluster a un cluster esistente utilizzando una delle seguenti etichette di cluster applicate automaticamente:

goog-dataproc-cluster-name
goog-dataproc-cluster-uuid

Esempio:

gcloud dataproc workflow-templates set-cluster-selector template-id \
    --region=region \
    --cluster-labels=goog-dataproc-cluster-name=my-cluster

Selezionare da un pool di cluster

Puoi consentire a Managed Service per Apache Spark di scegliere un cluster da un pool di cluster. I pool di cluster possono essere definiti con le etichette.