"Managed Service for Apache Spark" è il nuovo nome del prodotto precedentemente noto come "Dataproc on Compute Engine" (deployment del cluster) e "Google Cloud Serverless for Apache Spark" (deployment serverless).

Cluster a nodo singolo

I cluster a nodo singolo sono cluster Managed Service for Apache Spark con un solo nodo. Questo singolo nodo funge da master e worker per il cluster Managed Service for Apache Spark. Sebbene i cluster a nodo singolo abbiano un solo nodo, la maggior parte dei concetti e delle funzionalità di Managed Service for Apache Spark sono comunque applicabili, ad eccezione di quelli elencati di seguito.

Esistono diverse situazioni in cui i cluster Managed Service for Apache Spark a nodo singolo possono essere utili, tra cui:

Provare nuove versioni di Spark e Hadoop o altri componenti open source
Creare dimostrazioni di proof of concept (PoC)
Data science leggera
Trattamento di dati non critici su piccola scala
Formazione relativa all'ecosistema Spark e Hadoop

Semantica dei cluster a nodo singolo

Le seguenti semantiche si applicano ai cluster Managed Service for Apache Spark a nodo singolo:

I cluster a nodo singolo sono configurati come i cluster Managed Service for Apache Spark multi-nodo e includono servizi come HDFS e YARN.
I cluster a nodo singolo vengono segnalati come nodi master per le azioni di inizializzazione.
I cluster a nodo singolo mostrano 0 worker perché il singolo nodo funge sia da master che da worker.
Ai cluster a nodo singolo vengono assegnati nomi host che seguono il pattern clustername-m. Puoi utilizzare questo nome host per eseguire SSH o connetterti a un' interfaccia utente web sul nodo.
Non è possibile eseguire l'upgrade dei cluster a nodo singolo a cluster multi-nodo. Una volta creati, i cluster a nodo singolo sono limitati a un nodo. Allo stesso modo, non è possibile ridurre la scalabilità dei cluster multi-nodo a cluster a nodo singolo.

Limitazioni

I cluster a nodo singolo non sono consigliati per il trattamento di dati paralleli su larga scala. Se superi le risorse di un cluster a nodo singolo, è consigliabile utilizzare un cluster Managed Service for Apache Spark multi-nodo.
I cluster a nodo singolo non sono disponibili con l'alta disponibilità perché nel cluster è presente un solo nodo.
I cluster a nodo singolo non possono utilizzare VM preemptible.

Creare un cluster a nodo singolo

Comando g-cloud

Puoi creare un cluster Managed Service for Apache Spark a nodo singolo utilizzando lo strumento a riga di comando gcloud. Per creare un cluster a nodo singolo, passa il --single-node flag al gcloud dataproc clusters create comando.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --single-node \
    ... other args

API REST

Puoi creare un cluster a nodo singolo tramite l' API REST Managed Service for Apache Spark utilizzando una clusters.create. Quando effettui questa richiesta, devi:

Aggiungere la proprietà "dataproc:dataproc.allow.zero.workers":"true" a SoftwareConfig della richiesta del cluster.
Non inviare valori per workerConfig e secondaryWorkerConfig (vedi ClusterConfig).

Console

Puoi creare un cluster a nodo singolo selezionando "Nodo singolo (1 master, 0 worker)" nella sezione Tipo di cluster del riquadro Configura cluster nella pagina Managed Service for Apache Spark Crea un cluster.