I cluster a nodo singolo sono cluster Dataproc con un solo nodo. Questo nodo singolo funge da master e worker per il cluster Dataproc. Sebbene i cluster a nodo singolo abbiano un solo nodo, la maggior parte dei concetti e delle funzionalità di Dataproc si applica ancora, ad eccezione di quelli elencati di seguito.
Esistono diverse situazioni in cui i cluster Dataproc a nodo singolo possono essere utili, tra cui:
- Provare nuove versioni di Spark e Hadoop o altri componenti open source
- Creare dimostrazioni di proof of concept (PoC)
- Data science leggera
- Elaborazione di dati non critici su piccola scala
- Formazione relativa all'ecosistema Spark e Hadoop
Semantica dei cluster a nodo singolo
La seguente semantica si applica ai cluster Dataproc a nodo singolo:
- I cluster a nodo singolo sono configurati come i cluster Dataproc multi-nodo e includono servizi come HDFS e YARN.
- I cluster a nodo singolo vengono segnalati come nodi master per le azioni di inizializzazione.
- I cluster a nodo singolo mostrano 0 worker perché il nodo singolo funge sia da master sia da worker.
- Ai cluster a nodo singolo vengono assegnati nomi host che seguono il pattern
clustername-m. Puoi utilizzare questo nome host per eseguire SSH o connetterti a un' interfaccia utente web sul nodo. - Non è possibile eseguire l'upgrade dei cluster a nodo singolo a cluster multi-nodo. Una volta creati, i cluster a nodo singolo sono limitati a un nodo. Allo stesso modo, non è possibile ridurre la scalabilità dei cluster multi-nodo a cluster a nodo singolo.
Limitazioni
I cluster a nodo singolo non sono consigliati per l'elaborazione di dati parallela su larga scala. Se superi le risorse di un cluster a nodo singolo, è consigliabile utilizzare un cluster Dataproc multi-nodo.
I cluster a nodo singolo non sono disponibili con l'alta disponibilità perché nel cluster è presente un solo nodo.
I cluster a nodo singolo non possono utilizzare le VM preemptible.
Creare un cluster a nodo singolo
Comando g-cloud
Puoi creare un cluster Dataproc a nodo singolo utilizzando lo strumento a riga di comando gcloud. Per creare un cluster a nodo singolo, passa il
--single-node flag al
gcloud dataproc clusters create
comando.
gcloud dataproc clusters create cluster-name \ --region=region \ --single-node \ ... other args
API REST
Puoi creare un cluster a nodo singolo tramite l' API REST Dataproc utilizzando una clusters.create. Quando effettui questa richiesta, devi:
- Aggiungere la proprietà
"dataproc:dataproc.allow.zero.workers":"true"a SoftwareConfig della richiesta del cluster. - Non inviare valori per
workerConfigesecondaryWorkerConfig(vedi ClusterConfig).
Console
Puoi creare un cluster a nodo singolo selezionando "Nodo singolo (1 master, 0 worker)" nella sezione Tipo di cluster di il riquadro Configura cluster nella pagina Dataproc Crea un cluster.