I cluster a nodo singolo sono cluster Managed Service for Apache Spark con un solo nodo. Questo singolo nodo funge da master e worker per il tuo cluster Managed Service for Apache Spark. Mentre i cluster a singolo nodo hanno un solo nodo, la maggior parte dei concetti e delle funzionalità di Managed Service for Apache Spark sono comunque applicabili, ad eccezione di quelli elencati di seguito.
Esistono diverse situazioni in cui i cluster Managed Service for Apache Spark a singolo nodo possono essere utili, tra cui:
- Prova di nuove versioni di Spark e Hadoop o di altri componenti open source
- Creazione di dimostrazioni proof of concept (PoC)
- Data science leggera
- Trattamento dati non critico su piccola scala
- Formazione relativa all'ecosistema Spark e Hadoop
Semantica del cluster a nodo singolo
Le seguenti semantiche si applicano ai cluster Managed Service for Apache Spark a un singolo nodo:
- I cluster a singolo nodo sono configurati come i cluster Managed Service for Apache Spark multinodo e includono servizi come HDFS e YARN.
- I cluster a nodo singolo vengono segnalati come nodi master per le azioni di inizializzazione.
- I cluster a nodo singolo mostrano 0 worker perché il singolo nodo funge da master e da worker.
- Ai cluster a un solo nodo vengono assegnati nomi host che seguono il pattern
clustername-m. Puoi utilizzare questo nome host per eseguire SSH o connetterti a una UI web sul nodo. - I cluster a nodo singolo non possono essere sottoposti ad upgrade a cluster multi-nodo. Una volta creati, i cluster a nodo singolo sono limitati a un solo nodo. Allo stesso modo, i cluster multinodo non possono essere ridotti a cluster a nodo singolo.
Limitazioni
I cluster a nodo singolo non sono consigliati per l'elaborazione parallela di dati su larga scala. Se superi le risorse su un cluster a un singolo nodo, è consigliabile un cluster Managed Service for Apache Spark multi-nodo.
I cluster a nodo singolo non sono disponibili con alta disponibilità poiché nel cluster è presente un solo nodo.
I cluster a nodo singolo non possono utilizzare le VM preemptible.
Crea un cluster a nodo singolo
Console
- Apri la pagina Crea cluster.
- Nella sezione Definisci la forma del cluster, seleziona Sviluppo.
- Nella sezione Configurazione aggiuntiva, modifica Nodo driver, deseleziona la casella di controllo Imposta il nodo driver come il worker principale, quindi conferma o modifica le impostazioni del nodo driver.
Comando g-cloud
Puoi creare un cluster Managed Service for Apache Spark a nodo singolo utilizzando lo strumento a riga di comando gcloud. Per creare un cluster a un solo nodo, passa il flag
--single-node al comando
gcloud dataproc clusters create.
gcloud dataproc clusters create cluster-name \ --region=region \ --single-node \ ... other args
API REST
Puoi creare un cluster a un solo nodo tramite l'API REST Dataproc utilizzando una richiesta clusters.create. Quando effettui questa richiesta, devi:
- Aggiungi la proprietà
"dataproc:dataproc.allow.zero.workers":"true"a SoftwareConfig della richiesta del cluster. - Non inviare valori per
workerConfigesecondaryWorkerConfig(vedi ClusterConfig).