Clusters de nó único

Os clusters de nó único são clusters do Dataproc com apenas um nó. Este único nó funciona como o nó principal e o nó de trabalho para o seu cluster do Dataproc. Embora os clusters de nó único tenham apenas um nó, a maioria dos conceitos e funcionalidades do Dataproc ainda se aplica, exceto os indicados abaixo.

Existem várias situações em que os clusters do Dataproc de nó único podem ser úteis, incluindo:

  • Experimentar novas versões do Spark e do Hadoop ou outros componentes de código aberto
  • Criar demonstrações de validação de conceito (PoC)
  • Ciência de dados leve
  • Tratamento de dados não críticos em pequena escala
  • Educação relacionada com o ecossistema Spark e Hadoop

Semântica de cluster de nó único

A semântica seguinte aplica-se a clusters do Dataproc de nó único:

  • Os clusters de nó único são configurados da mesma forma que os clusters Dataproc de vários nós e incluem serviços como o HDFS e o YARN.
  • Os clusters de nó único são comunicados como nós principais para ações de inicialização.
  • Os clusters de nó único mostram 0 trabalhadores, uma vez que o nó único funciona como mestre e trabalhador.
  • Os clusters de nó único recebem nomes de anfitriões que seguem o padrão clustername-m. Pode usar este nome de anfitrião para executar o SSH ou ligar-se a uma IU Web no nó.
  • Não é possível atualizar clusters de nó único para clusters de vários nós. Depois de criados, os clusters de nó único estão restritos a um nó. Da mesma forma, não é possível reduzir a escala de clusters com vários nós para clusters com um único nó.

Limitações

  • Os clusters de nó único não são recomendados para o processamento de dados paralelos em grande escala. Se exceder os recursos num cluster de nó único, recomendamos um cluster do Dataproc de vários nós.

  • Os clusters de nó único não estão disponíveis com a alta disponibilidade , uma vez que só existe um nó no cluster.

  • Os clusters de nó único não podem usar VMs com capacidade de interrupção.

Crie um cluster de nó único

comando gcloud

Pode criar um cluster Dataproc de nó único através da ferramenta de linha de comandos.gcloud Para criar um cluster de nó único, transmita a flag --single-node ao comando gcloud dataproc clusters create.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --single-node \
    ... other args

API REST

Pode criar um cluster de nó único através da API REST Dataproc com um pedido clusters.create. Ao fazer este pedido, tem de:

  1. Adicione a propriedade "dataproc:dataproc.allow.zero.workers":"true" ao elemento SoftwareConfig do pedido de cluster.
  2. Não envie valores para workerConfig e secondaryWorkerConfig (consulte ClusterConfig).

Consola

Pode criar um cluster de nó único selecionando "Nó único (1 principal, 0 trabalhadores)" na secção Tipo de cluster do painel Configurar cluster na página Criar um cluster do Dataproc.