"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

O Google usa tecnologia de IA na tradução de conteúdos para seu idioma de preferência. As traduções com IA podem ter erros.

Criar um cluster do Managed Service for Apache Spark com escalonamento automático para zero

Este documento descreve como criar um cluster de escala zero do Serviço Gerenciado para Apache Spark.

Os clusters de escala zero do Serviço Gerenciado para Apache Spark oferecem uma maneira econômica de usar clusters do Serviço Gerenciado para Apache Spark. Ao contrário dos clusters padrão do Serviço Gerenciado para Apache Spark que exigem pelo menos dois workers principais, os clusters de escala zero do Serviço Gerenciado para Apache Spark usam apenas workers secundários que podem ser reduzidos a zero.

Os clusters de escala zero do Serviço Gerenciado para Apache Spark são ideais para uso como clusters de longa duração que passam por períodos de inatividade, como um cluster que hospeda um notebook do Jupiter. Eles oferecem melhor utilização de recursos com o uso de políticas de escalonamento automático de escala zero.

Características e limitações

Um cluster de escala zero do Serviço Gerenciado para Apache Spark compartilha semelhanças com um cluster padrão, mas tem as seguintes características e limitações exclusivas:

Requer a versão de imagem 2.2.53 ou mais recente.
Oferece suporte apenas a workers secundários, não a workers principais.
Inclui serviços como o YARN, mas não oferece suporte ao sistema de arquivos HDFS.
- Para usar o Cloud Storage como o sistema de arquivos padrão, defina a core:fs.defaultFS propriedade do cluster como um local de bucket do Cloud Storage (gs://BUCKET_NAME).
- Se você desativar um componente durante a criação do cluster, também desative o HDFS.
Não pode ser convertido em um cluster padrão ou dele.
Requer uma política de escalonamento automático para tipos de cluster ZERO_SCALE.
Requer a seleção de VMs flexíveis como tipo de máquina.
Não oferece suporte ao componente Oozie.
Não pode ser criado no Google Cloud console.

Opcional: configurar uma política de escalonamento automático

É possível configurar uma política de escalonamento automático para definir o escalonamento de trabalho secundário para um cluster de escala zero. Ao fazer isso, observe o seguinte:

Defina o tipo de cluster como ZERO_SCALE.
Configure uma política de escalonamento automático apenas para a configuração do worker secundário.

Para mais informações, consulte Criar uma política de escalonamento automático.

Criar um cluster de escala zero do Serviço Gerenciado para Apache Spark

Crie um cluster de escala zero usando a CLI gcloud ou a API Dataproc.

gcloud

Execute o gcloud dataproc clusters create comando localmente em uma janela de terminal ou no Cloud Shell.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --cluster-type=zero-scale \
    --autoscaling-policy=AUTOSCALING_POLICY \
    --properties=core:fs.defaultFS=gs://BUCKET_NAME \
    --secondary-worker-machine-types="type=MACHINE_TYPE1[,type=MACHINE_TYPE2...][,rank=RANK]"
    ...other args

Substitua:

CLUSTER_NAME: nome do cluster de escala zero do Serviço Gerenciado para Apache Spark.
REGION: uma região disponível do Compute Engine.
AUTOSCALING_POLICY: o ID ou URI do recurso da política de escalonamento automático.
BUCKET_NAME: nome do bucket do Cloud Storage.
MACHINE_TYPE: tipo de máquina específico do Compute Engine, como n1-standard-4, e2-standard-8.
RANK: define a prioridade de uma lista de tipos de máquina.

REST

Crie um cluster de escala zero usando uma solicitação cluster.create da API REST do Serviço Gerenciado para Apache Spark:

Defina ClusterConfig.ClusterType para o secondaryWorkerConfig como ZERO_SCALE.
Defina AutoscalingConfig.policyUri com o ZERO_SCALE ID da política de escalonamento automático.
Adicione a core:fs.defaultFS:gs://BUCKET_NAME SoftwareConfig.property. Substitua BUCKET_NAME pelo nome do seu bucket do Cloud Storage.

A seguir

Saiba mais sobre o escalonamento automático do Serviço Gerenciado para Apache Spark.