"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Priorizar tipos de VM com VMs flexíveis

As VMs flexíveis são um recurso do Serviço Gerenciado para Apache Spark que permite especificar listas priorizadas de tipos de VM para nós principais, primários e de trabalho secundários do Serviço Gerenciado para Apache Spark ao criar um cluster do Serviço Gerenciado para Apache Spark.

Por que usar VMs flexíveis?

Antes, se um tipo de VM não estivesse disponível quando você enviava uma solicitação de criação de cluster, ela falhava, e era necessário atualizar a solicitação, o script ou o código para especificar um tipo de VM "melhor seguinte". Esse processo de nova solicitação pode envolver várias iterações até que você especifique um tipo de VM disponível.

O recurso de VM flexível do Serviço gerenciado para Apache Spark ajuda a solicitação de criação de cluster a ser bem-sucedida. Para isso, ele seleciona os tipos de VM de worker mestre, principal e secundário nas listas classificadas de VMs e pesquisa zonas na região especificada do cluster com disponibilidade dos tipos de VM listados.

Limitações

Não é possível parar clusters que usam VMs flexíveis.

Terminologia

Tipo de VM: a família, a capacidade de memória e o número de núcleos de CPU de uma instância de VM. O Serviço Gerenciado para Apache Spark é compatível com o uso de tipos de VM predefinidos e personalizados.
Nós mestre e de worker principal: um cluster tem um nó mestre e pelo menos dois workers principais.
Workers secundários: os workers secundários são opcionais e não armazenam dados. Elas funcionam apenas como nós de processamento. É possível usar workers secundários para escalonar a computação sem escalonar o armazenamento. O tipo padrão de worker secundário de VM flexível é uma VM spot, que é um tipo preemptivo. Consulte Workers secundários do Serviço Gerenciado para Apache Spark.

Uso

As VMs flexíveis estão disponíveis no Serviço Gerenciado para Apache Spark no Compute Engine 2.0.74+, 2.1.76+, 2.2.42+ e versões de imagem mais recentes.
A criação de um cluster com VMs flexíveis de worker principal ou mestre leva mais tempo (aproximadamente 32 segundos a mais).
O nome do cluster não pode ter mais de 45 caracteres.
O mesmo tipo de disco é necessário para todos os tipos de VM.
É possível especificar até cinco listas de tipos de VM classificadas, com até 10 tipos de VM em uma lista. Para mais informações, consulte Como solicitar VMs flexíveis.
A criação de um cluster com VMs flexíveis exige o uso do posicionamento automático de zona do Serviço Gerenciado para Apache Spark, que permite que o Serviço Gerenciado para Apache Spark escolha a zona com capacidade para atender às solicitações de tipo de VM.
Se a solicitação de criação de cluster incluir uma política de escalonamento automático, as VMs flexíveis podem ser de diferentes famílias de VMs, mas precisam ter a mesma quantidade de memória e contagem de núcleos.
Ao provisionar VMs flexíveis, o Serviço gerenciado para Apache Spark consome reservas "correspondentes" disponíveis, mas não reservas "específicas" (consulte Consumir instâncias reservadas). Os tipos de máquinas que correspondem às reservas são selecionados primeiro em um ranking, seguidos pelos tipos de VM com o maior número de CPUs.
O Serviço Gerenciado para Apache Spark aplica Google Cloud cotas ao provisionamento flexível de VMs.
Embora seja possível especificar diferentes proporções de CPU para memória para tipos de trabalhadores primários e secundários em um cluster, isso pode levar à degradação da performance, porque a menor proporção de CPU para memória é usada como a menor unidade de contêiner.
Use uma proporção uniforme de CPU para memória para trabalhadores primários e secundários, incluindo VMs flexíveis.
Se você atualizar um cluster criado com VMs flexíveis, o Serviço Gerenciado para Apache Spark vai selecionar e adicionar workers das listas de VMs flexíveis fornecidas ao criar o cluster.

Como solicitar VMs flexíveis

É possível especificar VMs flexíveis ao criar um cluster do Serviço Gerenciado para Apache Spark usando o console Google Cloud , a Google Cloud CLI ou a API Serviço Gerenciado para Apache Spark.

É possível especificar até cinco listas de tipos de VM classificadas, com até 10 tipos de VM em uma lista. As listas com classificação mais baixa têm a prioridade mais alta. Por padrão, as listas de VMs flexíveis têm classificação 0. Em uma lista, o Serviço Gerenciado para Apache Spark prioriza tipos de VM com reservas não utilizadas, seguidos pelos maiores tamanhos de VM. Os tipos de VM em uma lista com a mesma contagem de CPU são tratados da mesma forma.

Console

Para criar um cluster com VMs flexíveis de worker secundário, faça o seguinte:

Abra a página Criar um cluster no Compute Engine do Serviço Gerenciado para Apache Spark no console do Google Cloud .
O painel Configurar cluster é selecionado com campos preenchidos com valores padrão. É possível mudar o nome sugerido e a região do cluster, além de fazer outras alterações. Verifique se Qualquer está selecionado como a Zona do cluster para permitir que a colocação em zona automática do Serviço Gerenciado para Apache Spark escolha a zona com a melhor disponibilidade dos tipos de VM especificados nas suas listas de VMs flexíveis.
Selecione o painel Configurar nós. Na seção Nós de workers secundários, especifique o número e a capacidade de preempção dos workers secundários.
- Clique em Adicionar um worker secundário para cada classificação de workers secundários, especificando um ou mais tipos de máquinas para incluir em cada classificação.
Depois de confirmar e especificar os detalhes do cluster nos painéis de criação, clique em Criar.

gcloud

Use o comando gcloud dataproc clusters create para adicionar várias flags master-machine-types, worker-machine-types e secondary-worker-machine-types e especificar listas de VMs flexíveis classificadas para workers principais, primários e secundários.

O exemplo a seguir solicita tipos de VM principal, primária e secundária com as seguintes prioridades:

Provisione e2-standard-8 VMs, se disponíveis (classificação 0). Se e2-standard-8 máquinas não estiverem disponíveis, provisione n2-standard-8 VMs (classificação 1).

Como o tipo de worker secundário não está especificado, as VMs secundárias spot preemptivas serão provisionadas.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --zone="" \
    --master-machine-types="type=e2-standard-8,rank=0" \
    --master-machine-types="type=n2-standard-8,rank=1" \
    --num-workers=10 \
    --worker-machine-types="type=e2-standard-8,rank=0" \
    --worker-machine-types="type=n2-standard-8,rank=1" \
    --num-secondary-workers=4 \
    --secondary-worker-machine-types="type=e2-standard-8,rank=0" \
    --secondary-worker-machine-types="type=n2-standard-8,rank=1"

Observações:

--zone="": o recurso de VM flexível exige o posicionamento automático de zona do Serviço Gerenciado para Apache Spark para permitir que o serviço escolha a zona que tem seus tipos de VM disponíveis para uso. Transmitir um valor vazio ("") à flag --zone substitui qualquer seleção de zona especificada no gcloud config list padrão.

API

Use o instanceFlexibilityPolicy.instanceSelectionList como parte de uma solicitação de API clusters.create do Serviço Gerenciado para Apache Spark para especificar uma lista classificada de machineTypes para mestres, workers primários e secundários.

Exemplo: o snippet JSON a seguir de um corpo da solicitação clusters.create especifica os tipos de máquina mestre (masterConfig), de trabalho principal (workerConfig) e de trabalho secundário (secondaryWorkerConfig) com classificação 0 e 1.

{
  "projectId": "PROJECT_ID",
  "clusterName": "CLUSTER_NAME",
  "config": {
    "gceClusterConfig": {
      "zoneUri": ""
    },
    "masterConfig": {
      "numInstances": 1,
      "instanceFlexibilityPolicy": {
        "instanceSelectionList": [
          {
            "machineTypes": ["e2-standard-8"],
            "rank": 0
          },
          {
            "machineTypes": ["n2-standard-8"],
            "rank": 1
          }
        ]
      }
    },
    "workerConfig": {
      "numInstances": 10,
      "instanceFlexibilityPolicy": {
        "instanceSelectionList": [
          {
            "machineTypes": ["e2-standard-8"],
            "rank": 0
          },
          {
            "machineTypes": ["n2-standard-8"],
            "rank": 1
          }
        ]
      }
    },
    "secondaryWorkerConfig": {
      "numInstances": 4,
      "instanceFlexibilityPolicy": {
        "instanceSelectionList": [
          {
            "machineTypes": ["e2-standard-8"],
            "rank": 0
          },
          {
            "machineTypes": ["n2-standard-8"],
            "rank": 1
          }
        ]
      }
    }
  }
}

Substituir propriedades da VM flexível

O Serviço Gerenciado para Apache Spark define propriedades no nível do cluster. Ao criar um cluster que usa VMs flexíveis, é possível substituir as propriedades geradas pelo sistema para tipos de VM flexíveis de worker primário e secundário.

gcloud

Para substituir propriedades ao criar um cluster, use a flag --properties com a seguinte sintaxe:

--properties="$ROLE:$MACHINE_TYPE:$COMPONENT_PREFIX:$COMPONENT_PROPERTY=$VALUE"

ROLE pode ser primary_worker ou secondary_worker.
Separe várias propriedades com uma vírgula.

Execute o comando gcloud dataproc clusters create a seguir para substituir o número de vCPUs que o YARN aloca para o NodeManager em workers secundários. Este exemplo define o valor yarn.nodemanager.resource.cpu-vcores em yarn-site.xml como 6 para todas as VMs de worker secundário e2-standard-8 e n2-standard-8.

gcloud dataproc clusters create CLUSTER_NAME \
    --num-workers=10 \
    --num-secondary-workers=4 \
    --worker-machine-types="type=e2-standard-8,rank=0" \
    --worker-machine-types="type=n2-standard-8,rank=1" \
    --master-machine-types="type=e2-standard-8,rank=0" \
    --master-machine-types="type=n2-standard-8,rank=1" \
    --secondary-worker-machine-types="type=e2-standard-8,rank=0" \
    --secondary-worker-machine-types="type=n2-standard-8,rank=1" \
    --region=us-central1 \
    --zone="" \
    --properties="secondary_worker:e2-standard-8:yarn:yarn.nodemanager.resource.cpu-vcores=6,secondary_worker:n2-standard-8:yarn:yarn.nodemanager.resource.cpu-vcores=6"

API

Para substituir propriedades, defina-as no campo properties do objeto SoftwareConfig na solicitação de criação do cluster.

Use a seguinte sintaxe para a chave da propriedade:

ROLE:MACHINE_TYPE:COMPONENT_PREFIX:COMPONENT_PROPERTY

ROLE pode ser primary_worker ou secondary_worker.

O objeto SoftwareConfig a seguir substitui o número de vCPUs que o YARN aloca para o NodeManager em workers secundários. Este exemplo define o valor yarn.nodemanager.resource.cpu-vcores como 6 para todas as VMs de worker secundárias e2-standard-8 e n2-standard-8.

{
  "imageVersion":"2.2.42",
  "properties": {
    "secondary_worker:e2-standard-8:yarn:yarn.nodemanager.resource.cpu-vcores" : "6",
    "secondary_worker:n2-standard-8:yarn:yarn.nodemanager.resource.cpu-vcores" : "6"
  }
}

A seguir

Saiba mais sobre as propriedades do cluster do Serviço Gerenciado para Apache Spark.
Saiba como criar um cluster do Serviço Gerenciado para Apache Spark.

Priorizar tipos de VM com VMs flexíveis Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Por que usar VMs flexíveis?

Limitações

Terminologia

Uso

Como solicitar VMs flexíveis

Console

gcloud

API

Substituir propriedades da VM flexível

gcloud

API

A seguir

Priorizar tipos de VM com VMs flexíveis