Propriedades do provisionador do Managed Service for Apache Spark

O provisionador do serviço gerenciado para Apache Spark no Cloud Data Fusion chama a API Dataproc para criar e excluir clusters nos seus projetos do Google Cloud. É possível configurar os clusters nas configurações do provisionador.

Para mais informações sobre a compatibilidade entre as versões do Cloud Data Fusion e do Managed Service para Apache Spark, consulte Compatibilidade de versões.

Propriedades

Propriedade Descrição
ID do projeto O projeto Google Cloud em que o cluster do Managed Service for Apache Spark é criado. O projeto precisa ter a API Dataproc ativada.
Chave da conta de serviço do criador

A chave da conta de serviço fornecida ao provisionador precisa ter permissão para acessar as APIs do Managed Service para Apache Spark e do Compute Engine. Como a chave da sua conta é sensível, recomendamos que você a forneça usando o armazenamento seguro.

Depois de criar a chave segura, adicione-a a um namespace ou a um perfil de computação do sistema. Para um perfil de computação de namespace, clique no escudo e selecione a chave segura. Para um perfil de computação do sistema, insira o nome da chave no campo Chave da conta segura.

Região Um local geográfico em que é possível hospedar seus recursos, como os nós de computação do cluster do Managed Service for Apache Spark.
Zona Uma área de implantação isolada em uma região.
Rede A rede VPC no seu projeto Google Cloud que será usada ao criar um cluster do Managed Service para Apache Spark.
ID do projeto host da rede Se a rede estiver em outro projeto do Google Cloud , insira o ID dele. Para uma VPC compartilhada, insira o ID do projeto host em que a rede reside.
Sub-rede A sub-rede a ser usada ao criar clusters. Ele precisa estar na rede especificada e na região em que a zona está. Se ficar em branco, uma sub-rede será selecionada com base na rede e na zona.
Conta de serviço do runner O nome da conta de serviço das máquinas virtuais (VMs) do serviço gerenciado para Apache Spark usadas para executar programas. Se deixado em branco, a conta de serviço padrão do Compute Engine será usada.
Número de mestres

O número de nós mestres no cluster. Esses nós contêm o YARN Resource Manager, o HDFS NameNode e todos os drivers. Precisa ser definido como 1 ou 3.

O padrão é 1.

Tipo de máquina mestre

O tipo de máquina principal a ser usada. Selecione um dos seguintes tipos de máquina:

  • n1
  • n2
  • n2d
  • e2

No Cloud Data Fusion versão 6.7.2 e mais recentes, o padrão é e2.

Na versão 6.7.1, o padrão é n2.

Na versão 6.7.0 e anteriores, o padrão é n1.

Núcleos principais

Número de núcleos virtuais alocados a um nó principal.

O padrão é 2.

Memória principal (GB)

A quantidade de memória, em gigabytes, alocada a um nó principal.

O padrão é 8 GB.

Tamanho do disco mestre (GB)

Tamanho do disco, em gigabytes, alocado para um nó principal.

O padrão é 1.000 GB.

Tipo de disco mestre

Tipo de disco de inicialização para um nó mestre:

  • Disco permanente padrão
  • Disco permanente SSD

O padrão é disco permanente padrão.

Tipo de máquina do worker

O tipo de máquina de trabalho a ser usada. Selecione um dos seguintes tipos de máquina:

  • n1
  • n2
  • n2d
  • e2

No Cloud Data Fusion versão 6.7.2 e mais recentes, o padrão é e2.

Na versão 6.7.1, o padrão é n2.

Na versão 6.7.0 e anteriores, o padrão é n1.

Núcleos de worker

Número de núcleos virtuais alocados a um nó de trabalho.

O padrão é 2.

Memória do worker (GB)

A quantidade de memória, em gigabytes, alocada a um nó de trabalho.

O padrão é 8 GB.

Tamanho do disco de trabalho (GB)

Tamanho do disco, em gigabytes, alocado para um nó de trabalho.

O padrão é 1.000 GB.

Tipo de disco de trabalho

Tipo de disco de inicialização para um nó de trabalho:

  • Disco permanente padrão
  • Disco permanente SSD

O padrão é disco permanente padrão.

Usar o escalonamento automático predefinido Permite usar o escalonamento automático predefinido do Managed Service for Apache Spark.
Número de workers principais

Os nós de worker contêm um YARN NodeManager e um HDFS DataNode.

O padrão é 2.

Número de workers secundários Os nós de worker secundário contêm um YARN NodeManager, mas não um HDFS DataNode. Normalmente, esse valor é definido como zero, a menos que uma política de escalonamento automático exija um valor maior.
Política de escalonamento automático

Caminho para o ID da política de escalonamento automático ou o URI do recurso.

Para informações sobre como configurar e usar o escalonamento automático do serviço gerenciado para Apache Spark para redimensionar de forma automática e dinâmica os clusters para atender às demandas de carga de trabalho, consulte Quando usar o escalonamento automático e Escalonar automaticamente os clusters do serviço gerenciado para Apache Spark.

Metadados Metadados adicionais para instâncias em execução no cluster. Normalmente, ele é usado para rastrear faturamento e estornos. Para mais informações, consulte Metadados do cluster.
Tags de rede Atribua tags de rede para aplicar regras de firewall aos nós específicos de um cluster. As tags de rede precisam começar com uma letra minúscula e podem conter letras minúsculas, números e hifens. Elas precisam terminar com uma letra minúscula ou um número.
Ativar a inicialização segura

Ativa a Inicialização segura nas VMs do Managed Service for Apache Spark.

O padrão é False.

Ativar o vTPM

Ativa o módulo de plataforma confiável virtual (vTPM) nas VMs do Managed Service for Apache Spark.

O padrão é False.

Ativar o monitoramento de integridade

Ativa o Monitoramento de integridade virtual nas VMs do Managed Service for Apache Spark.

O padrão é False.

Versão da imagem A versão de imagem do Managed Service for Apache Spark. Se ficar em branco, um será selecionado automaticamente. Se a propriedade URI da imagem personalizada for deixada em branco, ela será ignorada.
URI de imagem personalizada O URI da imagem do Managed Service for Apache Spark. Se ficar em branco, será inferido da propriedade versão de imagem.
Bucket de teste Bucket do Cloud Storage usado para organizar dependências de jobs e arquivos de configuração para executar pipelines no serviço gerenciado para Apache Spark.
Bucket temporário

Bucket do Cloud Storage usado para armazenar dados temporários de clusters e jobs, como arquivos de histórico do Spark no Managed Service para Apache Spark.

Essa propriedade foi introduzida na versão 6.9.2 do Cloud Data Fusion.

Nome da chave de criptografia A chave de criptografia gerenciada pelo cliente (CMEK) usada pelo Managed Service for Apache Spark.
Escopos do OAuth

Os escopos do OAuth 2.0 que talvez você precise solicitar para acessar as APIs do Google, dependendo do nível de acesso necessário. O Google Cloud escopo da plataforma está sempre incluído.

Essa propriedade foi introduzida na versão 6.9.2 do Cloud Data Fusion.

Ações de inicialização Uma lista de scripts para execução durante a inicialização do cluster. As ações de inicialização precisam ser colocadas no Cloud Storage.
Propriedades do cluster Propriedades do cluster que substituem as propriedades de configuração padrão dos serviços do Hadoop. Para mais informações sobre os pares chave-valor aplicáveis, consulte Propriedades do cluster.
Rótulos comuns

Rótulos para organizar os clusters e jobs do Managed Service for Apache Spark que estão sendo criados.

É possível rotular cada recurso e depois filtrar os recursos por rótulos. As informações sobre os rótulos são encaminhadas ao sistema de faturamento para que os clientes possam detalhar as cobranças de faturamento por rótulo.

Tempo máximo de inatividade

Configure o serviço gerenciado para Apache Spark para excluir um cluster se ele ficar inativo por mais tempo do que o número de minutos especificado. Os clusters normalmente são excluídos diretamente após o término de uma execução, mas a exclusão pode falhar em situações raras. Para mais informações, consulte Resolver problemas ao excluir clusters.

O padrão é 30 minutos.

Pular exclusão de cluster

Se a exclusão do cluster deve ser ignorada no final de uma execução. É necessário excluir os clusters manualmente. Isso só deve ser usado ao depurar uma execução com falha.

O padrão é False.

Ativar a integração do Stackdriver Logging

Ative a integração do Stackdriver Logging.

O padrão é True.

Ativar a integração do Stackdriver Monitoring

Ative a integração do Stackdriver Monitoring.

O padrão é True.

Ativar o gateway de componentes

Ative o gateway de componentes para acessar as interfaces do cluster, como o YARN ResourceManager e o Spark HistoryServer.

O padrão é False.

Preferir IP externo

Quando o sistema está sendo executado em Google Cloud na mesma rede que o cluster, ele normalmente usa o endereço IP interno ao se comunicar com o cluster. Para sempre usar o endereço IP externo, defina esse valor como True.

O padrão é False.

Criar atraso de pesquisa

O número de segundos de espera após a criação de um cluster para começar a sondar e verificar se ele foi criado.

O padrão é 60 segundos.

As configurações de polling controlam a frequência com que o status do cluster é pesquisado ao criar e excluir clusters. Se você tiver muitos pipelines programados para serem executados ao mesmo tempo, talvez queira mudar essas configurações.

Criar jitter de pesquisa

Quantidade máxima de jitter aleatório, em segundos, a ser adicionada ao atraso ao criar um cluster. Use essa propriedade para evitar muitas chamadas de API simultâneas em Google Cloud quando você tem muitos pipelines programados para serem executados exatamente ao mesmo tempo.

O padrão é 20 segundos.

Atraso na exclusão da enquete

O número de segundos a aguardar após excluir um cluster para começar a fazer pesquisas e verificar se ele foi excluído.

O padrão é 30 segundos.

Intervalo de sondagem

O número de segundos para aguardar entre as pesquisas de status do cluster.

O padrão é 2.

Propriedades da interface da Web do perfil do Managed Service for Apache Spark mapeadas para propriedades JSON

Nome da propriedade da UI usuário do perfil do Managed Service for Apache Spark Nome da propriedade JSON do perfil do Managed Service for Apache Spark
Rótulo do perfil name
Nome do perfil label
Descrição description
ID do projeto projectId
Chave da conta de serviço do criador accountKey
Região region
Zona zone
Rede network
ID do projeto host da rede networkHostProjectId
Sub-rede subnet
Conta de serviço do runner serviceAccount
Número de mestres masterNumNodes
Tipo de máquina mestre masterMachineType
Núcleos principais masterCPUs
Memória principal (GB) masterMemoryMB
Tamanho do disco mestre (GB) masterDiskGB
Tipo de disco mestre masterDiskType
Número de workers principais workerNumNodes
Número de workers secundários secondaryWorkerNumNodes
Tipo de máquina do worker workerMachineType
Núcleos de worker workerCPUs
Memória do worker (GB) workerMemoryMB
Tamanho do disco de trabalho (GB) workerDiskGB
Tipo de disco de trabalho workerDiskType
Metadados clusterMetaData
Tags de rede networkTags
Ativar a inicialização segura secureBootEnabled
Ativar o vTPM vTpmEnabled
Ativar o monitoramento de integridade integrityMonitoringEnabled
Versão da imagem imageVersion
URI de imagem personalizada customImageUri
Bucket do Cloud Storage gcsBucket
Nome da chave de criptografia encryptionKeyName
Política de escalonamento automático autoScalingPolicy
Ações de inicialização initActions
Propriedades do cluster clusterProperties
Marcadores clusterLabels
Tempo máximo de inatividade idleTTL
Pular exclusão de cluster skipDelete
Ativar a integração do Stackdriver Logging stackdriverLoggingEnabled
Ativar a integração do Stackdriver Monitoring stackdriverMonitoringEnabled
Ativar o gateway de componentes componentGatewayEnabled
Preferir IP externo preferExternalIP
Criar atraso de pesquisa pollCreateDelay
Criar jitter de pesquisa pollCreateJitter
Atraso na exclusão da enquete pollDeleteDelay
Intervalo de sondagem pollInterval

Práticas recomendadas

Ao criar um cluster estático para seus pipelines, consulte as práticas recomendadas de configuração de cluster.

A seguir