O provisionador do serviço gerenciado para Apache Spark no Cloud Data Fusion chama a API Dataproc para criar e excluir clusters nos seus projetos do Google Cloud. É possível configurar os clusters nas configurações do provisionador.
Para mais informações sobre a compatibilidade entre as versões do Cloud Data Fusion e do Managed Service para Apache Spark, consulte Compatibilidade de versões.
Propriedades
| Propriedade | Descrição |
|---|---|
| ID do projeto | O projeto Google Cloud em que o cluster do Managed Service for Apache Spark é criado. O projeto precisa ter a API Dataproc ativada. |
| Chave da conta de serviço do criador | A chave da conta de serviço fornecida ao provisionador precisa ter permissão para acessar as APIs do Managed Service para Apache Spark e do Compute Engine. Como a chave da sua conta é sensível, recomendamos que você a forneça usando o armazenamento seguro. Depois de criar a chave segura, adicione-a a um namespace ou a um perfil de computação do sistema. Para um perfil de computação de namespace, clique no escudo e selecione a chave segura. Para um perfil de computação do sistema, insira o nome da chave no campo Chave da conta segura. |
| Região | Um local geográfico em que é possível hospedar seus recursos, como os nós de computação do cluster do Managed Service for Apache Spark. |
| Zona | Uma área de implantação isolada em uma região. |
| Rede | A rede VPC no seu projeto Google Cloud que será usada ao criar um cluster do Managed Service para Apache Spark. |
| ID do projeto host da rede | Se a rede estiver em outro projeto do Google Cloud , insira o ID dele. Para uma VPC compartilhada, insira o ID do projeto host em que a rede reside. |
| Sub-rede | A sub-rede a ser usada ao criar clusters. Ele precisa estar na rede especificada e na região em que a zona está. Se ficar em branco, uma sub-rede será selecionada com base na rede e na zona. |
| Conta de serviço do runner | O nome da conta de serviço das máquinas virtuais (VMs) do serviço gerenciado para Apache Spark usadas para executar programas. Se deixado em branco, a conta de serviço padrão do Compute Engine será usada. |
| Número de mestres | O número de nós mestres no cluster. Esses nós contêm o YARN Resource Manager, o HDFS NameNode e todos os drivers. Precisa ser definido como 1 ou 3. O padrão é 1. |
| Tipo de máquina mestre | O tipo de máquina principal a ser usada. Selecione um dos seguintes tipos de máquina:
No Cloud Data Fusion versão 6.7.2 e mais recentes, o padrão é e2. Na versão 6.7.1, o padrão é n2. Na versão 6.7.0 e anteriores, o padrão é n1. |
| Núcleos principais | Número de núcleos virtuais alocados a um nó principal. O padrão é 2. |
| Memória principal (GB) | A quantidade de memória, em gigabytes, alocada a um nó principal. O padrão é 8 GB. |
| Tamanho do disco mestre (GB) | Tamanho do disco, em gigabytes, alocado para um nó principal. O padrão é 1.000 GB. |
| Tipo de disco mestre | Tipo de disco de inicialização para um nó mestre:
O padrão é disco permanente padrão. |
| Tipo de máquina do worker | O tipo de máquina de trabalho a ser usada. Selecione um dos seguintes tipos de máquina:
No Cloud Data Fusion versão 6.7.2 e mais recentes, o padrão é e2. Na versão 6.7.1, o padrão é n2. Na versão 6.7.0 e anteriores, o padrão é n1. |
| Núcleos de worker | Número de núcleos virtuais alocados a um nó de trabalho. O padrão é 2. |
| Memória do worker (GB) | A quantidade de memória, em gigabytes, alocada a um nó de trabalho. O padrão é 8 GB. |
| Tamanho do disco de trabalho (GB) | Tamanho do disco, em gigabytes, alocado para um nó de trabalho. O padrão é 1.000 GB. |
| Tipo de disco de trabalho | Tipo de disco de inicialização para um nó de trabalho:
O padrão é disco permanente padrão. |
| Usar o escalonamento automático predefinido | Permite usar o escalonamento automático predefinido do Managed Service for Apache Spark. |
| Número de workers principais | Os nós de worker contêm um YARN NodeManager e um HDFS DataNode. O padrão é 2. |
| Número de workers secundários | Os nós de worker secundário contêm um YARN NodeManager, mas não um HDFS DataNode. Normalmente, esse valor é definido como zero, a menos que uma política de escalonamento automático exija um valor maior. |
| Política de escalonamento automático | Caminho para o ID da política de escalonamento automático ou o URI do recurso. Para informações sobre como configurar e usar o escalonamento automático do serviço gerenciado para Apache Spark para redimensionar de forma automática e dinâmica os clusters para atender às demandas de carga de trabalho, consulte Quando usar o escalonamento automático e Escalonar automaticamente os clusters do serviço gerenciado para Apache Spark. |
| Metadados | Metadados adicionais para instâncias em execução no cluster. Normalmente, ele é usado para rastrear faturamento e estornos. Para mais informações, consulte Metadados do cluster. |
| Tags de rede | Atribua tags de rede para aplicar regras de firewall aos nós específicos de um cluster. As tags de rede precisam começar com uma letra minúscula e podem conter letras minúsculas, números e hifens. Elas precisam terminar com uma letra minúscula ou um número. |
| Ativar a inicialização segura | Ativa a Inicialização segura nas VMs do Managed Service for Apache Spark. O padrão é False. |
| Ativar o vTPM | Ativa o módulo de plataforma confiável virtual (vTPM) nas VMs do Managed Service for Apache Spark. O padrão é False. |
| Ativar o monitoramento de integridade | Ativa o Monitoramento de integridade virtual nas VMs do Managed Service for Apache Spark. O padrão é False. |
| Versão da imagem | A versão de imagem do Managed Service for Apache Spark. Se ficar em branco, um será selecionado automaticamente. Se a propriedade URI da imagem personalizada for deixada em branco, ela será ignorada. |
| URI de imagem personalizada | O URI da imagem do Managed Service for Apache Spark. Se ficar em branco, será inferido da propriedade versão de imagem. |
| Bucket de teste | Bucket do Cloud Storage usado para organizar dependências de jobs e arquivos de configuração para executar pipelines no serviço gerenciado para Apache Spark. |
| Bucket temporário | Bucket do Cloud Storage usado para armazenar dados temporários de clusters e jobs, como arquivos de histórico do Spark no Managed Service para Apache Spark. Essa propriedade foi introduzida na versão 6.9.2 do Cloud Data Fusion. |
| Nome da chave de criptografia | A chave de criptografia gerenciada pelo cliente (CMEK) usada pelo Managed Service for Apache Spark. |
| Escopos do OAuth | Os escopos do OAuth 2.0 que talvez você precise solicitar para acessar as APIs do Google, dependendo do nível de acesso necessário. O Google Cloud escopo da plataforma está sempre incluído. Essa propriedade foi introduzida na versão 6.9.2 do Cloud Data Fusion. |
| Ações de inicialização | Uma lista de scripts para execução durante a inicialização do cluster. As ações de inicialização precisam ser colocadas no Cloud Storage. |
| Propriedades do cluster | Propriedades do cluster que substituem as propriedades de configuração padrão dos serviços do Hadoop. Para mais informações sobre os pares chave-valor aplicáveis, consulte Propriedades do cluster. |
| Rótulos comuns | Rótulos para organizar os clusters e jobs do Managed Service for Apache Spark que estão sendo criados. É possível rotular cada recurso e depois filtrar os recursos por rótulos. As informações sobre os rótulos são encaminhadas ao sistema de faturamento para que os clientes possam detalhar as cobranças de faturamento por rótulo. |
| Tempo máximo de inatividade | Configure o serviço gerenciado para Apache Spark para excluir um cluster se ele ficar inativo por mais tempo do que o número de minutos especificado. Os clusters normalmente são excluídos diretamente após o término de uma execução, mas a exclusão pode falhar em situações raras. Para mais informações, consulte Resolver problemas ao excluir clusters. O padrão é 30 minutos. |
| Pular exclusão de cluster | Se a exclusão do cluster deve ser ignorada no final de uma execução. É necessário excluir os clusters manualmente. Isso só deve ser usado ao depurar uma execução com falha. O padrão é False. |
| Ativar a integração do Stackdriver Logging | Ative a integração do Stackdriver Logging. O padrão é True. |
| Ativar a integração do Stackdriver Monitoring | Ative a integração do Stackdriver Monitoring. O padrão é True. |
| Ativar o gateway de componentes | Ative o gateway de componentes para acessar as interfaces do cluster, como o YARN ResourceManager e o Spark HistoryServer. O padrão é False. |
| Preferir IP externo | Quando o sistema está sendo executado em Google Cloud na mesma rede que o cluster, ele normalmente usa o endereço IP interno ao se comunicar com o cluster. Para sempre usar o endereço IP externo, defina esse valor como True. O padrão é False. |
| Criar atraso de pesquisa | O número de segundos de espera após a criação de um cluster para começar a sondar e verificar se ele foi criado. O padrão é 60 segundos. As configurações de polling controlam a frequência com que o status do cluster é pesquisado ao criar e excluir clusters. Se você tiver muitos pipelines programados para serem executados ao mesmo tempo, talvez queira mudar essas configurações. |
| Criar jitter de pesquisa | Quantidade máxima de jitter aleatório, em segundos, a ser adicionada ao atraso ao criar um cluster. Use essa propriedade para evitar muitas chamadas de API simultâneas em Google Cloud quando você tem muitos pipelines programados para serem executados exatamente ao mesmo tempo. O padrão é 20 segundos. |
| Atraso na exclusão da enquete | O número de segundos a aguardar após excluir um cluster para começar a fazer pesquisas e verificar se ele foi excluído. O padrão é 30 segundos. |
| Intervalo de sondagem | O número de segundos para aguardar entre as pesquisas de status do cluster. O padrão é 2. |
Propriedades da interface da Web do perfil do Managed Service for Apache Spark mapeadas para propriedades JSON
| Nome da propriedade da UI usuário do perfil do Managed Service for Apache Spark | Nome da propriedade JSON do perfil do Managed Service for Apache Spark |
|---|---|
| Rótulo do perfil | name |
| Nome do perfil | label |
| Descrição | description |
| ID do projeto | projectId |
| Chave da conta de serviço do criador | accountKey |
| Região | region |
| Zona | zone |
| Rede | network |
| ID do projeto host da rede | networkHostProjectId |
| Sub-rede | subnet |
| Conta de serviço do runner | serviceAccount |
| Número de mestres | masterNumNodes |
| Tipo de máquina mestre | masterMachineType |
| Núcleos principais | masterCPUs |
| Memória principal (GB) | masterMemoryMB |
| Tamanho do disco mestre (GB) | masterDiskGB |
| Tipo de disco mestre | masterDiskType |
| Número de workers principais | workerNumNodes |
| Número de workers secundários | secondaryWorkerNumNodes |
| Tipo de máquina do worker | workerMachineType |
| Núcleos de worker | workerCPUs |
| Memória do worker (GB) | workerMemoryMB |
| Tamanho do disco de trabalho (GB) | workerDiskGB |
| Tipo de disco de trabalho | workerDiskType |
| Metadados | clusterMetaData |
| Tags de rede | networkTags |
| Ativar a inicialização segura | secureBootEnabled |
| Ativar o vTPM | vTpmEnabled |
| Ativar o monitoramento de integridade | integrityMonitoringEnabled |
| Versão da imagem | imageVersion |
| URI de imagem personalizada | customImageUri |
| Bucket do Cloud Storage | gcsBucket |
| Nome da chave de criptografia | encryptionKeyName |
| Política de escalonamento automático | autoScalingPolicy |
| Ações de inicialização | initActions |
| Propriedades do cluster | clusterProperties |
| Marcadores | clusterLabels |
| Tempo máximo de inatividade | idleTTL |
| Pular exclusão de cluster | skipDelete |
| Ativar a integração do Stackdriver Logging | stackdriverLoggingEnabled |
| Ativar a integração do Stackdriver Monitoring | stackdriverMonitoringEnabled |
| Ativar o gateway de componentes | componentGatewayEnabled |
| Preferir IP externo | preferExternalIP |
| Criar atraso de pesquisa | pollCreateDelay |
| Criar jitter de pesquisa | pollCreateJitter |
| Atraso na exclusão da enquete | pollDeleteDelay |
| Intervalo de sondagem | pollInterval |
Práticas recomendadas
Ao criar um cluster estático para seus pipelines, consulte as práticas recomendadas de configuração de cluster.
A seguir
- Saiba mais sobre como gerenciar perfis de computação.