Resolver problemas de criação de cluster

Este documento explica mensagens de erro comuns de criação de cluster e oferece dicas para solucionar problemas de criação de cluster.

Mensagens de erro comuns de criação de cluster

O usuário não está autorizado a atuar como conta de serviço

Causa: o principal que está tentando criar o cluster do Dataproc não tem as permissões necessárias para usar a conta de serviço especificada. Os usuários do Dataproc precisam ter a permissão da conta de serviço ActAs para implantar recursos do Dataproc. Essa permissão está incluída no papel Usuário da conta de serviço (roles/iam.serviceAccountUser) (consulte Papéis do Dataproc).

Solução: identifique o usuário ou a conta de serviço que está tentando criar o cluster do Dataproc. Conceda a esse principal o papel Usuário da conta de serviço (roles/iam.serviceAccountUser) na conta de serviço que o cluster está configurado para usar (normalmente, a conta de serviço da VM do Dataproc).
Operação expirada:somente 0 de dois nós de dados/gerenciadores de nós obrigatórios em execução.

Causa: o nó do controlador não consegue criar o cluster porque não pode se comunicar com os nós de trabalho.

Solução:
- Verifique os avisos de regras do firewall.
- Verifique se as regras de firewall corretas estão em vigor. Para mais informações, consulte Visão geral das regras de firewall padrão do Dataproc.
- Faça um teste de conectividade noconsole para determinar o que está bloqueando a comunicação entre os nós do controlador e de trabalho. Google Cloud
Permissão compute.subnetworks.use necessária para projects/{projectId}/regions/{region}/subnetworks/{subnetwork}

Causa: esse erro pode ocorrer quando você tenta configurar um cluster do Dataproc usando uma rede VPC em outro projeto e a conta de serviço do Agente de serviços do Dataproc não tem as permissões necessárias no projeto de VPC compartilhada que hospeda a rede.

Solução: siga as etapas listadas em Criar um cluster que usa uma rede VPC em outro projeto.
A zona projects/zones/{zone} não tem recursos suficientes disponíveis para atender à solicitação (resource type:compute)

Causa: a zona usada para criar o cluster não tem recursos suficientes.

Solução:
- Use o recurso Posição de zona automática do Dataproc feature para criar o cluster em qualquer uma das zonas de uma região com recursos disponíveis.
- Crie o cluster em uma zona diferente.
Erros de cota excedida

Cota insuficiente de CPUs/CPUS_ALL_REGIONS
Cota insuficiente de "DISKS_TOTAL_GB"
Cota insuficiente "IN_USE_ADDRESSES"

Causa: sua solicitação de CPU, disco, ou endereço IP excede a cota disponível.

Solução: solicite mais cota no Google Cloud console.
Falha na ação de inicialização

Causa: a ação de inicialização fornecida durante a criação do cluster não foi instalada.

Solução:
- Consulte considerações e diretrizes de ações de inicialização.
- Analise os registros de saída. A mensagem de erro precisa fornecer um link para os registros no Cloud Storage.
Falha ao inicializar o nó CLUSTER-NAME-m. ... Consulte a saída em: <gs://PATH_TO_STARTUP_SCRIPT_OUTPUT>

Causa: falha na inicialização do nó do controlador do cluster do Dataproc.

Solução:
- Analise os registros de saída do script de inicialização listados na mensagem de erro (gs://PATH_TO_STARTUP_SCRIPT_OUTPUT) e verifique a causa da falha na inicialização do nó.
- As causas podem incluir problemas de configuração de rede do cluster do Dataproc e falha na instalação de dependências do pacote Python.
- Se o problema não for resolvido depois de analisar os registros do script de inicialização, corrija os problemas do lado do usuário e tente novamente com um backoff exponencial. Entre em contato com o suporte do Google Cloud.
Falha na criação do cluster: espaço de endereço IP esgotado

Causa: o espaço de endereço IP necessário para provisionar os nós de cluster solicitados está indisponível.

Solução:
- Crie um cluster com menos nós de trabalho, mas um tipo de máquina maior.
- Crie um cluster em uma sub-rede ou rede diferente.
- Reduza o uso na rede para liberar espaço de endereço IP.
- Aguarde até que espaço de IP suficiente fique disponível na rede.

Mensagem de erro do script de inicialização: o repositório REPO_NAME não tem mais um arquivo de lançamento

Causa: o repositório de backports do Debian oldstable foi limpo.

Solução:

Adicione o código a seguir antes do código que executa apt-get no script de inicialização.

oldstable=$(curl -s https://deb.debian.org/debian/dists/oldstable/Release | awk '/^Codename/ {print $2}');
stable=$(curl -s https://deb.debian.org/debian/dists/stable/Release | awk '/^Codename/ {print $2}');

matched_files="$(grep -rsil '\-backports' /etc/apt/sources.list*)"
if [[ -n "$matched_files" ]]; then
  for filename in "$matched_files"; do
    grep -e "$oldstable-backports" -e "$stable-backports" "$filename" || \
      sed -i -e 's/^.*-backports.*$//' "$filename"
  done
fi

Tempo limite de espera para que a instância DATAPROC_CLUSTER_VM_NAME seja informada ou A rede está inacessível: dataproccontrol-REGION.googleapis.com

Causa: essas mensagens de erro indicam que a configuração de rede do cluster do Dataproc está incompleta: talvez você não tenha a rota para o gateway de Internet padrão ou regras de firewall.

Solução:

Para resolver esse problema, crie os seguintes testes de conectividade:
- Crie um teste de conectividade entre duas VMs de cluster do Dataproc. O resultado desse teste vai ajudar você a entender se as regras de firewall de permissão de entrada ou saída da sua rede se aplicam corretamente às VMs do cluster.
- Crie um teste de conectividade entre uma VM de cluster do Dataproc e um endereço IP da API de controle do Dataproc atual. Para receber um endereço IP da API de controle do Dataproc atual, use o seguinte comando:
```
dig dataproccontrol-REGION.googleapis.com A
```
Use qualquer um dos endereços IPv4 na seção de respostas da saída.

O resultado do teste de conectividade vai ajudar você a entender se a rota para o gateway de Internet padrão e o firewall de permissão de saída estão configurados corretamente.

Com base nos resultados dos testes de conectividade:
- Adicione uma rota para a Internet à rede VPC do cluster: 0.0.0.0/0 para IPv4 e ::/0 para IPv6 com --next-hop-gateway=default-internet-gateway.
- Adicione regras de firewall para controle de acesso.
Erro devido a uma atualização

Causa: o cluster aceitou um job enviado ao serviço do Dataproc, mas não foi possível fazer o escalonamento vertical ou horizontal manualmente ou por escalonamento automático. Esse erro também pode ser causado por uma configuração de cluster não padrão.

Solução:
- Redefinição do cluster: abra um tíquete de suporte, inclua um arquivo tar de diagnóstico, e peça para que o cluster seja redefinido para um estado EM EXECUÇÃO.
- Novo cluster: Recrie o cluster com a mesma configuração. Essa solução pode ser mais rápida do que uma redefinição fornecida pelo suporte.

Dicas de solução de problemas do cluster

Esta seção oferece orientações adicionais sobre como solucionar problemas comuns que podem impedir a criação de clusters do Dataproc.

Quando um cluster do Dataproc não é provisionado, ele geralmente produz uma mensagem de erro genérica ou informa um status PENDING ou PROVISIONING antes de falhar. A chave para diagnosticar e resolver problemas de falha de cluster é examinar os registros do cluster e avaliar os pontos de falha comuns.

Sintomas comuns

A seguir, apresentamos sintomas comuns associados a falhas na criação de clusters:

O status do cluster permanece PENDING ou PROVISIONING por um período prolongado.
O cluster faz a transição para o estado ERROR.
Erros genéricos de API durante a criação do cluster, como Operation timed out.
Mensagens de erro registradas ou de resposta da API, como:
- RESOURCE_EXHAUSTED: relacionado a cotas de CPU, disco ou endereço IP
- Instance failed to start
- Permission denied
- Unable to connect to service_name.googleapis.com ou Could not reach required Google APIs
- Connection refused ou network unreachable
- Erros relacionados a falhas nas ações de inicialização, como erros de execução de script e arquivo não encontrado.

Analisar registros de cluster

Uma etapa inicial importante ao diagnosticar falhas na criação de clusters é analisar os registros detalhados do cluster disponíveis no Cloud Logging.

Acesse a Análise de registros: abra a Análise de registros no Google Cloud console.
Filtre os clusters do Dataproc:
- No menu suspenso Recurso, selecione Cloud Dataproc Cluster.
- Insira o cluster_name e o project_id. Também é possível filtrar por location (região).
Examine as entradas de registro:
- Procure mensagens de nível ERROR ou WARNING que ocorram perto do momento da falha na criação do cluster.
- Preste atenção aos registros de master-startup, worker-startup e agent componentes para insights sobre problemas de agente do Dataproc ou de VM.
- Para insights sobre problemas de tempo de inicialização da VM, filtre os registros por resource.type="gce_instance" e procure mensagens dos nomes de instâncias associados aos nós do cluster, como CLUSTER_NAME-m ou CLUSTER_NAME-w-0. Os registros do console serial podem revelar problemas de configuração de rede, problemas de disco e falhas de script que ocorrem no início do ciclo de vida da VM.

Causas comuns de falha de cluster e dicas de solução de problemas

Esta seção descreve os motivos comuns pelos quais a criação de clusters do Dataproc pode falhar e oferece dicas de solução de problemas para ajudar a solucionar falhas de cluster.

Permissões do IAM insuficientes

A conta de serviço da VM que o cluster do Dataproc usa precisa ter os papéis do IAM adequados para provisionar instâncias do Compute Engine, acessar buckets do Cloud Storage gravar registros e interagir com outros Google Cloud serviços.

Papel de worker necessário: verifique se a conta de serviço da VM tem o papel worker do Dataproc (roles/dataproc.worker). Esse papel tem as permissões mínimas necessárias para que o Dataproc gerencie os recursos do cluster.
Permissões de acesso a dados: se os jobs lerem ou gravarem no Cloud Storage ou no BigQuery, a conta de serviço precisará de papéis relacionados, como Storage Object Viewer, Storage Object Creator, ou Storage Object Admin para o Cloud Storage, ou BigQuery Data Viewer ou BigQuery Editor para o BigQuery.
Permissões de registro: a conta de serviço precisa ter um papel com as permissões necessárias para gravar registros no Cloud Logging, como o papel Logging Writer.