Modo de capacidade de sobrevivência

Os clusters conectados do Distributed Cloud usam um plano de controle local implantado no hardware conectado do Distributed Cloud. Quando a conexão com Google Cloud é perdida, os clusters entram no modo de sobrevivência, e as cargas de trabalho continuam sendo executadas por até 7 dias. Se uma carga de trabalho ficar inativa enquanto o cluster estiver no modo de sobrevivência, o cache local de imagens vai garantir que a carga de trabalho volte a funcionar quando a conexão Google Cloud for restaurada.

Um cluster pode entrar no modo de capacidade de sobrevivência devido a uma falha de hardware ou software fora do controle do Google ou devido a uma falha no hardware ou software conectado do Distributed Cloud.

Exemplos de falhas fora do controle do Google:

  • Falha na conectividade de Internet no site de implantação.
  • Configuração incorreta de firewall ou rede ou falha de hardware no site de implantação.
  • A instância de proxy de limite que atende ao cluster é desativada ou configurada incorretamente.

Se o cluster conectado do Distributed Cloud operar no modo de capacidade de sobrevivência por até sete dias devido a uma falha de hardware ou software fora do controle do Google, o suporte do Google vai trabalhar com você para restaurar a operação normal até o sétimo dia. Após esse período, não há garantia de suporte adicional.

Exemplos de falhas no hardware ou software conectado do Distributed Cloud:

  • Uma atualização de software com falha do Distributed Cloud conectado.
  • Uma falha na máquina conectada da nuvem distribuída ou no hardware de rede.
  • Uma falha não diagnosticada no software conectado do Distributed Cloud.

Se o cluster conectado do Distributed Cloud entrar no modo de capacidade de sobrevivência devido a uma falha no software ou hardware conectado do Distributed Cloud, o suporte do Google vai trabalhar com você até que o cluster seja restaurado à operação normal.

O que acontece quando um cluster entra no modo de capacidade de sobrevivência

Quando um cluster conectado do Distributed Cloud entra no modo de capacidade de sobrevivência, acontece o seguinte:

  • O Google notifica por e-mail que o cluster afetado entrou no modo de capacidade de sobrevivência. O e-mail é enviado para a categoria técnica de contatos essenciais especificada no projeto Google Cloud correspondente.
  • Se precisar de ajuda para restaurar a operação normal do cluster, entre em contato com o Suporte do Google.

Operação de cluster no modo de sobrevivência

No modo de capacidade de sobrevivência, um cluster conectado do Distributed Cloud opera da seguinte maneira:

  • Quando a conexão com Google Cloud é perdida, o Distributed Cloud Connected tenta se reconectar continuamente a Google Cloud até que a conexão seja restabelecida.
  • O controle sobre as cargas de trabalho pela Google Cloud CLI, pela CLI do kubectl e pela API Distributed Cloud Edge Container está desativado. No entanto, é possível gerar credenciais off-line para acessar seus clusters por uma conexão de Internet alternativa, conforme descrito em Receber credenciais para um cluster.
  • As atualizações de software, os SLOs e o reparo de hardware do Distributed Cloud não estão disponíveis.
  • Registros e métricas limitados são sincronizados com Google Cloud depois que a conexão com Google Cloud é restabelecida:
    • As métricas do sistema são limitadas a 6 GB ou 22 horas, o que for atingido primeiro.
    • Os registros de carga de trabalho são limitados a quatro horas.
    • As métricas de carga de trabalho são limitadas a 1 GB.
    • Os registros de auditoria são limitados a 10 GB.
  • Por padrão, se um nó for reinicializado enquanto o cluster estiver desconectado do Google Cloud, ele não poderá se reconectar ao cluster até que a conexão com Google Cloud seja restabelecida, porque a chave de autenticação não pode ser atualizada. Você pode especificar uma janela de reinicialização off-line em que um nó pode se reconectar a um cluster após a reinicialização enquanto o cluster está em execução no modo de capacidade de sobrevivência. Para mais informações, consulte Criar um cluster.

O que fazer quando um cluster sai do modo de capacidade de sobrevivência

Quando um cluster conectado do Google Distributed Cloud sai do modo de capacidade de sobrevivência, verifique o seguinte:

  • Versão do software do Distributed Cloud conectado. Talvez seja necessário atualizar o cluster afetado para a versão mais recente do software conectado do Distributed Cloud, a menos que você tenha fixado o cluster em uma versão específica do software. Para mais informações, consulte Fazer upgrade da versão do software de um cluster.
  • Certificados de gerenciamento de frotas. Talvez seja necessário atualizar os certificados LOAS expirados do gerenciamento de frota. Para resolver isso, entre em contato com o Suporte do Google.

Verificar o estado da conexão de um cluster

Para verificar o estado do cluster do Distributed Cloud para Google Cloud, siga as etapas em Receber informações sobre um cluster. O comando retorna o valor do campo connectionState. Esse campo pode ter um dos seguintes valores:

  • CONNECTED: o cluster está conectado e totalmente sincronizado com Google Cloud.
  • DISCONNECTED: o cluster não está conectado a Google Cloud.
  • CONNECTED_AND_SYNCING: o cluster se reconectou ao Google Cloud e está sincronizando dados off-line com Google Cloud. Não desconecte esse cluster do Google Cloud até que a sincronização seja concluída.

A seguir