Os clusters conectados do Distributed Cloud usam um plano de controle local implantado no hardware conectado do Distributed Cloud. Quando a conexão com Google Cloud é perdida, os clusters entram no modo de sobrevivência, e as cargas de trabalho continuam sendo executadas por até 7 dias. Se uma carga de trabalho ficar inativa enquanto o cluster estiver no modo de sobrevivência, o cache local de imagens vai garantir que a carga de trabalho volte a funcionar quando a conexão Google Cloud for restaurada.
Um cluster pode entrar no modo de capacidade de sobrevivência devido a uma falha de hardware ou software fora do controle do Google ou devido a uma falha no hardware ou software conectado do Distributed Cloud.
Exemplos de falhas fora do controle do Google:
- Falha na conectividade de Internet no site de implantação.
- Configuração incorreta de firewall ou rede ou falha de hardware no site de implantação.
- A instância de proxy de limite que atende ao cluster é desativada ou configurada incorretamente.
Se o cluster conectado do Distributed Cloud operar no modo de capacidade de sobrevivência por até sete dias devido a uma falha de hardware ou software fora do controle do Google, o suporte do Google vai trabalhar com você para restaurar a operação normal até o sétimo dia. Após esse período, não há garantia de suporte adicional.
Exemplos de falhas no hardware ou software conectado do Distributed Cloud:
- Uma atualização de software com falha do Distributed Cloud conectado.
- Uma falha na máquina conectada da nuvem distribuída ou no hardware de rede.
- Uma falha não diagnosticada no software conectado do Distributed Cloud.
Se o cluster conectado do Distributed Cloud entrar no modo de capacidade de sobrevivência devido a uma falha no software ou hardware conectado do Distributed Cloud, o suporte do Google vai trabalhar com você até que o cluster seja restaurado à operação normal.
O que acontece quando um cluster entra no modo de capacidade de sobrevivência
Quando um cluster conectado do Distributed Cloud entra no modo de capacidade de sobrevivência, acontece o seguinte:
- O Google notifica por e-mail que o cluster afetado entrou no modo de capacidade de sobrevivência. O e-mail é enviado para a categoria técnica de contatos essenciais especificada no projeto Google Cloud correspondente.
- Se precisar de ajuda para restaurar a operação normal do cluster, entre em contato com o Suporte do Google.
Operação de cluster no modo de sobrevivência
No modo de capacidade de sobrevivência, um cluster conectado do Distributed Cloud opera da seguinte maneira:
- Quando a conexão com Google Cloud é perdida, o Distributed Cloud Connected tenta se reconectar continuamente a Google Cloud até que a conexão seja restabelecida.
- O controle sobre as cargas de trabalho pela Google Cloud CLI, pela CLI do
kubectle pela API Distributed Cloud Edge Container está desativado. No entanto, é possível gerar credenciais off-line para acessar seus clusters por uma conexão de Internet alternativa, conforme descrito em Receber credenciais para um cluster. - As atualizações de software, os SLOs e o reparo de hardware do Distributed Cloud não estão disponíveis.
- Registros e métricas limitados são sincronizados com Google Cloud depois que a conexão com Google Cloud é restabelecida:
- As métricas do sistema são limitadas a 6 GB ou 22 horas, o que for atingido primeiro.
- Os registros de carga de trabalho são limitados a quatro horas.
- As métricas de carga de trabalho são limitadas a 1 GB.
- Os registros de auditoria são limitados a 10 GB.
- Por padrão, se um nó for reinicializado enquanto o cluster estiver desconectado do Google Cloud, ele não poderá se reconectar ao cluster até que a conexão com Google Cloud seja restabelecida, porque a chave de autenticação não pode ser atualizada. Você pode especificar uma janela de reinicialização off-line em que um nó pode se reconectar a um cluster após a reinicialização enquanto o cluster está em execução no modo de capacidade de sobrevivência. Para mais informações, consulte Criar um cluster.
O que fazer quando um cluster sai do modo de capacidade de sobrevivência
Quando um cluster conectado do Google Distributed Cloud sai do modo de capacidade de sobrevivência, verifique o seguinte:
- Versão do software do Distributed Cloud conectado. Talvez seja necessário atualizar o cluster afetado para a versão mais recente do software conectado do Distributed Cloud, a menos que você tenha fixado o cluster em uma versão específica do software. Para mais informações, consulte Fazer upgrade da versão do software de um cluster.
- Certificados de gerenciamento de frotas. Talvez seja necessário atualizar os certificados LOAS expirados do gerenciamento de frota. Para resolver isso, entre em contato com o Suporte do Google.
Verificar o estado da conexão de um cluster
Para verificar o estado do cluster do Distributed Cloud para Google Cloud,
siga as etapas em Receber informações sobre um cluster.
O comando retorna o valor do campo connectionState. Esse campo pode ter um dos seguintes valores:
CONNECTED: o cluster está conectado e totalmente sincronizado com Google Cloud.DISCONNECTED: o cluster não está conectado a Google Cloud.CONNECTED_AND_SYNCING: o cluster se reconectou ao Google Cloud e está sincronizando dados off-line com Google Cloud. Não desconecte esse cluster do Google Cloud até que a sincronização seja concluída.