Esta página descreve as práticas recomendadas para garantir a alta disponibilidade da instalação do Google Distributed Cloud conectado. O Distributed Cloud conectado não oferece um contrato de nível de serviço (SLA, na sigla em inglês) e fornece apenas o objetivo de nível de serviço (SLO, na sigla em inglês) descrito nesta página.
Escolher e implementar o nível de disponibilidade
Você precisa escolher o nível de disponibilidade para as cargas de trabalho do Distributed Cloud conectado que melhor atenda aos requisitos de negócios. Por exemplo, um aplicativo de autoatendimento em uma loja de varejo tem um risco de disponibilidade muito menor do que uma implantação de RAN de borda de uma operadora de rede móvel.
A disponibilidade desejada é diretamente proporcional à capacidade de recursos de reserva do Distributed Cloud que você reserva para emergências. A tabela a seguir descreve essa relação. Essas estimativas não incluem o tempo de inatividade programado com uma janela de manutenção.
O software do Distributed Cloud conectado consome alguns recursos em cada máquina física. O valor varia dependendo da configuração específica da implantação do Distributed Cloud conectado. O Google recomenda que você faça um benchmark da implantação do Distributed Cloud conectado para medir esse valor e considerá-lo ao planejar a distribuição da carga de trabalho.
| Capacidade em uso | Capacidade reservada | Disponibilidade desejada |
|---|---|---|
| 66,6% | 33,3% | 99,9% |
Você pode ter uma perda repentina de capacidade devido a uma falha de hardware ou um nó que exige uma reinicialização. Para se preparar para isso, você precisa criar suas cargas de trabalho com cotas de recursos em mente para sempre ter capacidade disponível em cada nó do Distributed Cloud conectado que atenda ao nível de disponibilidade escolhido.
Diversificar geograficamente as zonas do Distributed Cloud
Para minimizar o impacto de possíveis falhas no plano de gerenciamento, recomendamos que você distribua as zonas do Distributed Cloud em várias regiões vizinhas.
Usar o modo de capacidade de sobrevivência
Os clusters do Distributed Cloud usam um plano de controle local executado no hardware do Distributed Cloud conectado. As cargas de trabalho continuam sendo executadas quando a conexão com o dispositivo Google Cloud é perdida. Para mais informações, consulte o modo de capacidade de sobrevivência do Distributed Cloud conectado.
Entender as atualizações de software e as janelas de manutenção
O Google atualiza regularmente o software do Distributed Cloud conectado. Essas atualizações de software são obrigatórias e não é possível desativá-las. O Distributed Cloud conectado permite especificar janelas de manutenção individuais para cada um dos clusters do Distributed Cloud conectado.
Para reduzir possíveis interrupções temporárias nas cargas de trabalho, as janelas de manutenção permitem controlar quando os upgrades automáticos de planos de controle e nós podem ocorrer. As janelas de manutenção são úteis para os seguintes tipos de cenários, entre outros:
- Fora dos horários de pico: minimize a chance de inatividade programando os upgrades automáticos fora dos horários de pico, quando o tráfego é reduzido.
- Em serviço: garanta que os upgrades aconteçam durante as horas de trabalho para que alguém possa monitorá-los e gerenciar problemas imprevistos.
- Upgrades de vários clusters:lance upgrades em vários clusters em diferentes regiões, uma de cada vez, em intervalos especificados.
O Distributed Cloud conectado oferece suporte aos seguintes tipos de janelas de manutenção:
- Janela de manutenção. Especifica um período durante o qual o Google pode realizar upgrades de manutenção e software no cluster do Distributed Cloud conectado.
- Janela de exclusão de manutenção. Especifica um período durante o qual o Google não pode realizar upgrades de manutenção ou software no cluster do Distributed Cloud conectado. Para configurar uma janela de exclusão de manutenção, primeiro configure uma janela de manutenção. Uma janela de exclusão de manutenção tem precedência sobre a janela de manutenção do cluster.
Além dos upgrades automáticos, é possível que o Google precise realizar outras tarefas de manutenção de vez em quando. Nesses casos, ele respeita a janela de manutenção de um cluster quando possível.
Se um upgrade de software ou uma tarefa de manutenção não terminar antes do fim de uma janela de manutenção, o Distributed Cloud conectado pausará o upgrade ou a tarefa e a retomará durante a próxima janela de manutenção programada. Se um upgrade de software falhar, o Distributed Cloud conectado interromperá o upgrade. Nesses casos, entre em contato com o suporte do Google para reparar a instalação do software.
O Distributed Cloud conectado reserva-se o direito de implementar upgrades de emergência não planejados fora das janelas de manutenção. Além disso, os upgrades obrigatórios de softwares descontinuados ou desatualizados podem ocorrer automaticamente fora das janelas de manutenção.
Também é possível atualizar manualmente o cluster a qualquer momento. Esses upgrades começam imediatamente e ignoram todas as janelas de manutenção.
Para saber como configurar uma janela de manutenção para um cluster novo ou atual, consulte Configurar uma janela de manutenção.
Escalonamento de atualização de software
Para reduzir o tempo de inatividade da carga de trabalho, as atualizações de software do Distributed Cloud conectado são escalonadas. Em outras palavras, o Google faz upgrade dos nós de trabalho em cada cluster do Distributed Cloud conectado em etapas. Todos os nós de trabalho em uma fase de upgrade de software são desativados simultaneamente.
Você também pode definir o próprio tamanho da fase de upgrade de software. Em outras palavras, é possível especificar o número de nós que podem ser desativados para um upgrade de software simultaneamente em um cluster do Distributed Cloud conectado. Para instruções, consulte Gerenciar o tempo de inatividade do nó durante upgrades de software.
Restrições
As janelas de manutenção têm as seguintes restrições:
Uma janela de manutenção por cluster. Só é possível configurar uma única janela de manutenção por cluster. A configuração de uma nova janela de manutenção substitui a anterior.
Fusos horários para janelas de manutenção. Ao configurar e visualizar janelas de manutenção, os horários são mostrados de maneira diferente, dependendo da ferramenta usada, conforme detalhado nas seções a seguir.
Ao configurar janelas de manutenção
Quando você usa a sinalização mais genérica --maintenance-window para configurar uma janela de manutenção, não é possível especificar um fuso horário. Quando você usa a Google Cloud CLI ou a API, o UTC é usado para mostrar os horários. O
Google Cloud console usa o fuso horário local para mostrar os horários.
Ao usar sinalizações mais granulares, como --maintenance-window-start, é possível especificar o fuso horário como parte do valor. Se você omitir o fuso horário, o fuso horário local será usado. Os horários são sempre armazenados em UTC.
Ao visualizar janelas de manutenção
Ao visualizar informações sobre o cluster, os carimbos de data/hora das janelas de manutenção podem ser mostrados em UTC ou no fuso horário local, dependendo de como você estiver visualizando as informações:
- Ao usar o Google Cloud console para visualizar informações sobre o cluster, os horários são sempre mostrados no fuso horário local.
- Ao usar a CLI gcloud para visualizar informações sobre o cluster, os horários são sempre mostrados em UTC.
Em ambos os casos, o RRULE está sempre em UTC. Isso significa que se forem especificados, por exemplo, dias da semana, esses dias estarão em UTC.
Configurar janelas de manutenção do cluster
O Distributed Cloud conectado permite especificar uma janela de manutenção para cada um dos clusters do Distributed Cloud conectado. Essa janela informa ao Google para atualizar o software do Distributed Cloud apenas durante o período e na frequência especificados.
As regras a seguir regem as janelas de manutenção do cluster do Distributed Cloud conectado:
- Se você especificar uma janela de manutenção para um cluster do Distributed Cloud conectado, o Google atualizará seu software do Distributed Cloud conectado 48 horas após a atualização ter sido anunciada nas notas de versão do Distributed Cloud conectado. Na página de notas de versão, você pode assinar o feed RSS das notas de versão do Distributed Cloud conectado para ficar informado sobre as atualizações de software à medida que forem lançadas.
- A duração mínima de uma janela de manutenção é de cinco horas. É possível especificar uma janela mais longa com base na complexidade da instalação do Distributed Cloud conectado e nos requisitos de negócios.
- A frequência mínima de atualizações de software é de uma vez por semana. É possível especificar janelas de manutenção semanais ou diárias. Você pode incluir e excluir dias específicos.
- É possível mudar a programação da janela de manutenção de um cluster a qualquer momento, exceto quando uma janela de manutenção já foi programada ou quando uma janela de manutenção está em andamento.
- Se a atualização de software não for concluída dentro do período especificado, ela será pausada e retomada durante a próxima janela de manutenção programada.
Para instruções detalhadas, consulte Configurar uma janela de manutenção para um cluster.
Reparo de hardware com falha
Quando o Google detecta uma falha no hardware do Distributed Cloud conectado, fazemos uma das seguintes ações:
Para hardware do Distributed Cloud de propriedade do Google, o Google tenta programar uma visita ao local em até três dias úteis. Para que um técnico autorizado pelo Google faça o diagnóstico e os reparos necessários, você precisa conceder acesso ao hardware conectado do Distributed Cloud.
Para hardware do Distributed Cloud de propriedade do cliente, o Google notifica você e o SI certificado pelo Google sobre o problema. Você precisa trabalhar com o SI que entregou o hardware do Distributed Cloud conectado para programar uma visita técnica e fazer o diagnóstico e os reparos necessários.
Se ocorrer uma falha no hardware do Distributed Cloud conectado, o Google ou um SI certificado pelo Google substituirá toda a máquina. Antes que a máquina seja removida das suas instalações, o Google garante que os dados foram apagados com segurança de todas as unidades.
Outros pontos de falha
Você é responsável por manter os seguintes aspectos da instalação do Distributed Cloud que estão fora do controle do Google e podem afetar a disponibilidade do Distributed Cloud conectado:
- Todos os dados que você escolhe armazenar no hardware do Distributed Cloud conectado. Isso inclui backups redundantes e a exportação dos dados antes de retornar o hardware do Distributed Cloud conectado ao Google.
- Fonte de alimentação elétrica.
- Temperatura ambiente, umidade e resfriamento.
- Segurança física do hardware.
- Segurança da rede local.
- Conectividade de rede local e Internet. O Distributed Cloud conectado precisa se reconectar ao dispositivo a cada 7 dias para atualizar tokens de segurança, chaves de criptografia, e sincronizar dados de registro e gerenciamento. Google Cloud