Práticas recomendadas de disponibilidade

Esta página descreve as práticas recomendadas para garantir a alta disponibilidade da instalação do Google Distributed Cloud conectado. O Distributed Cloud conectado não oferece um contrato de nível de serviço (SLA, na sigla em inglês) e fornece apenas o objetivo de nível de serviço (SLO, na sigla em inglês) descrito nesta página.

Escolher e implementar o nível de disponibilidade

Você precisa escolher o nível de disponibilidade para as cargas de trabalho do Distributed Cloud conectado que melhor atenda aos requisitos de negócios. Por exemplo, um aplicativo de autoatendimento em uma loja de varejo tem um risco de disponibilidade muito menor do que uma implantação de RAN de borda de uma operadora de rede móvel.

A disponibilidade desejada é diretamente proporcional à capacidade de recursos de reserva do Distributed Cloud que você reserva para emergências. A tabela a seguir descreve essa relação. Essas estimativas não incluem o tempo de inatividade programado com uma janela de manutenção.

O software do Distributed Cloud conectado consome alguns recursos em cada máquina física. O valor varia dependendo da configuração específica da implantação do Distributed Cloud conectado. O Google recomenda que você faça um benchmark da implantação do Distributed Cloud conectado para medir esse valor e considerá-lo ao planejar a distribuição da carga de trabalho.

Fator de forma do GDC conectado Capacidade em uso Capacidade reservada Disponibilidade desejada
Rack conectado do GDC
(cluster único de seis máquinas)
83,33% 16,67% 99,9%
Rack conectado do GDC
(cluster único de seis máquinas)
100% 0% 93,5%
Servidor conectado do GDC
(cluster único de três máquinas)
66,6% 33,3% 99,9%

Você pode ter uma perda repentina de capacidade devido a uma falha de hardware ou a um nó que exige uma reinicialização. Para se preparar para isso, você precisa criar suas cargas de trabalho com cotas de recursos em mente para sempre ter capacidade disponível em cada nó conectado do Distributed Cloud que atenda ao nível de disponibilidade escolhido.

Por exemplo, para alcançar 99,9% de disponibilidade desejada em uma implantação de rack conectado do Distributed Cloud, você precisa configurar suas cargas de trabalho para que uma das seis máquinas físicas em cada cluster conectado do Distributed Cloud esteja disponível como backup.

Diversificar geograficamente as zonas do Distributed Cloud

Para minimizar o impacto de possíveis falhas no plano de gerenciamento, recomendamos que você distribua as zonas do Distributed Cloud em várias regiões vizinhas.

Usar o modo de capacidade de sobrevivência

Os clusters do Distributed Cloud usam um plano de controle local executado no hardware conectado do Distributed Cloud. As cargas de trabalho continuam sendo executadas quando a conexão com o Google Cloud dispositivo é perdida. Para mais informações, consulte o modo de capacidade de sobrevivência do Distributed Cloud conectado.

Entender as atualizações de software e as janelas de manutenção

O Google atualiza regularmente o software do Distributed Cloud conectado. Essas atualizações de software são obrigatórias e não é possível desativá-las. O Distributed Cloud conectado permite especificar janelas de manutenção individuais para cada um dos clusters conectados do Distributed Cloud.

Para reduzir possíveis interrupções temporárias nas cargas de trabalho, as janelas de manutenção permitem controlar quando os upgrades automáticos de planos de controle e nós podem ocorrer. As janelas de manutenção são úteis para os seguintes tipos de cenários, entre outros:

  • Fora dos horários de pico: minimize a chance de inatividade programando os upgrades automáticos fora dos horários de pico, quando o tráfego é reduzido.
  • Em serviço: garanta que os upgrades aconteçam durante as horas de trabalho para que alguém possa monitorá-los e gerenciar problemas imprevistos.
  • Upgrades de vários clusters:lance upgrades em vários clusters em diferentes regiões, uma de cada vez, em intervalos especificados.

O Distributed Cloud conectado oferece suporte aos seguintes tipos de janelas de manutenção:

  • Janela de manutenção. Especifica um período em que o Google pode realizar upgrades de manutenção e software no cluster conectado do Distributed Cloud.
  • Janela de exclusão de manutenção. Especifica um período em que o Google não pode realizar upgrades de manutenção ou software no cluster conectado do Distributed Cloud. Para configurar uma janela de exclusão de manutenção, primeiro configure uma janela de manutenção. Uma janela de exclusão de manutenção tem precedência sobre a janela de manutenção do cluster.

Além dos upgrades automáticos, é possível que o Google precise realizar outras tarefas de manutenção de vez em quando. Nesses casos, ele respeita a janela de manutenção de um cluster quando possível.

Se as tarefas forem executadas fora da janela de manutenção, o Distributed Cloud conectado tentará pausá-las. Em seguida, ele tentará retomar essas tarefas durante a próxima janela de manutenção.

O Distributed Cloud conectado reserva-se o direito de implementar upgrades de emergência não planejados fora das janelas de manutenção. Além disso, os upgrades obrigatórios de softwares descontinuados ou desatualizados podem ocorrer automaticamente fora das janelas de manutenção.

Você também pode fazer upgrade manual do cluster a qualquer momento. Esses upgrades começam imediatamente e ignoram todas as janelas de manutenção.

Para saber como configurar uma janela de manutenção para um cluster novo ou atual, consulte Configurar uma janela de manutenção.

Escalonamento de atualização de software

Para reduzir o tempo de inatividade da carga de trabalho, as atualizações de software do Distributed Cloud conectado são escalonadas. Em outras palavras, o Google faz upgrade dos nós de trabalho em cada cluster conectado do Distributed Cloud em etapas. Todos os nós de trabalho em um estágio de upgrade de software são desativados simultaneamente.

O número de nós em um estágio de upgrade de software é determinado da seguinte maneira:

  • Implantações de até três racks:cada estágio é o número total de máquinas em todos os racks dividido por seis e arredondado para o próximo número inteiro.
  • Implantações de quatro ou mais racks:cada estágio é o número total de máquinas em todos os racks na implantação dividido pelo número de racks na implantação.

Você também pode definir o próprio tamanho do estágio de upgrade de software. Em outras palavras, é possível especificar o número de nós que podem ser desativados para um upgrade de software simultaneamente em um cluster conectado do Distributed Cloud. Para instruções, consulte Gerenciar o tempo de inatividade do nó durante upgrades de software.

Restrições

As janelas de manutenção têm as seguintes restrições:

  • Uma janela de manutenção por cluster. Só é possível configurar uma única janela de manutenção por cluster. A configuração de uma nova janela de manutenção substitui a anterior.

  • Fusos horários para janelas de manutenção. Ao configurar e visualizar janelas de manutenção, os horários são mostrados de maneira diferente, dependendo da ferramenta usada, conforme detalhado nas seções a seguir.

Ao configurar janelas de manutenção

Quando você usa a sinalização mais genérica --maintenance-window para configurar uma janela de manutenção, não é possível especificar um fuso horário. Quando você usa a Google Cloud CLI ou a API, o UTC é usado para mostrar os horários. O Google Cloud console usa o fuso horário local para mostrar os horários.

Ao usar sinalizações mais granulares, como --maintenance-window-start, é possível especificar o fuso horário como parte do valor. Se você omitir o fuso horário, o fuso horário local será usado. Os horários são sempre armazenados em UTC.

Ao visualizar janelas de manutenção

Ao visualizar informações sobre o cluster, os carimbos de data/hora das janelas de manutenção podem ser mostrados em UTC ou no fuso horário local, dependendo de como você estiver visualizando as informações:

  • Ao usar o Google Cloud console para visualizar informações sobre o cluster, os horários são sempre mostrados no fuso horário local.
  • Ao usar a CLI gcloud para visualizar informações sobre o cluster, os horários são sempre mostrados em UTC.

Em ambos os casos, o RRULE está sempre em UTC. Isso significa que se forem especificados, por exemplo, dias da semana, esses dias estarão em UTC.

Configurar janelas de manutenção do cluster

O Distributed Cloud conectado permite especificar uma janela de manutenção para cada um dos clusters conectados do Distributed Cloud. Essa janela informa ao Google para atualizar o software do Distributed Cloud apenas durante o período e na frequência especificados.

As regras a seguir regem as janelas de manutenção do cluster conectado do Distributed Cloud:

  • Se você especificar uma janela de manutenção para um cluster conectado do Distributed Cloud, o Google atualizará seu software do Distributed Cloud conectado 48 horas após o anúncio da atualização nas notas da versão do Distributed Cloud conectado. Na página de notas da versão, é possível se inscrever no feed RSS de notas da versão do Distributed Cloud conectado para ficar informado sobre as atualizações de software à medida que forem lançadas.
  • A duração mínima de uma janela de manutenção é de seis horas. É possível especificar uma janela mais longa com base na complexidade da instalação do Distributed Cloud conectado e nos requisitos de negócios.
  • A frequência mínima de atualizações de software é de uma vez por semana. É possível especificar janelas de manutenção semanais ou diárias. É possível incluir e excluir dias específicos.
  • É possível mudar a programação da janela de manutenção de um cluster a qualquer momento, exceto quando uma janela de manutenção já foi programada ou quando uma janela de manutenção está em andamento.
  • Se a atualização de software não for concluída dentro do período especificado, ela será pausada e retomada durante a próxima janela de manutenção programada.

Para instruções detalhadas, consulte Configurar uma janela de manutenção para um cluster.

Reparo de hardware com falha

Quando o Google detecta uma falha no hardware conectado do Distributed Cloud, fazemos uma das seguintes ações:

  • Para hardware do Distributed Cloud de propriedade do Google, o Google tenta programar uma visita ao local em até três dias úteis. Para que um técnico autorizado pelo Google realize o diagnóstico e os reparos necessários, você precisa conceder acesso ao hardware conectado do Distributed Cloud.

  • Para hardware do Distributed Cloud de propriedade do cliente, o Google notifica você sobre o problema. Você precisa trabalhar com o SI que entregou o hardware conectado do Distributed Cloud para programar uma visita técnica e realizar o diagnóstico e os reparos necessários.

Se ocorrer uma falha no hardware conectado do Distributed Cloud, um dos seguintes cenários será aplicado, dependendo se o hardware conectado do Distributed Cloud usa armazenamento de disco auto-criptografado (SED, na sigla em inglês):

  • Racks conectados do Distributed Cloud armazenam dados em unidades não SED. Quando o Google ou um SI parceiro do Google realiza reparos no local, todas as unidades de disco são removidas da máquina afetada do Distributed Cloud conectado antes do início do serviço e são colocadas sob sua custódia durante o reparo.

  • Servidores conectados do Distributed Cloud armazenam dados em unidades SED. Quando uma máquina falha, o Google ou um SI parceiro do Google substitui a máquina inteira. Antes que a máquina seja removida das suas instalações, o Google garante que os dados foram apagados com segurança de todas as unidades.

Outros pontos de falha

Você é responsável por manter os seguintes aspectos da instalação do Distributed Cloud que estão fora do controle do Google e podem afetar a disponibilidade do Distributed Cloud conectado:

A seguir