Esta página descreve as práticas recomendadas para garantir alta disponibilidade na sua instalação conectada do Google Distributed Cloud. O Distributed Cloud Connected não oferece um contrato de nível de serviço (SLA) e fornece apenas o objetivo de nível de serviço (SLO) descrito nesta página.
Escolher e implementar o nível de disponibilidade
Você precisa escolher o nível de disponibilidade para suas cargas de trabalho conectadas do Distributed Cloud que melhor atenda aos requisitos da sua empresa. Por exemplo, um aplicativo de autoatendimento em uma loja de varejo tem um risco de disponibilidade muito menor do que uma implantação de RAN de borda de uma operadora de rede móvel.
A disponibilidade desejada é diretamente proporcional à capacidade de recursos sobressalentes do Distributed Cloud que você reserva para emergências. A tabela a seguir descreve essa relação. Essas estimativas não incluem o tempo de inatividade programado com uma janela de manutenção.
O software do Distributed Cloud Connected consome alguns recursos em cada máquina física. O valor varia de acordo com a configuração específica da implantação conectada do Distributed Cloud. O Google recomenda que você faça um comparativo de mercado da implantação do Distributed Cloud Connected para medir esse valor e considerá-lo ao planejar a distribuição da carga de trabalho.
| Formato conectado do GDC | Capacidade em uso | Capacidade reservada | Disponibilidade de destino |
|---|---|---|---|
| Rack conectado do GDC (cluster único de seis máquinas) |
83,33% | 16,67% | 99,9% |
| Rack conectado do GDC (cluster único de seis máquinas) |
100% | 0% | 93,5% |
| Servidor conectado do GDC (cluster único de três máquinas) |
66,6% | 33,3% | 99,9% |
Você pode ter uma perda repentina de capacidade devido a uma falha de hardware ou um nó que precisa ser reiniciado. Para se preparar para isso, projete suas cargas de trabalho com cotas de recursos em mente para sempre ter capacidade disponível em cada nó conectado do Distributed Cloud que atenda ao nível de disponibilidade escolhido.
Por exemplo, para alcançar uma disponibilidade de destino de 99,9% em uma implantação de rack conectado ao Distributed Cloud, configure suas cargas de trabalho para que uma das seis máquinas físicas em cada cluster conectado ao Distributed Cloud esteja disponível como backup.
Diversificar geograficamente as zonas da Distributed Cloud
Para minimizar o impacto de possíveis falhas no plano de gerenciamento, recomendamos distribuir suas zonas do Distributed Cloud em várias regiões próximas.
Usar o modo de capacidade de sobrevivência
Os clusters do Distributed Cloud usam um plano de controle local executado no hardware conectado do Distributed Cloud. As cargas de trabalho continuam em execução quando a conexão com Google Cloud é perdida. Para mais informações, consulte o modo de capacidade de sobrevivência conectada do Distributed Cloud.
Entender as atualizações de software e as janelas de manutenção
O Google atualiza regularmente o software do Distributed Cloud Connected. Essas atualizações de software são obrigatórias e não podem ser desativadas. Com o Distributed Cloud Connected, é possível especificar janelas de manutenção individuais para cada um dos seus clusters conectados do Distributed Cloud.
Para reduzir possíveis interrupções temporárias nas cargas de trabalho, as janelas de manutenção permitem controlar quando os upgrades automáticos de planos de controle e nós podem ocorrer. As janelas de manutenção são úteis para os seguintes tipos de cenários, entre outros:
- Fora dos horários de pico: minimize a chance de inatividade programando os upgrades automáticos fora dos horários de pico, quando o tráfego é reduzido.
- Em serviço: garanta que os upgrades aconteçam durante as horas de trabalho para que alguém possa monitorá-los e gerenciar problemas imprevistos.
- Upgrades de vários clusters: implemente upgrades em vários clusters em diferentes regiões, uma de cada vez, em intervalos especificados.
O Distributed Cloud Connected é compatível com os seguintes tipos de janelas de manutenção:
- Janela de manutenção. Especifica um período em que o Google pode fazer manutenção e upgrades de software no cluster conectado do Distributed Cloud.
- Janela de exclusão de manutenção. Especifica um período em que o Google não pode realizar manutenção ou upgrades de software no cluster conectado do Distributed Cloud. Para configurar uma janela de exclusão de manutenção, primeiro configure uma janela de manutenção. Uma janela de exclusão de manutenção tem precedência sobre a janela de manutenção do cluster.
Além dos upgrades automáticos, é possível que o Google precise realizar outras tarefas de manutenção de vez em quando. Nesses casos, ela respeita a janela de manutenção de um cluster quando possível.
Se um upgrade de software ou uma tarefa de manutenção não for concluída antes do fim de uma janela de manutenção, o Distributed Cloud Connected vai pausar o upgrade ou a tarefa e retomar durante a próxima janela de manutenção programada. Se um upgrade de software falhar, o Distributed Cloud connected vai interromper o processo. Nesses casos, entre em contato com o suporte do Google para corrigir a instalação do software.
O Distributed Cloud Connected reserva-se o direito de lançar upgrades de emergência não planejados fora das janelas de manutenção. Além disso, os upgrades obrigatórios de software descontinuado ou desatualizado podem ocorrer automaticamente fora das janelas de manutenção.
Você também pode fazer upgrade manual do cluster quando quiser. Esses upgrades começam imediatamente e ignoram todas as janelas de manutenção.
Para saber como configurar uma janela de manutenção para um cluster novo ou atual, consulte Configurar uma janela de manutenção.
Atualização de software gradual
Para reduzir o tempo de inatividade da carga de trabalho, as atualizações de software do Distributed Cloud Connected são escalonadas. Em outras palavras, o Google faz upgrade dos nós de trabalho em cada cluster conectado do Distributed Cloud em etapas. Todos os nós de trabalho em um estágio de upgrade de software são desativados simultaneamente.
O número de nós em um estágio de upgrade de software é determinado da seguinte forma:
- Implantações de até três racks:cada etapa é o número total de máquinas em todos os racks dividido por seis e arredondado para o próximo número inteiro.
- Implantações de quatro ou mais racks:cada etapa é o número total de máquinas em todos os racks da implantação dividido pelo número de racks na implantação.
Você também pode definir o tamanho da sua própria etapa de upgrade de software. Em outras palavras, é possível especificar o número de nós que podem ficar inativos para um upgrade de software simultaneamente em um cluster conectado do Distributed Cloud. Para instruções, consulte Gerenciar o tempo de inatividade do nó durante upgrades de software.
Restrições
As janelas de manutenção têm as seguintes restrições:
Uma janela de manutenção por cluster. Só é possível configurar uma única janela de manutenção por cluster. A configuração de uma nova janela de manutenção substitui a anterior.
Fusos horários para janelas de manutenção. Ao configurar e visualizar janelas de manutenção, os horários são mostrados de maneira diferente, dependendo da ferramenta usada, conforme detalhado nas seções a seguir.
Ao configurar janelas de manutenção
Quando você usa a sinalização --maintenance-window mais genérica para configurar uma
janela de manutenção, não é possível especificar um fuso horário. Ao usar a
Google Cloud CLI ou a API, o UTC é usado para mostrar os horários. O console do
Google Cloud usa o fuso horário local para mostrar os horários.
Ao usar flags mais granulares, como --maintenance-window-start, é possível especificar o fuso horário como parte do valor. Se você omitir o fuso horário, o
fuso horário local será usado. Os horários são sempre armazenados em UTC.
Ao visualizar janelas de manutenção
Ao visualizar informações sobre o cluster, os carimbos de data/hora das janelas de manutenção podem ser mostrados em UTC ou no fuso horário local, dependendo de como você estiver visualizando as informações:
- Ao usar o console Google Cloud para ver informações sobre o cluster, os horários são sempre exibidos no fuso horário local.
- Ao usar a CLI gcloud para visualizar informações sobre o cluster, os horários são sempre exibidos em UTC.
Em ambos os casos, o RRULE está sempre em UTC. Isso significa que se forem especificados, por
exemplo, dias da semana, esses dias estarão em UTC.
Configurar janelas de manutenção do cluster
Com o Distributed Cloud Connected, é possível especificar uma janela de manutenção para cada um dos seus clusters conectados do Distributed Cloud. Essa janela informa ao Google para atualizar o software do Distributed Cloud apenas durante o período e na frequência especificados.
As regras a seguir regem as janelas de manutenção do cluster conectado do Distributed Cloud:
- Se você especificar uma janela de manutenção para um cluster conectado do Distributed Cloud, o Google vai atualizar o software conectado do Distributed Cloud 48 horas após o anúncio da atualização nas Notas da versão do Distributed Cloud Connected. Na página de notas da versão, você pode assinar o feed RSS das notas da versão do Distributed Cloud Connected para ficar por dentro das atualizações de software assim que forem lançadas.
- A duração mínima de uma janela de manutenção é de cinco horas. É possível especificar uma janela maior com base na complexidade da instalação conectada do Distributed Cloud e nos requisitos de negócios.
- A frequência mínima de atualizações de software é uma vez por semana. É possível especificar janelas de manutenção semanais ou diárias. É possível incluir e excluir dias específicos.
- É possível mudar a programação da janela de manutenção de um cluster a qualquer momento, exceto quando uma janela de manutenção já foi programada ou está em andamento.
- Se a atualização de software não for concluída dentro do período especificado, ela será pausada e retomada durante a próxima janela de manutenção programada.
Para instruções detalhadas, consulte Configurar uma janela de manutenção para um cluster.
Conserto de hardware com falha
Quando o Google detecta uma falha no hardware conectado do Distributed Cloud, fazemos uma das seguintes ações:
Para hardware do Google Distributed Cloud de propriedade do Google, tentamos agendar uma visita ao local em até três dias úteis. Para que um técnico autorizado pelo Google faça o diagnóstico e os reparos necessários, você precisa conceder acesso ao hardware conectado do Distributed Cloud.
Para hardware do Distributed Cloud de propriedade do cliente, o Google notifica você e o SI certificado pelo Google sobre o problema. É preciso trabalhar com o SI que entregou o hardware conectado do Distributed Cloud para agendar uma visita técnica e realizar o diagnóstico e os reparos necessários.
Se ocorrer uma falha no hardware conectado do Distributed Cloud, um dos seguintes cenários será aplicado, dependendo se o hardware conectado do Distributed Cloud usa armazenamento de disco com criptografia automática (SED, na sigla em inglês):
Os racks conectados do Distributed Cloud armazenam dados em unidades não SED. Quando o Google ou um SI certificado pelo Google realiza reparos no local, todas as unidades de disco são removidas da máquina afetada do Distributed Cloud Connected antes do início do serviço e ficam sob sua custódia durante o reparo.
Os servidores conectados do Distributed Cloud armazenam dados em unidades SED. Quando uma máquina falha, o Google ou um SI certificado pelo Google a substitui por completo. Antes de remover a máquina das suas instalações, o Google garante que seus dados foram apagados com segurança de todas as unidades.
Outros pontos de falha
Você é responsável por manter os seguintes aspectos da sua instalação do Distributed Cloud que estão fora do controle do Google e podem afetar a disponibilidade do Distributed Cloud Connected:
- Todos os dados que você escolher armazenar no hardware conectado do Distributed Cloud. Isso inclui backups redundantes em funcionamento e a exportação dos seus dados antes de devolver o hardware conectado do Distributed Cloud ao Google.
- Fonte de alimentação elétrica.
- Temperatura, umidade e resfriamento do ambiente.
- Segurança de hardware físico.
- Segurança de rede local.
- Rede local e conectividade com a Internet. O Distributed Cloud Connected precisa se reconectar ao Google Cloud a cada sete dias para atualizar tokens de segurança, chaves de criptografia e sincronizar dados de registro e gerenciamento.