O monitoramento e a manutenção do Google Distributed Cloud Connected são uma responsabilidade compartilhada entre o Google e o cliente. Use as informações neste documento para determinar a melhor forma de implantar e gerenciar suas cargas de trabalho locais.
Responsabilidades do Google
Como um serviço gerenciado de hardware e software, o Google é responsável por gerenciar e monitorar a infraestrutura que você usa para implantar seus aplicativos de negócios.
O Google é responsável pelos seguintes aspectos do sistema conectado do Distributed Cloud:
- O plano de controle Google Cloud
- O plano de controle do Kubernetes, o nó de trabalho e os serviços do sistema integrados
- Complementos e produtos de software fornecidos pelo Google
- Hardware fornecido, incluindo servidores
O Google monitora a funcionalidade de que somos responsáveis e alerta os engenheiros do Google quando problemas são encontrados para que eles possam investigar.
Responsabilidades do cliente
Você é responsável pelos seguintes aspectos do sistema conectado do Distributed Cloud:
- A rede local, incluindo switches fornecidos pelo cliente
- Conectividade à Internet
- Energia
- O ambiente, como refrigeração
- Aplicativo do cliente e complementos do Google Distributed Cloud ou do Kubernetes instalados pelo cliente
- Instâncias de bastion host e implantações de proxy de limite pertencentes ao cliente, se esses recursos forem usados
O Google não monitora diretamente problemas que são de sua responsabilidade. Por exemplo, o Google não monitora se uma VM do cliente não está sendo inicializada corretamente ou se o aplicativo do cliente não está sendo executado. Se você acredita que esses comportamentos são causados por um problema na plataforma, abra um tíquete de suporte Google Cloud para que o Google possa investigar.
Responsabilidade compartilhada
Em alguns casos, o Google detecta uma falha no site, mas acredita que a causa é um problema específico do site de sua responsabilidade. Por exemplo, podemos notar um aumento nas temperaturas ao longo do tempo em todos os nós de um site, seguido de desconexão, indicando que uma falha de resfriamento local é o problema provável. Nesses cenários, o Google inicia a solução de problemas colaborativa com você para confirmar se o problema é causado por responsabilidades específicas do cliente no site e verificar falhas de hardware.
Para resolver problemas e determinar uma causa raiz, o Google pode precisar solicitar e receber informações suas. Por exemplo, o Google pode precisar saber a hora da perda de energia e quando ela ou a rede são restabelecidas. Se você não puder fornecer essas informações, talvez o Google não consiga realizar uma análise detalhada da causa raiz.
Falhas de conectividade
Em caso de falha na conectividade com a Internet, o produto oferece suporte ao modo de capacidade de sobrevivência por até sete dias. Durante esse período, o acesso local ao serviço está disponível. No entanto, o Google não pode monitorar, reduzir ou diagnosticar problemas no sistema local até que a conectividade de rede seja restaurada.
Embora o Google monitore as desconexões do site nos sistemas de telemetria do Google, não é possível determinar remotamente se a causa raiz é energia, conectividade do ISP ou uma falha catastrófica do site, como um incêndio ou uma enchente.
Se todos os hardwares em um site pararem de enviar dados simultaneamente, a causa provável será um problema local de energia ou rede. Para evitar alarmes falsos, o Google só vai comunicar o problema quando confirmar que ele não será resolvido sozinho, por exemplo, devido à manutenção do ISP, e que não pode ser resolvido virtualmente. Nesse caso, é necessário fazer mais testes.
Quando configurado para Bastion Host e proxy de limite (BH/BP), o Google monitora a conectividade usando o BH/BP e os dispositivos conectados do Distributed Cloud pelo BH/BP com solicitações de teste periódicas. O Google espera que você monitore a integridade geral das instâncias de BH/BP, por exemplo, rastreando o uso de recursos. Se detectarmos problemas de conectividade com o BH/BP ou com dispositivos conectados do Distributed Cloud e suspeitarmos que o problema pode ter origem nos componentes de propriedade do cliente, talvez peçamos que você diagnostique e depure o problema.
Depuração
Para ajudar na depuração, o Google pode pedir os seguintes dados:
- Todas as mudanças de configuração aplicadas a equipamentos de rede gerenciados que não são do Google, como o switch, o roteador ou o firewall, incluindo o carimbo de data/hora até o segundo mais próximo
- Registros de negação de firewall, incluindo o carimbo de data/hora e os detalhes
- A hora e os motivos de reinicializações do dispositivo. Os motivos podem incluir um upgrade de software, uma falha de energia ou um erro de software.
- O horário de falhas de energia, que pode ser conhecido, como pelo gerenciamento do prédio ou do data center, ou inferido da última mensagem de registro de outros equipamentos
- O horário de qualquer interrupção de rede, com base no provedor de rede ou em mensagens de registro no roteador ou firewall
Para problemas de interoperabilidade, o Google também pode exigir a depuração conjunta com um fornecedor, incluindo o compartilhamento de arquivos de registro do dispositivo e a ativação das opções de depuração. Quando possível, tentamos reproduzir o problema em um ambiente de laboratório do cliente.
Em alguns casos, o Google pode receber informações dos nossos equipamentos gerenciados, mas elas podem estar incompletas. Por exemplo, depois de uma queda de energia, a conexão do ISP pode levar mais tempo para inicializar do que os servidores conectados do Distributed Cloud.
Divisão de responsabilidade
Use a tabela a seguir para determinar quem é responsável por tarefas comuns.
| Tarefa | Cliente | |
|---|---|---|
| Identificar problemas de desconexão da implantação e enviar notificações aos clientes para investigação | X | |
| Resolver problemas de energia | X | |
| Resolva problemas de rede, incluindo switches fornecidos pelo cliente. | X | X |
| Resolver problemas ambientais, como resfriamento | X | |
| Resolva instâncias de bastion host de propriedade do cliente e implantações de proxy de limite, se implantadas. | X | |
| Monitorar o plano de gerenciamento de API | X | |
| Monitore o plano de controle do Kubernetes, o nó de trabalho e os serviços integrados do sistema | X | |
| Monitorar complementos e produtos de software fornecidos pelo Google, como o Symcloud Storage | X | |
| Monitorar o hardware fornecido, como servidores e, em algumas implantações, equipamentos de rede | X | |
| Monitorar equipamentos de rede fornecidos pelo cliente | X | |
| Monitorar a conectividade de rede upstream | X | |
| Fornecer suporte conjunto de depuração para problemas de rede ou ambientais | X | |
| Observabilidade da plataforma, incluindo métricas e registros | X | |
| Observabilidade de aplicativos, incluindo métricas e registros | X | |
| Responder a solicitações para investigar problemas que se acredita serem de responsabilidade do cliente | X |