Ao gerenciar eventos de alta temporada ou de alto tráfego na nuvem, há três fases principais:
- Preparação: concluir atividades e tarefas para se preparar para o evento, incluindo uma análise da arquitetura, planejamento de capacidade e criação de reservas.
- Execução: quando o evento começar, monitore de perto e reaja conforme necessário.
- Análise: depois que o evento terminar, analise o que deu certo, o que não deu e como melhorar os próximos.
Entenda e siga algumas práticas recomendadas durante essas fases para oferecer seus serviços com o mínimo ou nenhum tempo de inatividade e sem degradação do desempenho ou da experiência do usuário durante o evento.
Preparação: detalhe seu processo de planejamento de eventos
Durante a fase de preparação para um evento de capacidade máxima, entre em contato com sua equipe de conta para revisar os detalhes e as atividades associadas ao evento e entender o impacto geral nos seus projetos.
O planejamento precisa começar muito antes da data do evento. Em alguns casos, pode ser necessário começar a planejar meses antes, enquanto o serviço ainda está em desenvolvimento. Reúna uma equipe que possa ajudar você a analisar o fluxo de trabalho de eventos proposto, o público esperado, os requisitos e os critérios de sucesso. A fase de preparação deve incluir avaliações de risco, planejamento de mitigação e uma revisão de prontidão operacional para garantir que seu fluxo de trabalho esteja bem projetado.
Para mais informações, consulte o Google Cloud framework de arquitetura, que fornece recomendações para ajudar arquitetos, desenvolvedores, administradores e outros profissionais de nuvem a projetar e operar uma topologia de nuvem segura, eficiente, resiliente, de alto desempenho e econômica.
Execução: monitorar e reagir durante a execução
Quando a alta temporada ou o evento de lançamento começar, você vai precisar monitorar de perto a atividade e reagir conforme necessário. Depois de configurar o monitoramento, os alertas e o registro em registros na fase de preparação, você pode monitorar o tráfego, os registros e os níveis de cota essenciais para os negócios e usar essas informações para determinar as causas principais e resolver problemas rapidamente. Para mais informações, consulte Analisar alertas e painéis.
Se algum problema ocorrer, ter um processo de gestão de incidentes e encaminhamento para um supervisor bem definido é essencial para reduzir o esforço e o tempo necessários para abordar e resolver o problema. Se ainda não tiver feito isso, estabeleça um processo de gerenciamento de incidentes. Para mais informações, consulte Preparar-se para resolver problemas durante o evento.
Análise: revise e documente sua análise
Quando a alta temporada ou o evento de lançamento terminar, analise e documente as lições aprendidas para que você possa aplicá-las ao próximo evento importante.
Concentre-se nas seguintes áreas:
Resumo da linha do tempo: capture quando seu tráfego começou a aumentar e os principais eventos (picos) durante o período do evento. Identifique quando, se houver, os problemas surgiram.
Análise da causa raiz: investigue os problemas que ocorreram. Há algo que você ou Google Cloud poderiam ter feito de diferente? É algo que você pode considerar para a próxima vez? Documente as lições aprendidas e as etapas necessárias para melhorar no futuro.
Comparar previsões com dados reais: analise sua previsão de tráfego em comparação com o tráfego real registrado. Onde foram necessários recursos adicionais? Onde os recursos foram subutilizados ou desnecessários?
Retrospectiva: compartilhe e revise as informações anteriores com as principais partes interessadas. Promova uma cultura sem culpa, em que você presume que todos os envolvidos tinham boas intenções e se concentra em identificar as causas contribuintes sem indicar nenhum indivíduo ou equipe.