Identificamos uma falha de rede em serviços da Amazon Web Services (AWS) que causou problemas de conexão entre o sistema Saipos e o banco de dados que utilizamos - ambos serviços hospedados na AWS e que se comunicam entre si.
Esta falha causou uma queda abrupta e repentina da quantidade de servidores disponíveis, principalmente dos servidores responsáveis pelo Kanban e Troca de Status de pedidos em um primeiro momento. Em seguida, um grupo de servidores responsáveis pelo login e configurações do sistema também foi afetado.
No momento da ocorrência, nossa equipe técnica foi imediatamente acionada por nossos sistemas de monitoramento e foi iniciado a atuação para restabelecer e garantir a retomada do sistema o mais rápido possível. No entanto, como o incidente ocorreu em um período de alta demanda e com muitos clientes tentando retomar suas operações ao mesmo tempo, gerou uma sobrecarga na retomada do serviço total.
Nosso time atuou para aumentar a capacidade de servidores manualmente para a retomada em alto volume (pois possuímos sistemas que aumentam automaticamente de acordo com a carga) - aumentando em até 3 vezes a quantidade de servidores comparado a uma sexta-feira normal de operação, ultrapassando 500 servidores.
Porém nem todos os servidores entraram em operação conforme o esperado, fazendo com que nosso time técnico precisasse atuar manualmente. Após a reinicialização completa de todos os grupos de servidores, o sistema foi restabelecido com seu funcionamento normal e mesmo recebendo o dobro de requisições.
Aproximadamente às 22h35 (horário de Brasília) o funcionamento normal do sistema foi completamente restabelecido, tendo nossos servidores operando de forma completa e sem problemas.