Na última sexta-feira, 30.05, enfrentamos uma instabilidade no sistema e estou aqui para te explicar o que aconteceu.
Exibir no navegador
CHEGOU O QUE FALTAVA!-3

Comunicado Oficial

Prezados clientes e parceiros,

 

Sabemos o quanto cada minuto de funcionamento do sistema é essencial para a operação do seu restaurante - e ontem, infelizmente, não entregamos o serviço que você confia e espera da Saipos.

 

Na noite de sexta-feira, 30/05, por volta das 21h05 (horário de Brasília), nossa plataforma sofreu uma indisponibilidade total, impossibilitando o acesso e o funcionamento de todas as operações para todos os clientes. 

 

Entre 21h05 e 22h35, nenhum recurso do sistema pôde ser utilizado, impactando diretamente o atendimento de salão, fechamento de mesas, gestão de pedidos e operações delivery.

 

Reconhecemos, com total transparência, que falhamos em garantir a estabilidade do nosso serviço em um momento crítico. Pedimos desculpas sinceras a todos que foram prejudicados.

O que aconteceu e como atuamos

Identificamos uma falha de rede em serviços da Amazon Web Services (AWS) que causou problemas de conexão entre o sistema Saipos e o banco de dados que utilizamos - ambos serviços hospedados na AWS e que se comunicam entre si. 

 

Esta falha causou uma queda abrupta e repentina da quantidade de servidores disponíveis, principalmente dos servidores responsáveis pelo Kanban e Troca de Status de pedidos em um primeiro momento. Em seguida, um grupo de servidores responsáveis pelo login e configurações do sistema também foi afetado. 

 

No momento da ocorrência, nossa equipe técnica foi imediatamente acionada por nossos sistemas de monitoramento e foi iniciado a atuação para restabelecer e garantir a retomada do sistema o mais rápido possível. No entanto, como o incidente ocorreu em um período de alta demanda e com muitos clientes tentando retomar suas operações ao mesmo tempo, gerou uma sobrecarga na retomada do serviço total. 

 

Nosso time atuou para aumentar a capacidade de servidores manualmente para a retomada em alto volume (pois possuímos sistemas que aumentam automaticamente de acordo com a carga) - aumentando em até 3 vezes a quantidade de servidores comparado a uma sexta-feira normal de operação, ultrapassando 500 servidores.

 

Porém nem todos os servidores entraram em operação conforme o esperado, fazendo com que nosso time técnico precisasse atuar manualmente. Após a reinicialização completa de todos os grupos de servidores, o sistema foi restabelecido com seu funcionamento normal e mesmo recebendo o dobro de requisições.

 

Aproximadamente às 22h35 (horário de Brasília) o funcionamento normal do sistema foi completamente restabelecido, tendo nossos servidores operando de forma completa e sem problemas.

    Nossa comunicação com vocês

    Nosso time de suporte foi impactado pela alta demanda e registramos um pico de mais de 4 mil chamados em pouco tempo. Isso gerou atrasos e, em alguns casos, falta de retorno imediato. Entendemos como isso ampliou ainda mais o transtorno - pedimos desculpas por isso também.

     

    Mesmo assim, nos esforçamos para manter todos informados por todos os canais disponíveis, com atualizações em tempo real assim que tínhamos novas informações.

     

    Além disso, sabemos que alguns de vocês visualizaram uma mensagem sobre "manutenção programada" ao tentar acessar o sistema - e queremos esclarecer: não se tratava de uma manutenção agendada.

     

    Esta ação foi necessária para bloquear de forma rápida o uso do sistema por alguns poucos minutos como parte da estratégia de retomada dos serviços.

     

    Para agilidade durante o problema usamos uma comunicação emergencial, já configurada em outro momento para outra comunicação, para restringir os acessos ao login temporariamente, e isso causou uma experiência ruim para vocês também. 

      Afirmamos nosso compromisso

      Não nos contentamos apenas em resolver a situação no momento. Já estamos estudando ações para evitar que algo assim volte a ocorrer:

      1. Para garantir o bom funcionamento durante o final de semana, manteremos durante toda a operação uma infraestrutura maior e superestimada como se estivéssemos em período de datas especiais.
      2. Seguiremos em operação especial de monitoramento e acompanhamento de nossa infraestrutura com nosso time de tecnologia.
      3. Revisaremos nossos procedimentos em casos de crise de instabilidade para que a retomada dos sistemas em sobrecarga sejam agilizados.

      Reforçamos por fim, que não houve mudanças significativas em nossa infraestrutura recentemente que pudesse ter causado o incidente. Toda a nossa arquitetura e infraestrutura estavam operando de forma habitual para um dia de alto volume (sexta). 

       

      De forma mensal revisamos nossa infraestrutura e quantidade de servidores necessários para atender os nossos clientes de forma estável e de acordo com o nosso crescimento para garantir a confiabilidade de nossos serviços. Esta revisão foi realizada recentemente, momento no qual aumentamos a quantidade de servidores em torno de 15%.

       

      Mais uma vez, pedimos desculpas! Vamos continuar trabalhando incansavelmente para entregar a confiança que você depositou na Saipos com mais estabilidade, agilidade e respeito à sua operação.

       

      Com respeito e gratidão,

      Time Saipos

        Assinatura de E-mail Profissional minimalista azul e branco-Sep-12-2024-01-06-21-0199-AM
        btm

        Saipos - Sistema para Restaurantes, Av. Unisinos, São Leopoldo, RS

        Cancelar assinatura