Trabalhando dia e noite...
Escrito por Jerome Pietri na
Ontem à noite, 5 de nós estávamos no batente depois de um difícil chamado no meio da noite. Independentemente da época, Greg / Pierre-Laurent / Dumè / Seb e eu estávamos de pé das 2 ás 4 da manhã, para cobrir um incidente de BGP.
Quando há uma falha no BGP
A principal particularidade da internet é a sua capacidade de se reconfigurar em caso de interrupção na conexão. Este recurso, herdado desde os primeiros dias das redes militares, visa o funcionamento continuo. Para fazer isso, cada roteador envia a lista de redes ao seu alcance e faz a gestão desta comunicação: este é o protocole BGP (Border Gateway Protocol).
Na noite de terça-feira/quarta-feira, o nosso provedor de rede OVH realizou uma manutenção em nossos roteadores, que consiste em remover as regras BGP obsoletas ou inúteis. Gregory Giannoni explica:
"Falhas nas rede principais têm muito em comum com as investigações da polícia, é muito difícil de conhecer todos os detalhes antes de que o caso esteja realmente encerrado, mas vamos apenas dizer que a limpeza da configuração dos nossos routers foi um pouco mais profunda que o esperado, então as regras de computação que direcionavam para a nossas redes foram deletadas, isolando os nossos servidores do resto do mundo ".
Pierre Laurent Medori, que ainda não teve sua noite de sono, aprova!
Levou uma hora, no meio da noite, para que o sistema voltasse a estar operacional novamente, em sua maior parte, mas alguns problemas de conectividade continuam a sendo resolvidos. Ainda estamos em contato direto com o suporte dos nossos servidores.
Pierre Laurent Medori, que ainda não teve sua noite de sono, aprova!
Levou uma hora, no meio da noite, para que o sistema voltasse a estar operacional novamente, em sua maior parte, mas alguns problemas de conectividade continuam a sendo resolvidos. Ainda estamos em contato direto com o suporte dos nossos servidores.
Manutenção matinal
Sim, nós também tinhamos uma manutenção programada para esta manhã, das 7 às 10 horas GMT +1, o que foi apenas uma coincidência. Consideramos adiar depois desta noite complicada, mas ela tinha que ser conduzida. Correu tudo bem e foi concluída por volta das 9:30. As duas operações são distintas: a manutenção não está relacionada com o falha na conexão, que foi realizada com sucesso.
Para resumir a situação, estamos agora de volta aos trilhos, com um ambiente estável. Estamos ainda à procura de algumas falhas aqui e ali, estamos trabalhando ativamente para eliminar qualquer eventual incidência. Vamos manter todos informados e notificar quando estiver tudo 100%
Para resumir a situação, estamos agora de volta aos trilhos, com um ambiente estável. Estamos ainda à procura de algumas falhas aqui e ali, estamos trabalhando ativamente para eliminar qualquer eventual incidência. Vamos manter todos informados e notificar quando estiver tudo 100%