16th septembre 2019

Infrastructure Panne globale

Panne globale aujourd'hui entre 15h et 17h ... alors qu'un de nos administrateur était en train de configurer le cluster pour mettre en production deux serveurs de plus nous avons du faire face à une série de petits problèmes qui ajoutés les uns aux autres ont rendu la plate-forme complètement inaccessible pendant deux heures.

  1. le RAID de la partition / du serveur principal s'est mis en échec pour une raison inconnue
  2. manque de chance c'était durant une opération important de jonction au cluster, de ce fait corosync ne pouvait plus synchroniser ses données
  3. comble de pas de bol un clic malencontreux sur la politique par défaut du firewall a bousculé le filtrage des paquets en mode DROP only (même les sessions ssh étaient refusées)
  4. et pour ajouter un peu de sel, l'interface de gestion d'ovh permettant de redémarrer les serveurs affichait un message sympathique "internal server failure" ...

Bref, un peu de calme, un peu de stress et beaucoup de concentration et tout est maintenant de nouveau opérationnel. Nous vous présentons toutes nos excuses.

Merci pour votre compréhension.

Épilogue: ça traîne encore jusqu'à 19h15 ... et finalement ça nous a donné un petit coup de pouce pour se lancer dans le gros chantier de mise en prod du cluster global avec l'arrivée de deux nouveaux serveurs pour équilibrer la charge (trois gros domaines de charge: l'entrée / sortie de mails, le serveur central qui stocke tout et le serveur de listes de diffusions).

À 23h le cluster passe en prod' et les serveurs virtuels de relais mails entrant / sortant sont délocalisés sur un 2° serveur physique. La migration du serveur virtuel de listes de diffusion est lancée et provoquera donc un arrêt du service pendant la nuit, à priori demain vers 10h du matin tout devrait être 100% opérationnel !