Avec les vacances, je me suis éloigné durant quelques jours de mon infra auto-hébergée, infra localisée dans mon domicile et que je gère seul pour mes besoins propres. Dans l’absolu, je peux me passer d’un accès physique permanent à mes machines… Du moins quand tout marche…
Bref, je me trouvais donc à plus de 600 km de chez moi (ce n’est pas totalement incohérent pour des vacances). Le logement où je me trouvais ne disposait pas d’accès Wifi (c’est un peu rare aujourd’hui mais pourquoi pas). Dans un tel cas, j’avais tout prévu et je pensais qu’il m’était possible de compter sur mon point d’accès mobile en 4G. Malheureusement, je suis arrivé dans une zone blanche pour mon opérateur mobile (au fond d’une vallée dans une région montagneuse ; manifestement, les réseaux mobiles des autres opérateurs étaient visibles). Mon accès à internet a donc été vraiment plus limité que prévu. À ce moment là bien entendu, j’espère très fort que tout va rouler à la maison.
La loi de Murphy, c’est celle de l’emmerdement maximum. Dit autrement, tout ce qui peut arriver va arriver. Tout naturellement, conformément à cette loi empirique, c’est précisément à ce moment-là que mon SI est devenu injoignable. Je m’en suis rendu compte alors que j’étais en extérieur là où je captais du réseau sur mon smartphone, lorsque j’ai constaté que plusieurs de mes services ne répondaient plus (service mail, nextcloud, mastodon, …). L’idée quand je suis en vacances, c’est de ne surtout pas avoir à dépanner mon infra. Mais en même temps, c’est gênant que tous soit planté durant plusieurs jours car j’utilise plusieurs de ces services tout le temps (le problème est survenu alors que j’étais sur place depuis seulement deux jours ; il allait se passer quelques jours avant que je puisse me trouver physiquement devant me machines).
Au premier abord, le cas peut sembler un peu pourri quand même. Il m’a d’abord fallu comprendre ce qui se passait. Coup de chance, cette fois-ci j’avais mon PC avec moi J’avais, dans un premier temps, hésité à l’emmener. Il y a quelques temps, j’ai aussi mis en place un accès VPN sur mon parefeu physique, précisément pour pouvoir réagir au cas où dans ce type de situation. Aussi, après m’être déplacé dans une zone couverte en 4G, j’ai pu commencer mes investigations. Déjà, j’ai réussi à me connecter en VPN. Le parefeu répondait donc bien, ce qui m’a donné un peu d’espoir. Le scan de réseau a vite montré que mes serveurs Proxmox (VE et Backup) étaient arrêtés et que tout le reste était OK. J’en ai donc déduit assez vite qu’il y avait dû y avoir une coupure électrique dans mon logement. En effet, les seules machines nécessitant une action particulière pour démarrer sont celles-là.
Note : plus tard, de retour chez moi, j’ai eu confirmation de mon hypothèse car j’ai constaté que l’uptime de mon parefeu me faisait remonter à peu près à l’heure de la perte de mes services (je ne sais par contre pas dire ce qui a causé cette courte coupure électrique).
Une fois la situation bien posée, il me restait à trouver comment résoudre le problème à distance. Ce n’est pas un cas que j’avais spécifiquement anticipé. Mes machines comprennent le Wake-On-LAN (démarrage par le réseau). Par ailleurs, Pfsense propose nativement la fonctionnalité de démarrage de machines par le réseau et a une patte dans le réseau où se trouvent les machines à réveiller. Tous les éléments nécessaires étaient là. Chose importante, pour utiliser le démarrage par le réseau, il faut disposer également de l’adresse MAC des machines à réveiller. Coup de chance encore, j’avais cette information avec moi, localement sur ma machine. La fonctionnalité Wake-On-LAN étant belle et bien activée, j’ai donc pu redémarrer mes machines par ce biais et tout est remonté en quelques minutes.
Tout d’abord, je dois bien avouer que j’ai eu beaucoup de chance dans cette histoire. Ensuite, avec le recul et bien que ce soit un cas particulier parmi d’autres, je vois que ce sont des actions réalisées au fil de l’eau qui ont rendu la remise en état opérationnel possible complètement à distance. Il y a bien des cas où j’aurais de toute manière été bloqué mais ici, disposer notamment d’un parefeu physique joignable et d’un accès VPN opérationnel, ainsi que de quelques informations en local sur mon PC, ça a fait toute la différence. Il y a quelques semaines, mon parefeu était virtualisé sur ma machine Proxmox VE, ce qui m’aurait totalement bloqué.
Cet incident étant passé, je vais continuer à travailler sur la thématique de mon plan de reprise d’activité (PRA) et sur le maintien en conditions opérationnel (MCO) de mon SI. C’est un travail qui ne s’arrête jamais…