GNU/Linux >> Tutoriels Linux >  >> Linux

Histoires Linux :quand les sauvegardes ont sauvé la journée

Cet article est une histoire de mon passé. J'ai travaillé comme administrateur système pour une entreprise qui gérait une boutique en ligne qui vendait du matériel informatique et des logiciels.

À l'arrière, des dizaines d'employés utilisaient un terminal serveur pour travailler avec le logiciel ERP qui gérait l'ensemble des marchandises et du commerce. Les serveurs de terminaux et les bases de données étaient essentiels pour le processus commercial de vente de nos produits. Lorsque l'un de ces systèmes tombait en panne, des dizaines d'employés ne pouvaient plus faire leur travail et les clients ne pouvaient plus rien acheter.

Combien de temps avons-nous ?

Nous nous sommes donc assis avec le propriétaire du processus métier et lui avons demandé :"Eh bien, pensez à une situation où le système est en panne et n'est plus utilisable. Combien de temps avez-vous pour récupérer jusqu'à ce que les dommages causés à l'entreprise soient dévastateurs ?" Le responsable réfléchit un moment et dit :"Deux heures, max !"

Nous nous sommes assis avec les gars qui exécutaient l'application ERP et leur avons demandé :"Combien de temps faudrait-il pour réinstaller l'application et configurer le serveur de terminaux si nous devions récupérer d'une défaillance fatale du système ?" La réponse a été :"Deux jours, minimum !" Je suppose que vous pouvez voir l'écart ici.

Pour moi, la première priorité était de faire passer le temps de restauration de deux jours à moins de deux heures. La réinstallation du système d'exploitation, des applications et la restauration des sauvegardes de données n'étaient pas une option, car cela prend trop de temps. J'ai choisi une application de sauvegarde d'image capable d'effectuer une sauvegarde complète du système c'est-à-dire le système d'exploitation, les applications installées, les bibliothèques et les données. Grâce à ce logiciel, je serais en mesure de restaurer le système sans aucune tâche d'installation manuelle à effectuer.

De quoi avons-nous besoin ?

Une configuration classique consiste à exécuter la sauvegarde la nuit lorsque personne ne travaille. En cas d'échec, nous devrons restaurer l'image d'hier soir ou peut-être une version encore plus ancienne. Dans ce scénario, un test a montré qu'il nous fallait cinq heures pour une restauration complète. C'est mieux que deux jours mais ce n'est toujours pas suffisant. Et il y a un autre problème caché dans cette approche. Si le système s'est écrasé dans la soirée et que nous devons restaurer à partir de la sauvegarde de la nuit dernière, nous perdrons toutes les modifications apportées à la journée en cours. Ce n'était pas acceptable pour notre boutique en ligne. Eh bien, notre première pensée a été d'exécuter une sauvegarde incrémentielle toutes les heures. Dans ce cas, nous ne perdrions que la dernière heure de données. Mais que se passe-t-il lorsque le problème qui casse notre système est déjà dans l'image de sauvegarde lorsque nous découvrons le problème ? Eh bien, voici ce que nous avons fait.

Nous nous sommes assis à nouveau et avons discuté du temps qu'il faut pour découvrir un problème dévastateur qui conduirait à une récupération du système. Nous nous sommes mis d'accord sur un délai de quatre heures. En résumé, nous voulions perdre le moins de travail possible, restaurer en deux heures maximum et nous assurer qu'un problème ne serait pas déjà dans la sauvegarde lorsque nous l'avons découvert. Avec ces informations, j'ai mis en place une approche de sauvegarde que les éditeurs de logiciels appellent restauration instantanée, restauration fantôme, restauration préemptive ou un terme similaire. Nous avons exécuté des tâches de sauvegarde incrémentielles toutes les heures et restauré les sauvegardes en arrière-plan sur une nouvelle machine virtuelle. Chaque heure complète, nous avions un système prêt qui était quatre heures en arrière et qui devait juste être terminé. Donc, si je choisis de restaurer la restauration incrémentielle d'il y a une heure, cela prendrait moins de temps qu'une restauration complète du système car seuls les petits incréments devaient être restaurés sur la machine virtuelle presque prête.

Et l'effort a payé

Un jour, j'étais en vacances, en train de faire un barbecue et de boire de la bière, quand j'ai reçu un appel de mon collègue me disant que le serveur terminal avec l'application ERP était en panne en raison d'une mise à jour ratée et que le gars qui a exécuté la mise à jour a oublié de prendre un instantané d'abord.

La seule chose que je devais dire à mon collègue était d'arrêter la machine en panne, de trouver l'interface utilisateur de notre système de sauvegarde/restauration, puis d'identifier la tâche de restauration. Enfin, je lui ai expliqué comment choisir l'horodatage des quatre dernières heures lorsque la restauration doit se terminer. La restauration s'est terminée 30 minutes plus tard et le système était prêt à être utilisé à nouveau. Nous étions de retour en action après un total de 30 minutes, et seul le travail des deux dernières heures a été perdu ! Génial! Maintenant, retour aux vacances.

Conclusion

N'oubliez donc pas que le temps et l'argent consacrés à une solution de sauvegarde et de restauration bien adaptée sont bien dépensés lorsqu'il s'agit d'une restauration d'urgence.

[ Cours en ligne gratuit :Présentation technique de Red Hat Enterprise Linux. ]


Linux
  1. Apprivoiser la commande tar :conseils pour gérer les sauvegardes sous Linux

  2. Linux – Comment mesurer le temps d'arrivée d'un paquet ?

  3. Linux - Comment faire en sorte que Sar s'affiche pour la veille ?

  4. Linux - La valeur appropriée de Vm.swappiness lors de l'utilisation de Zram ?

  5. Accélérez rsync lors de la migration d'un serveur Linux à partir de la ligne de commande

Restaurer un ancien MacBook avec Linux

Les dix plus grandes histoires Linux de l'année 2015

Qu'est-ce que le Shell sous Linux ?

Comment trouver qui a redémarré le système Linux et quand

La commande timer sous Linux

Linux - Quels répertoires dois-je exclure lors de la sauvegarde d'un serveur ?