Huer! Halloween est enfin là. Avez-vous déjà préparé votre déguisement d'Halloween préféré ? Ou peut-être que vos enfants se préparent à faire des bonbons. Nous sommes en 2020, et cette pandémie de coronavirus est probablement la chose la plus effrayante, encore plus terrifiante que les fantômes et les zombies qui frappent à votre porte.
Lorsque vous êtes administrateur système, vous pouvez rencontrer des moments vraiment effrayants qui vous donnent la chair de poule et des nuits blanches, mais même le fantôme, le zombie ou le monstre le plus terrifiant a un ennemi à fuir, que ce soit une croix copte, un collier d'ail , un morceau de Kryptonite ou un administrateur système expert. Dans cet article, je vais présenter quelques moments effrayants possibles pour un administrateur système comme vous. Je vais aussi vous dire comment vous pouvez les gérer. C'est Halloween, après tout, alors considérez cette liste comme ma gâterie d'Halloween pour vous.
J'ai également fourni ce blog sur YouTube, vous aimeriez le regarder plutôt que d'en lire plus.
Astuce n° 1 :plantage du serveur cloud
Il est 2 heures du matin et votre smartphone se met à bourdonner. À moitié éveillé, vous décrochez votre téléphone et fixez l'écran. Tirer. Votre e-mail continue de recevoir des notifications générées automatiquement par le système de messagerie Slack/Teams indiquant que votre serveur de production est en panne depuis deux à trois heures. La prochaine chose que vous savez, votre patron veut que vous et le reste de l'équipe des opérations soyez là dès que possible. C'est définitivement une situation dans laquelle vous ne voulez pas vous retrouver, alors comment pouvez-vous l'empêcher de se produire ?
[ Vous pourriez également aimer : Commandes bash bang :une astuce incontournable pour la ligne de commande Linux ]
Traitement n° 1 :Équilibreur de charge et réplication :éviter le plantage du serveur
Bien qu'il soit impossible d'empêcher complètement les serveurs en cours d'exécution de tomber en panne, il est possible de créer un système presque tolérant aux pannes si vous le construisez de la bonne manière. Une solution consiste à configurer la réplication sur plusieurs environnements avec plusieurs clusters et plusieurs nœuds. Vous pouvez ajouter un équilibreur de charge pour vous assurer que les autres clusters continuent de fonctionner même si un cluster s'arrête. S'il y a trop de trafic ou d'autres problèmes de performances, vous pouvez configurer la fonctionnalité de mise à l'échelle automatique pour effectuer une mise à l'échelle ou une mise à l'échelle.
Astuce n° 2 :Corruption ou perte de données
Un nouveau stagiaire nommé Mike a rejoint votre équipe d'ingénieurs. Ravi d'avoir les outils dont il a besoin, il exécute une requête SQL sans intention de nuire à quoi que ce soit. Mais euh-oh. Ce petit changement entraîne la suppression de votre table de base de données et toutes les données clients critiques ont maintenant disparu. Que pouvez-vous faire pour éviter qu'un tel problème ne se produise ?
Traitement n° 2 :Sauvegarde et restauration des données :corrigez la perte et la corruption des données
La perte de données est un problème sérieux pour tout service ou application en direct. Ainsi, la stratégie de sauvegarde et de restauration doit toujours être disponible, au moins pour l'environnement de production. Idéalement, la procédure de sauvegarde et de restauration devrait être disponible dans tous les environnements. Créez également un mécanisme pour automatiser ce processus. La façon la plus simple de commencer est de créer des scripts bash pour exécuter une série de commandes de sauvegarde et de restauration.
Astuce n° 3 :plantage de l'application
Hourra ! Votre serveur et votre base de données sont désormais tolérants aux pannes et solides comme le roc, mais une application Java exposant d'importants points de terminaison orientés vers l'entreprise explose soudainement. Lorsqu'un client visite le site Web, il ne voit qu'une page 404, ce qui coûte à votre entreprise un million de dollars par minute.
Traitement n° 3 :Observabilité - journalisation et surveillance :identifiez rapidement une erreur ou un bogue
Les erreurs d'application se produisent tout le temps, et il existe de nombreuses techniques et modèles de conception de programmation, comme le modèle Disjoncteur, pour gérer les problèmes. Cependant, toute erreur s'exécutant dans l'application doit être rapidement identifiée avant de pouvoir être corrigée. Ainsi, la journalisation et la surveillance sont des nécessités absolues pour toutes les applications. Assurez-vous que votre application dispose de points de débogage activés dans les blocs et les lignes de code. Ces erreurs ou sorties doivent être envoyées aux tableaux de bord de surveillance afin que les développeurs puissent identifier rapidement le problème.
Astuce n° 4 :une application lente
Vous avez ajouté la journalisation et la surveillance pour toutes les applications. Vous pouvez enfin dormir heureux en rêvant de gagner le concours virtuel de costumes d'Halloween de cette année. Cependant, quelques minutes plus tard, vous lisez un e-mail d'un client indiquant que le service d'application semble vraiment lent.
Traitement n° 4 :Outils de développement pour l'identification des goulots d'étranglement :découvrez où se produit le ralentissement
Tout comme un développeur peut identifier rapidement le goulot d'étranglement avec la surveillance et la journalisation activées dans toutes les applications, vous pouvez utiliser des outils de développement tels que traceroute
/tracert
, les outils de développement du navigateur Chrome et Wireshark pour dépanner les applications et identifier facilement où les problèmes de performances se produisent. Connaître des outils comme celui-ci peut aider un développeur à résoudre les problèmes complexes liés aux applications basées sur le cloud.
Astuce n° 5 :Latence lente signalée dans un seul emplacement
En tant qu'administrateur système principal, vous avez enfin trouvé la cause de la lenteur globale de l'application. Vous avez résolu le problème et le client vous envoie plus tard une lettre de remerciement indiquant que tout va bien. Cependant, un jour plus tard, vous recevez un e-mail d'un autre client, situé à Sydney, en Australie, se plaignant que l'application de votre entreprise semble lente lorsqu'il visite le site. Que se passe-t-il ?
Traitement n° 5 :Réseau de diffusion de contenu (CDN) et accès multirégional :réduisez la latence
Bien que le problème puisse toujours être un problème de latence en raison de la conception d'une application, le problème peut être lié à un manque de disponibilité du serveur pour le client dans cette ville ou cette région. Une façon de résoudre le problème consiste à ajouter un emplacement supplémentaire pour vos services en cours d'exécution afin que le serveur le plus proche puisse être automatiquement sélectionné pour fournir le contenu nécessaire au client. En d'autres termes, un cluster multirégional et un réseau de diffusion de contenu (CDN) peuvent aider à atténuer le problème.
[ Télécharger maintenant :Un guide de l'administrateur système sur les scripts Bash. ]
Récapitulez
C'est tout ! Vous avez appris à résoudre les cinq problèmes les plus courants que vous pouvez rencontrer en tant qu'administrateur système lorsque vous avez des applications exécutées sur un serveur ou un environnement cloud. Des problèmes comme ceux-ci se produisent tout le temps, mais il existe des moyens de prévenir ou d'atténuer les problèmes de manière appropriée avec la bonne architecture et une bonne approche d'administration système. J'espère que cet article vous a aidé à devenir un meilleur administrateur système. Joyeux Halloween !