June 2, 2010
Je reprends ici une discussion commencée sur un Thread à propos de 37signal, et repris sur ce post car je trouve que le sujet est intéressant : La taille minimum d’une équipe d’administration système et réseau.
Alors bien sur, il n’est pas question ici des grosses structures qui doivent et peuvent mettre en place des équipes d’exploitation dédiées. Les échanges concernent surtout le nombre d’admins nécessaire pour permettre une exploitation/surveillance quasi continue sans pour autant courir au burn out.
Lire la suite »
4 Comments |
Monitoring, Organisation, Étude de cas | Tagged: Administration système, Monitoring |
Permalink
Posted by Marc
January 11, 2009
Pour commencer 2009 je vous propose un retour rapide sur 2008. En effet l’amélioration des services se fait souvent par la correction des précédentes erreurs.
A ce titre Pingdom a rassemblé dix incidents importants intervenus sur Internet en 2008. Ils y ont inclus les problèmes et pannes sur les sites Web mais aussi les interruptions de réseaux à grande échelle. Certains ont déjà été mentionné sur ce blog, d’autres vous ont peut-être affecté car d’une manière générale ce type d’incident tend à impacter de plus en plus de monde.
Par ailleurs, il ne s’agit ici que des gros incidents américains, en France nous avons aussi nos sites indisponibles : SNCF, Bouygues, Cogent (incident dans son système de climatisation), OVH (du liquide de refroidissement dans les serveurs) et j’en passe…
Voici un petit aperçu de cette liste, et je vous invite bien sur à consulter la source si vous souhaitez plus d’informations :
- Explosion et incendie dans le datacenter de The Planet Lire la suite »
4 Comments |
Monitoring, incident, indisponibilite | Tagged: incident, indisponibilite |
Permalink
Posted by Marc
October 28, 2008
Il est parfois utile de faire une pause dans l’exploitation quotidienne pour vérifier que les optimisations et contrôles basiques sont bien en place. C’est ce que propose cette petite liste. Elle vous permettra de vérifier que rien ne vous échappe dans votre architecture. Elle provient du blog www.productionscale.com, et plus précisément de cette note à propos de la planification et du suivi d’un système.
Voici un résumé de cette note qui regroupe un ensemble de bonne pratique :
- Gérer le déploiement : Votre système de publication doit intégrer un workflow précis, gérer les versions et le retour en arrière en cas de problème. De plus le déploiement doit être complètement automatique et indépendant du parc matériel.
- Découpage fonctionnel : Décomposer votre application en silos fonctionnels afin de disposer de composants optimisés par tache.
- Partitionner vos données : Séparer les requêtes de lecture et d’écriture, et dès le début penser à un moyen de diviser/partitionner vos bases.
- Séparer les contenus dynamiques et statiques : Vous pourrez plus facilement les gérer grâce à des reverse proxy ou via un CDN. Lire la suite »
2 Comments |
Architecture, Monitoring, Organisation | Tagged: akamai, Cacti, CDN, Méthode, Monitoring, nagios, testing |
Permalink
Posted by Marc
October 10, 2008

La fréquentation de ce site ne cesse de progresser mais malheureusement ses périodes d’indisponibilité aussi. Pourtant LinkedIn dispose d’une bonne architecture technique et en général son ‘uptime‘ est dans la moyenne, mais depuis début septembre les problèmes s’accumulent.
Comparativement au début de l’année ( 4H d’interruption sur les deux premiers mois de 2008) les dernières semaines sont en fort recul. En effet sur septembre le site était hors ligne pendant 9 heures, dont 5 heures pleines lors de la coupure de courant du 6 septembre. Lire la suite »
No Comments » |
Monitoring, indisponibilite, Étude de cas | Tagged: Equinix, indisponibilite, linkedin |
Permalink
Posted by Marc
July 16, 2008
Garantir une disponibilité de 100% quelque soit le nombre d’utilisateurs d’un service et sans pouvoir être sûr de l’ensemble des ressources disponibles est impossible. Il convient donc de mettre en place des stratégies de communications et d’actions pour gérer les périodes d’interruptions.
L’actualité récente nous prouve que personne n’est à l’abri des incidents. En quelques jours ce en sont pas moins de cinq services qui sont tombés : Le nouveau service d’Apple : Mobile Me, mais aussi de Facebook (de nouveau tombé cette semaine), Google Docs, 37signals et enfin LiveSide.
Personne n’est donc à l’abri de problème technique, dépendant ou non de sa volonté d’ailleurs (un incident sur un datacenter est très pénalisant et il est difficile de s’en prémunir)

C’est pour cette raison qu’il faut mettre en place un plan d’action permettant de communiquer rapidement avec vos utilisateurs. Cela vous permettra de leur montrer que même pendant l’incident vous maitrisez en partie la situation.
Voici un modèle, à adapter en fonction de votre service, qui vous permettra de bâtir un plan d’action : Lire la suite »
No Comments » |
Datacenter, Développement, Monitoring | Tagged: Datacenter, disponibilité, incident, Service Web |
Permalink
Posted by Marc
June 16, 2008
La mise en production d’un nouveau site est toujours une opération délicate. Sur les sites à fort trafic l’ajout d’une fonctionnalité peut également réserver des surprises. Pourtant il existe des outils permettant de tester efficacement un site ou une fonction avant son déploiement en simulant des clics et des internautes.
JMeter fait parti de cette série de logiciel. C’est bien sur du GPL et comme pour la plupart des logiciels Apache, c’est stable, simple et très efficace.

Il existe une interface graphique permettant de configurer ses tests, mettre en place les rapports graphiques, appliquer des filtres et configurer les alertes, bref mettre en place la batterie de tests.
Ensuite vous pouvez lancer les tests depuis votre poste (pour tester la configuration) avant de la déployer sur vos serveurs de tests. Ces serveurs peuvent être répartis sur le net pour simuler au mieux de vrais internautes (temps de réponses, latence, etc..) Lire la suite »
3 Comments |
Architecture, Logiciel, Monitoring | Tagged: testing |
Permalink
Posted by Marc
January 23, 2008
WordPress à une croissance impressionnante depuis plusieurs années. Le nombre de pages vues est en croissance constante (quasiment un doublement sur les six dernier mois). L’architecture technique et matérielle doit suivre et surtout être suivie. Pour compliquer la tache les serveurs de WordPress sont très hétérogènes et hébergés dans 5 centres de données (datacenter) différents.

Comment suivent-ils ces serveurs, avec quoi font-ils les graphs et le monitoring ? Lire la suite »
1 Comment |
Clustering, Monitoring, optimisation, Étude de cas | Tagged: Munin, nagios, wordpress |
Permalink
Posted by Marc
November 30, 2007
Juste un petit post pour vous parler de mon.itor.us. Il s’agit d’un excellent service de surveillance (monitoring) et d’alerte. Plusieurs services sont ‘monitorables’.
- FTP
- SIP
- POP3 / IMAP
- DNS
- HTTP / HTTPS
- etc…
Vous recevez un mail récapitulatif toutes les semaines et immédiatement en cas d’incident.
C’est un peu comme un Nagios mais déjà configurer, et qui de plus fonctionne sur une plate forme externe (robuste et multi points).
Voila, le plus simple c’est d’aller visiter leurs site : http://www.mon.itor.us/
Je termine juste en vous disant que ça est entièrement gratuit..

Bonne utilisation.
1 Comment |
Logiciel, Monitoring | Tagged: nagios, testing |
Permalink
Posted by Marc