Une équipe de 3 admins pour être serein

June 2, 2010

noc3Je reprends ici une discussion commencée sur un Thread à propos de 37signal, et repris sur ce post car je trouve que le sujet est intéressant : La taille minimum d’une équipe d’administration système et réseau.

Alors bien sur, il n’est pas question ici des grosses structures qui doivent et peuvent mettre en place des équipes  d’exploitation dédiées. Les échanges concernent surtout le nombre d’admins nécessaire pour permettre une exploitation/surveillance quasi continue sans pour autant courir au burn out.

Lire la suite »


Load balancing et répartition de charge automatique chez Amazon

May 27, 2009

amazon-web-services-mapreduceEncore du nouveau chez Amazon Web Services, après l’outil permettant de déployer ses applications directement depuis son poste de travail Amazon annonce aujourd’hui deux nouvelles fonctions permettant de simplifier la montée en charge de son application web.

De manière générale les obstacles classiques à la montée en charge d’une application sont la répartition de charge et l’adéquation des ressources en fonction du trafic. Ce sont ces deux points qu’Amazon propose de traiter grâce à ses nouveautés. Lire la suite »


Les incidents majeurs de l’internet en 2008

January 11, 2009

pingdom Pour commencer 2009 je vous propose un retour rapide sur 2008. En effet l’amélioration des services se fait souvent par la correction des précédentes erreurs.

A ce titre Pingdom a rassemblé dix incidents importants intervenus sur Internet en 2008. Ils y ont inclus les problèmes et pannes sur les sites Web mais aussi les interruptions de réseaux à grande échelle. Certains ont déjà été mentionné sur ce blog, d’autres vous ont peut-être affecté car d’une manière générale ce type d’incident tend à impacter de plus en plus de monde.

Par ailleurs, il ne s’agit ici que des gros incidents américains, en France nous avons aussi nos sites indisponibles : SNCF, Bouygues, Cogent (incident dans son système de climatisation), OVH (du liquide de refroidissement dans les serveurs) et j’en passe…

Voici un petit aperçu de cette liste, et je vous invite bien sur à consulter la source si vous souhaitez plus d’informations :

- Explosion et incendie dans le datacenter de The Planet Lire la suite »


Les points à vérifier pour fiabiliser votre architecture

October 28, 2008

Il est parfois utile de faire une pause dans l’exploitation quotidienne pour vérifier que les optimisations et contrôles basiques sont bien en place. C’est ce que propose cette petite liste. Elle vous permettra de vérifier que rien ne vous échappe dans votre architecture. Elle provient du blog www.productionscale.com, et plus précisément de cette note à propos de la planification et du suivi d’un système.

Voici un résumé de cette note qui regroupe un ensemble de bonne pratique  :

  • Gérer le déploiement : Votre système de publication doit intégrer un workflow précis, gérer les versions et le retour en arrière en cas de problème. De plus le déploiement doit être complètement automatique et indépendant du parc matériel.
  • Découpage fonctionnel : Décomposer votre application en silos fonctionnels afin de disposer de composants optimisés par tache.
  • Partitionner vos données : Séparer les requêtes de lecture et d’écriture, et dès le début penser à un moyen de diviser/partitionner vos bases.
  • Séparer les contenus dynamiques et statiques : Vous pourrez plus facilement les gérer grâce à des reverse proxy ou via un CDN. Lire la suite »

Des problèmes de charge chez LinkedIn ?

October 10, 2008

La fréquentation de ce site ne cesse de progresser mais malheureusement ses périodes d’indisponibilité aussi. Pourtant LinkedIn dispose d’une bonne architecture technique et en général son ‘uptime‘ est dans la moyenne, mais depuis début septembre les problèmes s’accumulent.

Comparativement au début de l’année ( 4H d’interruption sur les deux premiers mois de 2008) les dernières semaines sont en fort recul. En effet sur septembre le site était hors ligne pendant 9 heures, dont 5 heures pleines lors de la coupure de courant du 6 septembre. Lire la suite »


Gérer les interruptions de service

July 16, 2008

outage Garantir une disponibilité de 100% quelque soit le nombre d’utilisateurs d’un service et sans pouvoir être sûr de l’ensemble des ressources disponibles est impossible. Il convient donc de mettre en place des stratégies de communications et d’actions pour gérer les périodes d’interruptions.

L’actualité récente nous prouve que personne n’est à l’abri des incidents. En quelques jours ce en sont pas moins de cinq services qui sont tombés  : Le nouveau service d’Apple : Mobile Me, mais aussi de Facebook (de nouveau tombé cette semaine), Google Docs, 37signals et enfin LiveSide.

Personne n’est donc à l’abri de problème technique, dépendant ou non de sa volonté d’ailleurs (un incident sur un datacenter est très pénalisant et il est difficile de s’en prémunir)

C’est pour cette raison qu’il faut mettre en place un plan d’action permettant de communiquer rapidement avec vos utilisateurs. Cela vous permettra de leur montrer que même pendant l’incident vous maitrisez en partie la situation.

Voici un modèle, à adapter en fonction de votre service, qui vous permettra de bâtir un plan d’action : Lire la suite »


Audit et test de montée en charge avec JMeter

June 16, 2008

jmeterLa mise en production d’un nouveau site est toujours une opération délicate. Sur les sites à fort trafic l’ajout d’une fonctionnalité peut également réserver des surprises. Pourtant il existe des outils permettant de tester efficacement un site ou une fonction avant son déploiement en simulant des clics et des internautes.

JMeter fait parti de cette série de logiciel. C’est bien sur du GPL et comme pour la plupart des logiciels Apache, c’est stable, simple et très efficace.

jmeter-sample

Il existe une interface graphique permettant de configurer ses tests, mettre en place les  rapports graphiques, appliquer des filtres et configurer les alertes, bref mettre en place la batterie de tests.

Ensuite vous pouvez lancer les tests depuis votre poste (pour tester la configuration) avant de la déployer sur vos serveurs de tests. Ces serveurs peuvent être répartis sur le net pour simuler au mieux de vrais internautes (temps de réponses, latence, etc..) Lire la suite »


Comment WordPress surveille des centaines de serveurs et livre 20 millions de pages / jours

January 23, 2008

wordpress WordPress à une croissance impressionnante depuis plusieurs années. Le nombre de pages vues est en croissance constante (quasiment un doublement sur les six dernier mois). L’architecture technique et matérielle doit suivre et surtout être suivie. Pour compliquer la tache les serveurs de WordPress sont très hétérogènes et hébergés dans 5 centres de données (datacenter) différents.

worpress pv

Comment suivent-ils ces serveurs, avec quoi font-ils les graphs et le monitoring ? Lire la suite »


Un excellent service de surveillance de service web : mon.itor.us

November 30, 2007

Juste un petit post pour vous parler de mon.itor.us. Il s’agit d’un excellent service de surveillance (monitoring) et d’alerte. Plusieurs services sont ‘monitorables’.


- FTP

- SIP

- POP3 / IMAP

- DNS

- HTTP / HTTPS

- etc…

Vous recevez un mail récapitulatif toutes les semaines et immédiatement en cas d’incident.

C’est un peu comme un Nagios mais déjà configurer, et qui de plus fonctionne sur une plate forme externe (robuste et multi points).

Voila, le plus simple c’est d’aller visiter leurs site : http://www.mon.itor.us/

Je termine juste en vous disant que ça est entièrement gratuit..

Bonne utilisation.