La gestion de la croissance chez facebook

July 1, 2010

croissance facebook
Aditya Agarwal
est ‘Director of Engineering’ chez Facebook et il nous fait de nouveau bénéficier de son expérience au sein de cette énorme système de plusieurs dizaines de milliers de serveurs (60 000 à ce jour). Dans cette nouvelle présentation il nous explique notamment comment il a fait évoluer les outils internes afin de les optimiser au fur et à mesure de la croissance du site.

Lire la suite »


Une équipe de 3 admins pour être serein

June 2, 2010

noc3Je reprends ici une discussion commencée sur un Thread à propos de 37signal, et repris sur ce post car je trouve que le sujet est intéressant : La taille minimum d’une équipe d’administration système et réseau.

Alors bien sur, il n’est pas question ici des grosses structures qui doivent et peuvent mettre en place des équipes  d’exploitation dédiées. Les échanges concernent surtout le nombre d’admins nécessaire pour permettre une exploitation/surveillance quasi continue sans pour autant courir au burn out.

Lire la suite »


Stabilité des services et intégration continue chez Facebook

November 24, 2009

intégration continueRendre un site ou un service hautement disponible, c’est s’assurer que les ressources (électricité, climatisation, serveurs, réseaux, connectivité, etc..) sont 100% opérationnels. Mais tout cela ne sert pas à grand chose si le site/logiciel/service n’est pas fiable. Lire la suite »


Modelisation : Le draft sur papier d’abord

March 16, 2009

papierPas de description technique dans ce billet, et pour une fois une petite recette de conception.

Aujourd’hui nous sommes tous submergés par les outils de modélisation hyper spécialisés et inter-connectés. Pourtant, à chaque fois que je quitte mes écrans pour me poser quelques heures avec un crayon et quelques feuilles de papier le résultat est toujours plus productif.

C’est surtout le cas au début de la conception, en effet, à cette étape il s’agit de faire des essais, de poser ses idées pour les organiser et faire des choix importants. C’est dans ces moments précis que la simple feuille de papier est la plus utile.
Lire la suite »


Les points à vérifier pour fiabiliser votre architecture

October 28, 2008

Il est parfois utile de faire une pause dans l’exploitation quotidienne pour vérifier que les optimisations et contrôles basiques sont bien en place. C’est ce que propose cette petite liste. Elle vous permettra de vérifier que rien ne vous échappe dans votre architecture. Elle provient du blog www.productionscale.com, et plus précisément de cette note à propos de la planification et du suivi d’un système.

Voici un résumé de cette note qui regroupe un ensemble de bonne pratique  :

  • Gérer le déploiement : Votre système de publication doit intégrer un workflow précis, gérer les versions et le retour en arrière en cas de problème. De plus le déploiement doit être complètement automatique et indépendant du parc matériel.
  • Découpage fonctionnel : Décomposer votre application en silos fonctionnels afin de disposer de composants optimisés par tache.
  • Partitionner vos données : Séparer les requêtes de lecture et d’écriture, et dès le début penser à un moyen de diviser/partitionner vos bases.
  • Séparer les contenus dynamiques et statiques : Vous pourrez plus facilement les gérer grâce à des reverse proxy ou via un CDN. Lire la suite »

Améliorer l’organisation de votre entreprise avec CMMI

October 2, 2008

Après avoir étudié les différentes étapes de la vie d’un site Web je vous invite aujourd’hui à découvrir le modèle CMMI. En effet maintenir la haute disponibilité d’un service c’est avant tout mettre en place une architecture et des procédures permettant de gérer les aléas de votre système. Il est composé, à minima, des deux éléments suivants :

  • Des équipes compétentes et expérimentées respectant un ensemble de bonnes pratiques.
  • Un système complètement redondant et automatique sur lequel les équipes n’agissent qu’en suivant une procédure validée.

Certes, présenté comme ça c’est un peu ‘froid et rigide’ mais l’expérience prouve tous les jours que les incidents ont souvent pour cause le non respect d’une procédure, ou un agissement imprévu et non étudié avant son exécution (souvent en réaction à un autre problème d’ailleurs).

Éliminer les réactions non planifiées est un des points permettant de passer au niveau supérieur du modèle CMMI. C’est pour cette raison que je vous parle de CMMI, parce qu’il regroupe un ensemble de méthodes et de bonnes pratiques vous permettant de passer : Lire la suite »