Fin de la pause

February 27, 2010

updateBonjour ,

Un petit message pour vous signaler que l’activité de ce blog va reprendre prochainement.

Ces quelques mois sans publication ne marquent donc pas l’arrêt de ce site mais une simple pause.

Le temps de retrouver mon rythme et la publication régulière devrait reprendre. Comme d’habitude vos commentaires, idées et demandes sont les bienvenus.

Je profite d’ailleurs de ce message pour vous remercier de vos visites, commentaires et emails, toujours nombreux.

Merci,

A bientôt,

Marc


Bonne année 2009

January 7, 2009

Bonjour,

Un rapide message pour vous souhaiter à tous une excellente année 2009, à vous et vos proches. J’espère également que vos projets se réaliseront malgré cette conjoncture qui s’annonce mouvementée.

Par ailleurs j’en profite pour vous dire que l’activité de ce site va reprendre d’une manière plus régulière, car depuis quelques semaines les billets se sont fait rares… à ce propos n’hésitez pas à m’envoyer vos idées ou questions j’essayerais d’y répondre par mail ou via des articles.

A bientôt,

Marc.


L’infrastructure Wikipédia

June 24, 2008

wikipedia-florida-servers-frontWikipédia fonctionne grace à un logiciel open source: MediaWiki. C’est un logiciel PHP/MySQL. L’architecture des sites Wikipédia est donc basée sur ce couple de logiciel et hébergée sur des configurations classiques de type LAMP.

Mais pour gérer des pics avec plusieurs dizaines de milliers de connections par seconde il faut booster cette architecture.

L’équipe du site a donc ajouté un certains nombre de composant pour absorber ce trafic colossal.

Dans le désordre nous retrouvons :

  • une répartition de charge par DNS
  • LVS pour le load balancing
  • Squid pour le cache
  • Memcached, Lucene, Lighttpd,
  • etc…

Et comme un schéma est souvent bien plus clair qu’une longue explication voilà à quoi ressemble l’infrastructure du site :

lvs-squid-mysql

Concernant les volumétries les 3 datacenters de Wikipédia utilise quelques 400 serveurs (du P4 au double Xeon Quad Core avec 16Gb de RAM). Le détail se trouve dans le document en bas de page mais le plus impressionnant reste Squid car il gère ici des pointes à 2500 requêtes/sec sur UN SERVEUR !!

Lire la suite »


Comment archive.org stocke plusieurs petaoctets de données

April 20, 2008

wayback archive.org capricorn-tech

L’Internet Archive, également connu sous le sigle IA est une organisation consacrée à l’archivage du Web, située en Californie. Le projet sert aussi de bibliothèque numérique. L’archivage des données a commencé en 1996, en 2007, la Wayback Machine contenait plus de 2 petaoctets de données. Le volume augmente désormais à un rythme de 30 téraoctets par mois. Lire la suite »