Une partie de la plateforme matérielle d’Exalead

April 25, 2008

Exalead Exalead est un moteur de recherche généraliste sur le web mondial, conçu en France, il a été fondée en 2000. Avec plus de 8 milliard de page dans son index Exalead à mis en place une plateforme massivement distribué.

La mise en place d’un moteur de recherche doit respecter un certains nombre de contraintes comme les temps de réponses, les fréquences de mise à jour de l’index, le nombre de page, le nombre de requêtes traitables simultanément par le système.

Comme tous les moteurs Exalead éclate son index sur plusieurs fermes de serveurs. Un serveur, en fonction de sa charge (nombre de requête utilisateur) va pouvoir traiter (indexer) de 10 à 100 millions de pages. Chez Exalead c’est HP qui à été retenu (en partie, car DELL est également présent), à l’intérieur des baies ce sont des lames équipées d’Opteron dual core (des 64 bits d’AMD), gonflées de RAM (16-24Go).

HP ProLiant DL385 Packaged Cluster AMD Opteron


Pour se rendre compte des volumétries, voici quelques chiffres sur une petite partie de l’architecture :

- 32 serveurs HP ProLiant bi-processeurs AMD cadencés à 1,8 GHz avec 16 Go de mémoire ;

- HP MSA50HP MSA50 32 baies de stockage HP MSA50 intégrant la technologie SAS avec 10 disques SAS (Serial Attached SCSI) de 72 Go et un format réduit “Small Form Factor 2,5 Lire la suite »


Comment archive.org stocke plusieurs petaoctets de données

April 20, 2008

wayback archive.org capricorn-tech

L’Internet Archive, également connu sous le sigle IA est une organisation consacrée à l’archivage du Web, située en Californie. Le projet sert aussi de bibliothèque numérique. L’archivage des données a commencé en 1996, en 2007, la Wayback Machine contenait plus de 2 petaoctets de données. Le volume augmente désormais à un rythme de 30 téraoctets par mois. Lire la suite »


L’ architecture technique du site DailyMotion

April 19, 2008

Dailymotion L’architecture de DailyMotion est assez impressionnante. Les volumes de données, le nombre de requêtes simultanées ainsi que les upload et download continuels sont un véritable défit en terme de disponibilité.

Un post n’est pas suffisant pour décrire en détail cette architecture, mais esquissons déjà quelques contours.

Pour ce type de site les problématiques sont multiples :

- Tout d’abord la gestion d’un trafic réseau colossal : avec un backbone interne à 10Gb et des peering tout aussi impressionnant la structure du réseau et la communication entre les data center sont déjà un challenge.

Dailymotion peering

- Les applicatifs : plusieurs serveurs, de l’apache pour les proxy vidéo et du lighttpd pour les images, style et contenus statique. Le tout, comme d’habitude, en cluster sous PHP et MySQL.

Sphinx search – La recherche est gérée sur des serveurs dédiés équipé de Sphinx (en version SE). Les performances de ce moteur full text sont bien plus impressionnantes que le moteur de MySql ou encore qu’un couple Lucene/Java. Mais même avec cette application ultra performante il faut plusieurs dizaines 9 serveurs pour traiter le flot de recherche permanent (tout en indexant les nouveautés rapidement)

- Le stockage est lui aussi gourmand, une vidéo c’est quelques dizaines de Mo, même avec la baisse drastique des coûts des disques des volumétries de cet ordre sont très couteuses. Lire la suite »


L’architecture de la plateforme YouTube

October 29, 2007

YouTube Une vidéo décrivant l’architecture technique mise en place pour répondre aux requetes du site YouTube.

Cette vidéo fait un rapide historique de l’évolution du site puis décrit les point suivants :

  • L’architecture des serveurs Web
  • La mise en place des serveurs de vidéo
  • L’optimisation de serveurs de vignettes (Thumbnail)
  • Et enfin quelques mots sur la base de données.

Un seul reproche, certaines parties sont ‘cachées’, essentiellement à propos de l’architecture réseau et des bases de données. C’est dommage car pour ce type d’architecture la bande passante devient un point important et un goulot d’étranglement potentiel.

Il n’en reste pas moins que c’est toujours utile, certaines astuces sont bonnes à prendre.




Lien direct : http://video.google.com/videoplay?docid=-6304964351441328559


pNFS, la nouvelle version de NFS pour les clustering haute performance

October 29, 2007

pNFS (pour NFS parallèle) est une extension du protocole NFS v4, une de ses particularités est la possibilité de le faire fonctionner en mode cluster. Chaque client NFS pouvant accéder aux fichiers grâce à une lecture parallèle sur plusieurs serveurs.

pNFS

De mon point de vue c’est un des rares points qui manquait à ce protocole. Et dans quelques années je pense qu’il ne sera plus possible d’imaginer le NFS sans ce type de fonctionnalité.

Il ne restera plus qu’à gérer le RAID sur ce type de clusters pour avoir un protocole robuste, rapide et tolérant aux pannes. Pour le moment je ne connais pas de distribution intégrant ce module, si vous en connaissez je suis preneur.

Sinon vous trouverez plus d’informations ici : http://www.pnfs.com/