November 18, 2008
On me pose souvent la question du coût des solutions de CDN Akamai pour gérer la disponibilité d’un site. Et en général le problème majeur avec cet acteur vient des frais de fonctionnement et de mise en service. En effet au delà de l’engagement contractuel sur la durée la mise en place d’une solution Akamai est relativement coûteuse pour des “petits” acteurs.
Cette annonce d’Amazon est donc une très bonne nouvelle pour le segment des sites de taille moyenne, trop petits pour négocier avec Akamai et gérant déjà un trafic suffisamment important pour être obligé de mettre en place des solutions de cache distribués, des CDN.
Concernant l’offre d’Amazon, elle ne m’étonne pas beaucoup et elle vient compléter les autres produits de la gamme. Pour les tarifs vous trouverez tout sur le site, mais voici un premier aperçu : Lire la suite »
1 Comment |
CDN, Clouds, Hébergement, Storage, optimisation | Tagged: akamai, amazon, CDN |
Permalink
Posted by Marc
October 30, 2008
Vous l’avez peut-être déjà lu, Microsoft ouvre également sa plate forme de Clouds Computing. A cette occasion le service de presse de Microsoft a autorisé la BBC a visiter son nouveau centre de données. Rien de spécial dans cette visite, c’est un datacenter comme les autres, il faut néanmoins souligner l’impressionnante quantité de stockage.
Puisque au dire de Mike Manos (Directeur en charge des centres de données chez Microsoft) ce centre est capable de stoker des billions (=des milliers de milliards) de photos.
Lire la suite »
No Comments » |
Clouds, Datacenter, Microsoft, Storage | Tagged: Cloud Computing, Datacenter, dell, Microsoft, Windows Azure |
Permalink
Posted by Marc
April 28, 2008
Lors du dernier Symposium dédié au calcul haute densité Jeff Dean de Google a présenté une partie des éléments techniques qui sont à la base de Google.
On peut (re)-découvrir dans cette présentation, l’architecture technique (à base de PC/ type carte mère). Mais surtout Jeff détaille l’architecture distribué, en présentant notamment : GFS, BigTable, MapReduce.

Dans la seconde partie vous trouverez des détails sur les futures évolutions de Google. En terme d’automatisation mais également de quelle manière ils souhaitent gérer la distribution des données entre leurs datacenters dans le futur. Lire la suite »
No Comments » |
Architecture, Clustering, Datacenter, Storage, google | Tagged: GFS, google |
Permalink
Posted by Marc
April 25, 2008
Exalead est un moteur de recherche généraliste sur le web mondial, conçu en France, il a été fondée en 2000. Avec plus de 8 milliard de page dans son index Exalead à mis en place une plateforme massivement distribué.
La mise en place d’un moteur de recherche doit respecter un certains nombre de contraintes comme les temps de réponses, les fréquences de mise à jour de l’index, le nombre de page, le nombre de requêtes traitables simultanément par le système.
Comme tous les moteurs Exalead éclate son index sur plusieurs fermes de serveurs. Un serveur, en fonction de sa charge (nombre de requête utilisateur) va pouvoir traiter (indexer) de 10 à 100 millions de pages. Chez Exalead c’est HP qui à été retenu (en partie, car DELL est également présent), à l’intérieur des baies ce sont des lames équipées d’Opteron dual core (des 64 bits d’AMD), gonflées de RAM (16-24Go).

Pour se rendre compte des volumétries, voici quelques chiffres sur une petite partie de l’architecture :
- 32 serveurs HP ProLiant bi-processeurs AMD cadencés à 1,8 GHz avec 16 Go de mémoire ;
-
32 baies de stockage HP MSA50 intégrant la technologie SAS avec 10 disques SAS (Serial Attached SCSI) de 72 Go et un format réduit “Small Form Factor 2,5 Lire la suite »
No Comments » |
Architecture, Clustering, Datacenter, Serveur, Storage, Étude de cas |
Permalink
Posted by Marc
April 20, 2008

L’Internet Archive, également connu sous le sigle IA est une organisation consacrée à l’archivage du Web, située en Californie. Le projet sert aussi de bibliothèque numérique. L’archivage des données a commencé en 1996, en 2007, la Wayback Machine contenait plus de 2 petaoctets de données. Le volume augmente désormais à un rythme de 30 téraoctets par mois. Lire la suite »
1 Comment |
Architecture, Clustering, Datacenter, Storage, Uncategorized, Étude de cas | Tagged: Java |
Permalink
Posted by Marc
April 19, 2008
L’architecture de DailyMotion est assez impressionnante. Les volumes de données, le nombre de requêtes simultanées ainsi que les upload et download continuels sont un véritable défit en terme de disponibilité.
Un post n’est pas suffisant pour décrire en détail cette architecture, mais esquissons déjà quelques contours.
Pour ce type de site les problématiques sont multiples :
- Tout d’abord la gestion d’un trafic réseau colossal : avec un backbone interne à 10Gb et des peering tout aussi impressionnant la structure du réseau et la communication entre les data center sont déjà un challenge.

- Les applicatifs : plusieurs serveurs, de l’apache pour les proxy vidéo et du lighttpd pour les images, style et contenus statique. Le tout, comme d’habitude, en cluster sous PHP et MySQL.
- La recherche est gérée sur des serveurs dédiés équipé de Sphinx (en version SE). Les performances de ce moteur full text sont bien plus impressionnantes que le moteur de MySql ou encore qu’un couple Lucene/Java. Mais même avec cette application ultra performante il faut plusieurs dizaines 9 serveurs pour traiter le flot de recherche permanent (tout en indexant les nouveautés rapidement)
- Le stockage est lui aussi gourmand, une vidéo c’est quelques dizaines de Mo, même avec la baisse drastique des coûts des disques des volumétries de cet ordre sont très couteuses. Lire la suite »
6 Comments |
Architecture, Clustering, Datacenter, Hébergement, Storage, optimisation, Étude de cas | Tagged: apache, lighttpd, Mysql, peering, PHP, Sphinx |
Permalink
Posted by Marc
October 29, 2007
Une vidéo décrivant l’architecture technique mise en place pour répondre aux requetes du site YouTube.
Cette vidéo fait un rapide historique de l’évolution du site puis décrit les point suivants :
- L’architecture des serveurs Web
- La mise en place des serveurs de vidéo
- L’optimisation de serveurs de vignettes (Thumbnail)
- Et enfin quelques mots sur la base de données.
Un seul reproche, certaines parties sont ‘cachées’, essentiellement à propos de l’architecture réseau et des bases de données. C’est dommage car pour ce type d’architecture la bande passante devient un point important et un goulot d’étranglement potentiel.
Il n’en reste pas moins que c’est toujours utile, certaines astuces sont bonnes à prendre.
Lien direct :
http://video.google.com/videoplay?docid=-6304964351441328559
2 Comments |
Clustering, Storage, google, Étude de cas | Tagged: GFS, memcached, Python, youtube |
Permalink
Posted by Marc
October 29, 2007
pNFS (pour NFS parallèle) est une extension du protocole NFS v4, une de ses particularités est la possibilité de le faire fonctionner en mode cluster. Chaque client NFS pouvant accéder aux fichiers grâce à une lecture parallèle sur plusieurs serveurs.

De mon point de vue c’est un des rares points qui manquait à ce protocole. Et dans quelques années je pense qu’il ne sera plus possible d’imaginer le NFS sans ce type de fonctionnalité.
Il ne restera plus qu’à gérer le RAID sur ce type de clusters pour avoir un protocole robuste, rapide et tolérant aux pannes. Pour le moment je ne connais pas de distribution intégrant ce module, si vous en connaissez je suis preneur.
Sinon vous trouverez plus d’informations ici : http://www.pnfs.com/
1 Comment |
Clustering, Logiciel, Storage | Tagged: NFS, pNFS |
Permalink
Posted by Marc