Infrastructure Google et systèmes distribués (BigTable, MapReduce, GFS)

April 28, 2008

Lors du dernier Symposium dédié au calcul haute densité Jeff Dean de Google a présenté une partie des éléments techniques qui sont à la base de Google.

On peut (re)-découvrir dans cette présentation, l’architecture technique (à base de PC/ type carte mère). Mais surtout Jeff détaille l’architecture distribué, en présentant notamment : GFS, BigTable, MapReduce.

Google: Current Systems and Future Directions Google Design

Dans la seconde partie vous trouverez des détails sur les futures évolutions de Google. En terme d’automatisation mais également de quelle manière ils souhaitent gérer la distribution des données entre leurs datacenters dans le futur. Lire la suite »


Une partie de la plateforme matérielle d’Exalead

April 25, 2008

Exalead Exalead est un moteur de recherche généraliste sur le web mondial, conçu en France, il a été fondée en 2000. Avec plus de 8 milliard de page dans son index Exalead à mis en place une plateforme massivement distribué.

La mise en place d’un moteur de recherche doit respecter un certains nombre de contraintes comme les temps de réponses, les fréquences de mise à jour de l’index, le nombre de page, le nombre de requêtes traitables simultanément par le système.

Comme tous les moteurs Exalead éclate son index sur plusieurs fermes de serveurs. Un serveur, en fonction de sa charge (nombre de requête utilisateur) va pouvoir traiter (indexer) de 10 à 100 millions de pages. Chez Exalead c’est HP qui à été retenu (en partie, car DELL est également présent), à l’intérieur des baies ce sont des lames équipées d’Opteron dual core (des 64 bits d’AMD), gonflées de RAM (16-24Go).

HP ProLiant DL385 Packaged Cluster AMD Opteron


Pour se rendre compte des volumétries, voici quelques chiffres sur une petite partie de l’architecture :

- 32 serveurs HP ProLiant bi-processeurs AMD cadencés à 1,8 GHz avec 16 Go de mémoire ;

- HP MSA50HP MSA50 32 baies de stockage HP MSA50 intégrant la technologie SAS avec 10 disques SAS (Serial Attached SCSI) de 72 Go et un format réduit “Small Form Factor 2,5 Lire la suite »


Facebook passe le cap des 10 000 serveurs (Apache, MySql, Memcached)

April 24, 2008

Facebook Facebook poursuit sa croissance, ils viennent en effet de passer le cap des 10 000 serveurs. Chiffre impressionnant mais pour comprendre l’architecture il est necessaire de descendre un peu plus dans le détail.

En effet sur ces 10 000 serveurs près de 20% sont des serveurs MySQL, ils sont épaulés par un petit millier de serveurs memcached. Au niveau hardware il s’agit de serveurs Rackable, encore peu connu en France mais utilisé par des grands acteurs du web (Amazon, Yahoo, YouTube, etc..)

rackable Half-Depth Servers

Depuis de début de l’année Facebook ajoute plusieurs dizaines de serveurs par jour (certaines extrapolations arrivent à un chiffre de 45 serveurs/jours). Et miracle de l’automatisation, d’après les derniers propos de Jeff Rothschild ils ne sont que 2 administrateurs BDD pour gérer les 1800 serveurs MySQL !


IBM iDataPlex rattrape DELL sur les fermes de serveurs Web/HTC

April 24, 2008

L’hébergement des nouveaux services web demande des serveurs ayant beaucoup de CPU et beaucoup de RAM car il s’agit de traiter simultanément énormément de ‘petites’ requêtes. De plus le packaging doit être très économique en électricité et en investissement car il faut souvent les commander par dizaines, voir centaines de serveurs.

Jusqu’à présent DELL était le mieux positionné : pour fournir des Google Box par exemple, l’hébergeur Typhon (en charge de Netvibes ), ou encore les serveurs de Dailymotion (qui collectionne les baies DELL, pour ces serveurs web, proxy et filler).

Mais IBM souhaite revenir dans la course, avec la gamme iDataPlex

rack iDataPlex servers server iDataPlex

Au dire d’IBM cette nouvelle gamme semble assez prometteuse :

- Un volume réduit pour deux fois plus de systèmes dans un même rack

- Une réduction de 40 % d’énergie pour des performances 5 fois supérieure ;

- Un refroidissement à eau qui ne nécessite pas de système de climatisation à air ;

- Un coût à puissance comparable inférieur de 20 à 25 %.

Autre problème résolu avec cette gamme, la dissipation thermique. En effet les serveurs Blade, extrêment compacts et puissants sont la bête noire des hébergeurs. Ils consomment beaucoup et surtout ils dégagent une quantité de chaleur trop importante. En tout cas plus importante que ce qui à été prévu lors de la construction de ces datacenters il y à quelques années.

Les iDataPlex sont donc plus économiques et surtout il est possible de les intégrer avec un système de refroidissement liquide. Un lourd système de climatisation n’est donc plus forcément nécessaire. Et même sans ce système (water colling en option) le dégagement calorifique est considérablement réduit, comme le montre ces photos thermiques :

dégagement thermique IBM iDataPlex

Lire la suite »


La technologie Microsoft ASP.NET dans l’ e-commerce

April 22, 2008

L’analyse des sites fait souvent remonter le couple PHP/MySQL, en tout cas dans les sites de type ‘média’ ou assimilés. Par contre dans le domaine du e-commerce les choses semblent réellement différentes.

fnac redoute cdiscount

Les leaders du secteur (Fnac, La redoute, CDiscount, Vente-privée, etc… ) sont majoritairement équipés de technologies Microsoft. Mais les nouveaux entrants misent également sur le serveur Microsoft-IIS/6.0 (ASPX). Comme pour la prometteuse plateforme Inspirational Stores, en charge par exemple de la belle boutique Ladurée.

belle boutique laduree

Pourquoi un tel engouement, est-ce simplement un effet de suiveur. Difficile à savoir mais il semble quand même que l’offre MS soit bien adaptée aux problématiques du commerce car le tableau suivant est sans appel : Lire la suite »


La diversité de la plateforme technique Meetic

April 21, 2008

meetic Meetic est un site de rencontres d’origine française, fondé en 2001 par le français Marc Simoncini. Ce site est leader dans son domaine avec plus 600 000 abonnées et des millions de profils enregistrés. Le trafic ne va pas tarder à flirter avec le milliard de pages par mois (grâce notamment aux acquisitions) pour une équipe de production d’une petite trentaine de personne (sur plus de 200 au total). Lire la suite »


Comment archive.org stocke plusieurs petaoctets de données

April 20, 2008

wayback archive.org capricorn-tech

L’Internet Archive, également connu sous le sigle IA est une organisation consacrée à l’archivage du Web, située en Californie. Le projet sert aussi de bibliothèque numérique. L’archivage des données a commencé en 1996, en 2007, la Wayback Machine contenait plus de 2 petaoctets de données. Le volume augmente désormais à un rythme de 30 téraoctets par mois. Lire la suite »


L’ architecture technique du site DailyMotion

April 19, 2008

Dailymotion L’architecture de DailyMotion est assez impressionnante. Les volumes de données, le nombre de requêtes simultanées ainsi que les upload et download continuels sont un véritable défit en terme de disponibilité.

Un post n’est pas suffisant pour décrire en détail cette architecture, mais esquissons déjà quelques contours.

Pour ce type de site les problématiques sont multiples :

- Tout d’abord la gestion d’un trafic réseau colossal : avec un backbone interne à 10Gb et des peering tout aussi impressionnant la structure du réseau et la communication entre les data center sont déjà un challenge.

Dailymotion peering

- Les applicatifs : plusieurs serveurs, de l’apache pour les proxy vidéo et du lighttpd pour les images, style et contenus statique. Le tout, comme d’habitude, en cluster sous PHP et MySQL.

Sphinx search - La recherche est gérée sur des serveurs dédiés équipé de Sphinx (en version SE). Les performances de ce moteur full text sont bien plus impressionnantes que le moteur de MySql ou encore qu’un couple Lucene/Java. Mais même avec cette application ultra performante il faut plusieurs dizaines 9 serveurs pour traiter le flot de recherche permanent (tout en indexant les nouveautés rapidement)

- Le stockage est lui aussi gourmand, une vidéo c’est quelques dizaines de Mo, même avec la baisse drastique des coûts des disques des volumétries de cet ordre sont très couteuses. Lire la suite »


La gestion de centaines de millions d’utilisateurs Skype sous PostgreSQL

April 15, 2008

Skype gère des centaines de millions de transactions par jour. La disponibilité du service est bonne, même si quelques incidents sont à signaler ici ou là (essentiellement à cause de restart en masse).

skype PostgreSQL

Ceci étant dit le service est plutôt fiable. C’est en partie grâce à leur utilisation de PostGres, il est assez rare de voir un service web gérant de telle volumétrie utiliser PostGreSQL. Cette base de données est en effet beaucoup moins populaire que MySQL. Pourtant elle offre des fonctions dignes des plus importantes bases commerciales.

Chez Skype PostGreSQL est utilisée sous forme de cluster horizontal grâce des mécanismes de proxy et de procédures stockées

scaling PL Proxy clusters

L’utilisation des procédures et de ces couches de serveurs permet de traiter des volumes de requêtes considérable tout en assurant disponibilité et sécurité des données. Lire la suite »


Carte et localisation des datacenter de Google

April 14, 2008

Après plusieurs demandes voici enfin la carte des data-centers de Google. Crée et mise à jour par grace à ce type d’information : google_data_center_faq

Google data center

 

Pour l’europe et sur l’ensemble de la planète ce n’est pas moins d’une trentaine de centre de données que Google a réparti essentiellement sur les USA et l’Europe :

Data center google europe

Google data center world

Malheureusement celui de Paris, que je ne connais pas n’est pas renseigné. Si vous avez des infos n’hésitez pas. Pour être complet il faudra associer les adresses IP de ces différents datacenter Google.

Lire la suite »