Choisir son hébergement : L’exemple de YouTube

June 25, 2008

photo baies de serveursChoisir un hébergeur n’est pas une chose simple. Le nombre de paramètre à prendre en compte est important et la durée de l’engagement l’est aussi. En effet choisir un hébergeur pour les 6/12 premiers mois d’activité ne se fait pas de la même manière pour le choix d’un partenaire qui accompagnera sa croissance sur plusieurs années. Il est assez rare que le même prestataire soit idéal sur ces deux phases d’ailleurs.

L’exemple de YouTube est assez intéressant de ce point de vue. A l’époque du lancement il n’existait pas de service de type Amazon ou Google Apps les fondateurs de YouTube ont donc opté pour la location de serveurs managés par un prestataire (le coût et la rapidité de mise en place étaient prioritaires).

Bonne idée car ils n’étaient pas expert dans ce domaine et souhaitaient se concentrer sur le cœur du système : l’application Python permettant l’upload et le stockage sur Clusters des vidéos. Avec la croissance exponentielle du trafic la location de serveurs n’était plus économiquement viable. De plus l’hébergeur en question avait une architecture réseau qui ne correspondait plus vraiment aux flux qui devaient transiter entre les machines. Enfin le besoin en bande passante, problème n°1 devait se régler directement avec des opérateurs.

C’est pour cette raison qu’ils ont décidé de migrer vers la location d’un espace privé dans un Datacenter. Les principaux avantages ont été : Lire la suite »


L’infrastructure Wikipédia

June 24, 2008

wikipedia-florida-servers-frontWikipédia fonctionne grace à un logiciel open source: MediaWiki. C’est un logiciel PHP/MySQL. L’architecture des sites Wikipédia est donc basée sur ce couple de logiciel et hébergée sur des configurations classiques de type LAMP.

Mais pour gérer des pics avec plusieurs dizaines de milliers de connections par seconde il faut booster cette architecture.

L’équipe du site a donc ajouté un certains nombre de composant pour absorber ce trafic colossal.

Dans le désordre nous retrouvons :

  • une répartition de charge par DNS
  • LVS pour le load balancing
  • Squid pour le cache
  • Memcached, Lucene, Lighttpd,
  • etc…

Et comme un schéma est souvent bien plus clair qu’une longue explication voilà à quoi ressemble l’infrastructure du site :

lvs-squid-mysql

Concernant les volumétries les 3 datacenters de Wikipédia utilise quelques 400 serveurs (du P4 au double Xeon Quad Core avec 16Gb de RAM). Le détail se trouve dans le document en bas de page mais le plus impressionnant reste Squid car il gère ici des pointes à 2500 requêtes/sec sur UN SERVEUR !!

Lire la suite »


L’architecture du site 24hOO, du e-commerce sous LAMP

June 8, 2008

24h00  Contrairement aux leaders du secteur, qui sont majoritairement sous technologie Microsoft le site de ventes évènementielles et privées 24h00.fr à choisi l’architecture LAMP.

Ce type de site doit gérer des pics de trafic sur des périodes très courtes (mais prévisibles). Il s’agit d’être disponible lors du lancement des ventes. Pour faire face à ces lancements 24h00 a mis en place une architecture LAMP organisée ainsi :

- 3 frontaux Web (Apache) en load-balancing , avec un MySql local sur chaque serveur (en lecture seule)
- 1 serveur MySql (master) déporté, en synchro avec les slave hébergé sur les serveurs web

Cluster apache mysql

Au niveau applicaif c’est du PHP 5, comme pour MySql en version 5. Pour terminer sur cette partie citons Artful (groupe Claranet) qui gère l’infogérance de la plate-forme ainsi que l’hébergement Lire la suite »


Une partie de la plateforme matérielle d’Exalead

April 25, 2008

Exalead Exalead est un moteur de recherche généraliste sur le web mondial, conçu en France, il a été fondée en 2000. Avec plus de 8 milliard de page dans son index Exalead à mis en place une plateforme massivement distribué.

La mise en place d’un moteur de recherche doit respecter un certains nombre de contraintes comme les temps de réponses, les fréquences de mise à jour de l’index, le nombre de page, le nombre de requêtes traitables simultanément par le système.

Comme tous les moteurs Exalead éclate son index sur plusieurs fermes de serveurs. Un serveur, en fonction de sa charge (nombre de requête utilisateur) va pouvoir traiter (indexer) de 10 à 100 millions de pages. Chez Exalead c’est HP qui à été retenu (en partie, car DELL est également présent), à l’intérieur des baies ce sont des lames équipées d’Opteron dual core (des 64 bits d’AMD), gonflées de RAM (16-24Go).

HP ProLiant DL385 Packaged Cluster AMD Opteron


Pour se rendre compte des volumétries, voici quelques chiffres sur une petite partie de l’architecture :

- 32 serveurs HP ProLiant bi-processeurs AMD cadencés à 1,8 GHz avec 16 Go de mémoire ;

- HP MSA50HP MSA50 32 baies de stockage HP MSA50 intégrant la technologie SAS avec 10 disques SAS (Serial Attached SCSI) de 72 Go et un format réduit “Small Form Factor 2,5 Lire la suite »


Facebook passe le cap des 10 000 serveurs (Apache, MySql, Memcached)

April 24, 2008

Facebook Facebook poursuit sa croissance, ils viennent en effet de passer le cap des 10 000 serveurs. Chiffre impressionnant mais pour comprendre l’architecture il est necessaire de descendre un peu plus dans le détail.

En effet sur ces 10 000 serveurs près de 20% sont des serveurs MySQL, ils sont épaulés par un petit millier de serveurs memcached. Au niveau hardware il s’agit de serveurs Rackable, encore peu connu en France mais utilisé par des grands acteurs du web (Amazon, Yahoo, YouTube, etc..)

rackable Half-Depth Servers

Depuis de début de l’année Facebook ajoute plusieurs dizaines de serveurs par jour (certaines extrapolations arrivent à un chiffre de 45 serveurs/jours). Et miracle de l’automatisation, d’après les derniers propos de Jeff Rothschild ils ne sont que 2 administrateurs BDD pour gérer les 1800 serveurs MySQL !


La diversité de la plateforme technique Meetic

April 21, 2008

meetic Meetic est un site de rencontres d’origine française, fondé en 2001 par le français Marc Simoncini. Ce site est leader dans son domaine avec plus 600 000 abonnées et des millions de profils enregistrés. Le trafic ne va pas tarder à flirter avec le milliard de pages par mois (grâce notamment aux acquisitions) pour une équipe de production d’une petite trentaine de personne (sur plus de 200 au total). Lire la suite »


Comment archive.org stocke plusieurs petaoctets de données

April 20, 2008

wayback archive.org capricorn-tech

L’Internet Archive, également connu sous le sigle IA est une organisation consacrée à l’archivage du Web, située en Californie. Le projet sert aussi de bibliothèque numérique. L’archivage des données a commencé en 1996, en 2007, la Wayback Machine contenait plus de 2 petaoctets de données. Le volume augmente désormais à un rythme de 30 téraoctets par mois. Lire la suite »


L’ architecture technique du site DailyMotion

April 19, 2008

Dailymotion L’architecture de DailyMotion est assez impressionnante. Les volumes de données, le nombre de requêtes simultanées ainsi que les upload et download continuels sont un véritable défit en terme de disponibilité.

Un post n’est pas suffisant pour décrire en détail cette architecture, mais esquissons déjà quelques contours.

Pour ce type de site les problématiques sont multiples :

- Tout d’abord la gestion d’un trafic réseau colossal : avec un backbone interne à 10Gb et des peering tout aussi impressionnant la structure du réseau et la communication entre les data center sont déjà un challenge.

Dailymotion peering

- Les applicatifs : plusieurs serveurs, de l’apache pour les proxy vidéo et du lighttpd pour les images, style et contenus statique. Le tout, comme d’habitude, en cluster sous PHP et MySQL.

Sphinx search – La recherche est gérée sur des serveurs dédiés équipé de Sphinx (en version SE). Les performances de ce moteur full text sont bien plus impressionnantes que le moteur de MySql ou encore qu’un couple Lucene/Java. Mais même avec cette application ultra performante il faut plusieurs dizaines 9 serveurs pour traiter le flot de recherche permanent (tout en indexant les nouveautés rapidement)

- Le stockage est lui aussi gourmand, une vidéo c’est quelques dizaines de Mo, même avec la baisse drastique des coûts des disques des volumétries de cet ordre sont très couteuses. Lire la suite »


Comment TV5 gère le transit de plusieurs To de bande passante

January 31, 2008

TV5 monde La vidéo à la demande nécessite des ressources importantes. Tant en terme de serveurs qu’en bande passante. L’expérience de TV5 est assez intéressante de ce point vue. Au départ quelques Mo de bande passante étaient suffisants pour délivrer les quelques millions de PV/mois.

Mais la demande en VOD se faisant de plus en plus pressante ces débits se sont vite révélés insuffisants. De plus l’architecture ne comprends qu’une petite dizaine de serveurs chez EastNet, reparti de cette manière :

frontaux TV5

 

Mais désormais avec des centaines de milliers de visiteurs regardant des vidéos (JT multi-langue en quasi temps réel) l’appel à un prestataire spécialisé est devenue incontournable. L’aspect international et les hautes volumétries ont obligé TV5 à choisir Akamai. Malgré le coût important cette solution Plug & Play a été choisi, d’autant que l’équipe et l’architecture technique n’était pas dimensionnée pour gérer de tels volumes. Lire la suite »


Comment WordPress surveille des centaines de serveurs et livre 20 millions de pages / jours

January 23, 2008

wordpress WordPress à une croissance impressionnante depuis plusieurs années. Le nombre de pages vues est en croissance constante (quasiment un doublement sur les six dernier mois). L’architecture technique et matérielle doit suivre et surtout être suivie. Pour compliquer la tache les serveurs de WordPress sont très hétérogènes et hébergés dans 5 centres de données (datacenter) différents.

worpress pv

Comment suivent-ils ces serveurs, avec quoi font-ils les graphs et le monitoring ? Lire la suite »