CloudFront : Amazon lance son service de CDN (Content Delivery Network)

November 18, 2008

On me pose souvent la question du coût des solutions de CDN Akamai pour gérer la disponibilité d’un site. Et en général le problème majeur avec cet acteur vient des frais de fonctionnement et de mise en service. En effet au delà de l’engagement contractuel sur la durée la mise en place d’une solution Akamai est relativement coûteuse pour des “petits” acteurs.

Cette annonce d’Amazon est donc une très bonne nouvelle pour le segment des sites de taille moyenne, trop petits pour négocier avec Akamai et gérant déjà un trafic suffisamment important pour être obligé de mettre en place des solutions de cache distribués, des CDN.

Concernant l’offre d’Amazon, elle ne m’étonne pas beaucoup et elle vient compléter les autres produits de la gamme. Pour les tarifs vous trouverez tout sur le site, mais voici un premier aperçu : Lire la suite »


A l’intérieur du DataCenter Microsoft Windows Azure

October 30, 2008

Vous l’avez peut-être déjà lu, Microsoft ouvre également sa plate forme de Clouds Computing. A cette occasion le service de presse de Microsoft a autorisé la BBC a visiter son nouveau centre de données. Rien de spécial dans cette visite, c’est un datacenter comme les autres, il faut néanmoins souligner l’impressionnante quantité de stockage.

Puisque au dire de Mike Manos (Directeur en charge des centres de données chez Microsoft) ce centre est capable de stoker des billions (=des milliers de milliards) de photos.
Lire la suite »


Facebook héberge plus de 10 milliards de photos !

October 15, 2008

Avec plus de 10 000 serveurs, FaceBook continue sa progression. Aujourd’hui nous apprenons (via ce post) que le site gère plus de 10 milliards de photos ! Après le passage du cap des 100 millions d’utilisateurs actifs dans le monde (en Aout dernier) c’est un nouveau record qui vient d’être battu. Dans cette note nous apprenons également que le site gère désormais :

  • Plus d’un pétaoctet de stockage pour les photos.
  • La livraison de 15 milliards d’images par jour.
  • Et tous les jours plus de 2.3 téraoctets de photos sont téléchargées sur le site. Lire la suite »

Copan System : Stocker 896 To dans une baie ultra dense

October 8, 2008

Avec la numérisation totale des échanges la sauvegarde des données devient de plus en plus importante. Dans certains cas c’est même une obligation légale, mais les volumétries explosent et les solutions développées en interne sont de moins en moins rentables et adaptées. Il existe de nombreuses solutions de stockage mais celles de COPAN sont sans nul doute les plus denses.

En effet cette solution permet de stocker 896To dans une baie ! Et en plus de la densité de la solution, COPAN intègrent des mécanismes d’économies d’énergie permettant d’arrêter les disques quand ils ne sont pas utilisés. Du coup c’est plus de 85% d’économie électrique et donc des dégagements calorifiques moins importants. C’est très utile car en général ces baies sont utilisées lors des sauvegardes puis en pause pendant plusieurs heures. Lire la suite »


Infrastructure Google et systèmes distribués (BigTable, MapReduce, GFS)

April 28, 2008

Lors du dernier Symposium dédié au calcul haute densité Jeff Dean de Google a présenté une partie des éléments techniques qui sont à la base de Google.

On peut (re)-découvrir dans cette présentation, l’architecture technique (à base de PC/ type carte mère). Mais surtout Jeff détaille l’architecture distribué, en présentant notamment : GFS, BigTable, MapReduce.

Google: Current Systems and Future Directions Google Design

Dans la seconde partie vous trouverez des détails sur les futures évolutions de Google. En terme d’automatisation mais également de quelle manière ils souhaitent gérer la distribution des données entre leurs datacenters dans le futur. Lire la suite »


Une partie de la plateforme matérielle d’Exalead

April 25, 2008

Exalead Exalead est un moteur de recherche généraliste sur le web mondial, conçu en France, il a été fondée en 2000. Avec plus de 8 milliard de page dans son index Exalead à mis en place une plateforme massivement distribué.

La mise en place d’un moteur de recherche doit respecter un certains nombre de contraintes comme les temps de réponses, les fréquences de mise à jour de l’index, le nombre de page, le nombre de requêtes traitables simultanément par le système.

Comme tous les moteurs Exalead éclate son index sur plusieurs fermes de serveurs. Un serveur, en fonction de sa charge (nombre de requête utilisateur) va pouvoir traiter (indexer) de 10 à 100 millions de pages. Chez Exalead c’est HP qui à été retenu (en partie, car DELL est également présent), à l’intérieur des baies ce sont des lames équipées d’Opteron dual core (des 64 bits d’AMD), gonflées de RAM (16-24Go).

HP ProLiant DL385 Packaged Cluster AMD Opteron


Pour se rendre compte des volumétries, voici quelques chiffres sur une petite partie de l’architecture :

- 32 serveurs HP ProLiant bi-processeurs AMD cadencés à 1,8 GHz avec 16 Go de mémoire ;

- HP MSA50HP MSA50 32 baies de stockage HP MSA50 intégrant la technologie SAS avec 10 disques SAS (Serial Attached SCSI) de 72 Go et un format réduit “Small Form Factor 2,5 Lire la suite »


Comment archive.org stocke plusieurs petaoctets de données

April 20, 2008

wayback archive.org capricorn-tech

L’Internet Archive, également connu sous le sigle IA est une organisation consacrée à l’archivage du Web, située en Californie. Le projet sert aussi de bibliothèque numérique. L’archivage des données a commencé en 1996, en 2007, la Wayback Machine contenait plus de 2 petaoctets de données. Le volume augmente désormais à un rythme de 30 téraoctets par mois. Lire la suite »


L’ architecture technique du site DailyMotion

April 19, 2008

Dailymotion L’architecture de DailyMotion est assez impressionnante. Les volumes de données, le nombre de requêtes simultanées ainsi que les upload et download continuels sont un véritable défit en terme de disponibilité.

Un post n’est pas suffisant pour décrire en détail cette architecture, mais esquissons déjà quelques contours.

Pour ce type de site les problématiques sont multiples :

- Tout d’abord la gestion d’un trafic réseau colossal : avec un backbone interne à 10Gb et des peering tout aussi impressionnant la structure du réseau et la communication entre les data center sont déjà un challenge.

Dailymotion peering

- Les applicatifs : plusieurs serveurs, de l’apache pour les proxy vidéo et du lighttpd pour les images, style et contenus statique. Le tout, comme d’habitude, en cluster sous PHP et MySQL.

Sphinx search - La recherche est gérée sur des serveurs dédiés équipé de Sphinx (en version SE). Les performances de ce moteur full text sont bien plus impressionnantes que le moteur de MySql ou encore qu’un couple Lucene/Java. Mais même avec cette application ultra performante il faut plusieurs dizaines 9 serveurs pour traiter le flot de recherche permanent (tout en indexant les nouveautés rapidement)

- Le stockage est lui aussi gourmand, une vidéo c’est quelques dizaines de Mo, même avec la baisse drastique des coûts des disques des volumétries de cet ordre sont très couteuses. Lire la suite »


L’architecture de la plateforme YouTube

October 29, 2007

YouTube Une vidéo décrivant l’architecture technique mise en place pour répondre aux requetes du site YouTube.

Cette vidéo fait un rapide historique de l’évolution du site puis décrit les point suivants :

  • L’architecture des serveurs Web
  • La mise en place des serveurs de vidéo
  • L’optimisation de serveurs de vignettes (Thumbnail)
  • Et enfin quelques mots sur la base de données.

Un seul reproche, certaines parties sont ‘cachées’, essentiellement à propos de l’architecture réseau et des bases de données. C’est dommage car pour ce type d’architecture la bande passante devient un point important et un goulot d’étranglement potentiel.

Il n’en reste pas moins que c’est toujours utile, certaines astuces sont bonnes à prendre.




Lien direct : http://video.google.com/videoplay?docid=-6304964351441328559


pNFS, la nouvelle version de NFS pour les clustering haute performance

October 29, 2007

pNFS (pour NFS parallèle) est une extension du protocole NFS v4, une de ses particularités est la possibilité de le faire fonctionner en mode cluster. Chaque client NFS pouvant accéder aux fichiers grâce à une lecture parallèle sur plusieurs serveurs.

pNFS

De mon point de vue c’est un des rares points qui manquait à ce protocole. Et dans quelques années je pense qu’il ne sera plus possible d’imaginer le NFS sans ce type de fonctionnalité.

Il ne restera plus qu’à gérer le RAID sur ce type de clusters pour avoir un protocole robuste, rapide et tolérant aux pannes. Pour le moment je ne connais pas de distribution intégrant ce module, si vous en connaissez je suis preneur.

Sinon vous trouverez plus d’informations ici : http://www.pnfs.com/