Explosion de la bande passante pour les services Web Amazon

May 23, 2008

Décidément les services de Cloud Computing sont à la mode en ce moment. La progression est extrêmement rapide et la dernière communication d’Amazon à ce sujet ne fait que démontrer la rapidité d’expansion du modèle.

aws bandwidth

Ce type d’hébergement reste néanmoins réservé à un certain type d’application, pas question par exemple d’y héberger des données sensibles ou intra-entreprises. Mais il existe néanmoins un cible finalement relativement large pour ces applications.

J’ai essayé les services d’Amazon, mais cela reste assez ‘brute’, c’est du CPU, de la bande passante et/ou du stockage mais c’est d’une simplicité déconcertante (et surtout c’est quasiment sans limite). Dans la même série l’offre de Google est également très impressionnante. Vous pouvez facilement y héberger un site avec plusieurs millions de visiteurs sans vous soucier de la montée en charge. En plus c’est Google qui s’occupe de vous faire les tableaux de bord. Lire la suite »


Infrastructure Google et systèmes distribués (BigTable, MapReduce, GFS)

April 28, 2008

Lors du dernier Symposium dédié au calcul haute densité Jeff Dean de Google a présenté une partie des éléments techniques qui sont à la base de Google.

On peut (re)-découvrir dans cette présentation, l’architecture technique (à base de PC/ type carte mère). Mais surtout Jeff détaille l’architecture distribué, en présentant notamment : GFS, BigTable, MapReduce.

Google: Current Systems and Future Directions Google Design

Dans la seconde partie vous trouverez des détails sur les futures évolutions de Google. En terme d’automatisation mais également de quelle manière ils souhaitent gérer la distribution des données entre leurs datacenters dans le futur. Lire la suite »


Carte et localisation des datacenter de Google

April 14, 2008

Après plusieurs demandes voici enfin la carte des data-centers de Google. Crée et mise à jour par grace à ce type d’information : google_data_center_faq

Google data center

 

Pour l’europe et sur l’ensemble de la planète ce n’est pas moins d’une trentaine de centre de données que Google a réparti essentiellement sur les USA et l’Europe :

Data center google europe

Google data center world

Malheureusement celui de Paris, que je ne connais pas n’est pas renseigné. Si vous avez des infos n’hésitez pas. Pour être complet il faudra associer les adresses IP de ces différents datacenter Google.

Lire la suite »


Google sur les traces des services Web d’Amazon

April 6, 2008

Google web servicesA cette heure ce n’est encore qu’une rumeur mais il semblerait que Google soit en train de préparer une offre de service sur sa BigTable (il s’agit d’un service similaire à SimpleDB d’Amazon).

Pas beaucoup plus d’information pour le moment mais si cela se confirme le Clouds Computing va pouvoir réellement commencer. D’autant qu’en terme de disponibilité Google est mieux armé qu’Amazon (qui à connu un incident grave il y a quelques mois, privant ainsi beaucoup de Start’up de leurs services).

Amazon web services

Il restera quand même la question des transferts réseau car ce type de service est utilisé pour faire des calculs sur des quantités énormes, et dans ces cas les upload et download de données risque d’être long. Sauf si Google propose d’autres service avec son offre, permettant notamment de récupérer directement des données depuis les caches ou index Google.

A suivre…


Google analyse plus de 20 petabytes de données par jour

January 16, 2008

Google utilise de nombreux outils pour calculer et mettre à jour ses index. Au delà de l’architecture matériel et de ses centaines de milliers de serveurs Google à mise au point des algorithmes permettant de faire des calcul distribués sur des quantités de données très impressionnante.

map reduce

C’est justement ce que nous découvrons dans un nouvel article traitant de leur programme MapReduce. Ce document nous donne de nouvelles informations sur les volumes traités par Google.

En septembre 2007 ce n’est pas moins de 403 152 TB qui étaient traitées. Le nombre moyen de machines allouées pour une MapReduce travail était 394, et le temps de calcul moyen était de 6 minutes et demi. Le document mentionne que le système d’indexation de Google traite plus de 20 To de données brutes.

map reduce hadoop

Nous apprenons également que Google utilise ce programme pour traiter, par exemple :

Lire la suite »


L’architecture de la plateforme YouTube

October 29, 2007

YouTube Une vidéo décrivant l’architecture technique mise en place pour répondre aux requetes du site YouTube.

Cette vidéo fait un rapide historique de l’évolution du site puis décrit les point suivants :

  • L’architecture des serveurs Web
  • La mise en place des serveurs de vidéo
  • L’optimisation de serveurs de vignettes (Thumbnail)
  • Et enfin quelques mots sur la base de données.

Un seul reproche, certaines parties sont ‘cachées’, essentiellement à propos de l’architecture réseau et des bases de données. C’est dommage car pour ce type d’architecture la bande passante devient un point important et un goulot d’étranglement potentiel.

Il n’en reste pas moins que c’est toujours utile, certaines astuces sont bonnes à prendre.




Lien direct : http://video.google.com/videoplay?docid=-6304964351441328559