Décidément les services de Cloud Computing sont à la mode en ce moment. La progression est extrêmement rapide et la dernière communication d’Amazon à ce sujet ne fait que démontrer la rapidité d’expansion du modèle.
Ce type d’hébergement reste néanmoins réservé à un certain type d’application, pas question par exemple d’y héberger des données sensibles ou intra-entreprises. Mais il existe néanmoins un cible finalement relativement large pour ces applications.
J’ai essayé les services d’Amazon, mais cela reste assez ‘brute’, c’est du CPU, de la bande passante et/ou du stockage mais c’est d’une simplicité déconcertante (et surtout c’est quasiment sans limite). Dans la même série l’offre de Google est également très impressionnante. Vous pouvez facilement y héberger un site avec plusieurs millions de visiteurs sans vous soucier de la montée en charge. En plus c’est Google qui s’occupe de vous faire les tableaux de bord. Lire la suite »
Lors du dernier Symposium dédié au calcul haute densité Jeff Dean de Google a présenté une partie des éléments techniques qui sont à la base de Google.
On peut (re)-découvrir dans cette présentation, l’architecture technique (à base de PC/ type carte mère). Mais surtout Jeff détaille l’architecture distribué, en présentant notamment : GFS, BigTable, MapReduce.
Dans la seconde partie vous trouverez des détails sur les futures évolutions de Google. En terme d’automatisation mais également de quelle manière ils souhaitent gérer la distribution des données entre leurs datacenters dans le futur. Lire la suite »
Pour l’europe et sur l’ensemble de la planète ce n’est pas moins d’une trentaine de centre de données que Google a réparti essentiellement sur les USA et l’Europe :
Malheureusement celui de Paris, que je ne connais pas n’est pas renseigné. Si vous avez des infos n’hésitez pas. Pour être complet il faudra associer les adresses IP de ces différents datacenter Google.
A cette heure ce n’est encore qu’une rumeur mais il semblerait que Google soit en train de préparer une offre de service sur sa BigTable (il s’agit d’un service similaire à SimpleDB d’Amazon).
Pas beaucoup plus d’information pour le moment mais si cela se confirme le Clouds Computing va pouvoir réellement commencer. D’autant qu’en terme de disponibilité Google est mieux armé qu’Amazon (qui à connu un incident grave il y a quelques mois, privant ainsi beaucoup de Start’up de leurs services).
Il restera quand même la question des transferts réseau car ce type de service est utilisé pour faire des calculs sur des quantités énormes, et dans ces cas les upload et download de données risque d’être long. Sauf si Google propose d’autres service avec son offre, permettant notamment de récupérer directement des données depuis les caches ou index Google.
Google utilise de nombreux outils pour calculer et mettre à jour ses index. Au delà de l’architecture matériel et de ses centaines de milliers de serveurs Google à mise au point des algorithmes permettant de faire des calcul distribués sur des quantités de données très impressionnante.
C’est justement ce que nous découvrons dans un nouvel article traitant de leur programme MapReduce. Ce document nous donne de nouvelles informations sur les volumes traités par Google.
En septembre 2007 ce n’est pas moins de 403 152 TB qui étaient traitées. Le nombre moyen de machines allouées pour une MapReduce travail était 394, et le temps de calcul moyen était de 6 minutes et demi. Le document mentionne que le système d’indexation de Google traite plus de 20 To de données brutes.
Nous apprenons également que Google utilise ce programme pour traiter, par exemple :
Une vidéo décrivant l’architecture technique mise en place pour répondre aux requetes du site YouTube.
Cette vidéo fait un rapide historique de l’évolution du site puis décrit les point suivants :
L’architecture des serveurs Web
La mise en place des serveurs de vidéo
L’optimisation de serveurs de vignettes (Thumbnail)
Et enfin quelques mots sur la base de données.
Un seul reproche, certaines parties sont ‘cachées’, essentiellement à propos de l’architecture réseau et des bases de données. C’est dommage car pour ce type d’architecture la bande passante devient un point important et un goulot d’étranglement potentiel.
Il n’en reste pas moins que c’est toujours utile, certaines astuces sont bonnes à prendre.