Google analyse plus de 20 petabytes de données par jour

Google utilise de nombreux outils pour calculer et mettre à jour ses index. Au delà de l’architecture matériel et de ses centaines de milliers de serveurs Google à mise au point des algorithmes permettant de faire des calcul distribués sur des quantités de données très impressionnante.

map reduce

C’est justement ce que nous découvrons dans un nouvel article traitant de leur programme MapReduce. Ce document nous donne de nouvelles informations sur les volumes traités par Google.

En septembre 2007 ce n’est pas moins de 403 152 TB qui étaient traitées. Le nombre moyen de machines allouées pour une MapReduce travail était 394, et le temps de calcul moyen était de 6 minutes et demi. Le document mentionne que le système d’indexation de Google traite plus de 20 To de données brutes.

map reduce hadoop

Nous apprenons également que Google utilise ce programme pour traiter, par exemple :


- L’analyse des images satellite,

- Le calcul des modèle statistique pour leur traducteur automatique de langue (ils utilisaient Systran, avant de mettre au point leur propre traducteur statistique)

- Le clustering des Google News

- etc…

Si vous souhaitez plus de détail, à propos de l’algorithme, de son implémentation (quelques milliers de ligne C++), ou encore des statistiques d’utilisation je vous conseille la lecture de ce document : MapReduce

Grâce à cet outil : «Tous les collaborateurs de Google peuvent traiter des téraoctets de données. Et ils peuvent obtenir leurs résultats en 10 minutes environ, de sorte qu’ils peuvent itérer et essayez autre chose si elles n’ont pas obtenu ce qu’ils voulaient la première fois.”

Au delà de la performance technique cet instrument est un véritable avantage concurrentiel car la construction et le tests de nouvelles idées peut être mise en pratique très facilement sur des quantités de données importante. De plus la rapidité de calcul permet à Google de maintenir un index à jour en quasi temps-réel.

Amazon AWS hadoop logo

Pour terminer, il faut noter qu’Amazon permet de faire ce type de calcul, à la demande (en utilisant par exemple hadoop, une implémentation libre de MapReduce, du groupe Apache). C’est bien sur payant mais sans commune mesure avec l’investissement qu’il faudrait faire pour posséder une telle infrastructure. Il est donc intéressant de comparer cela à Amazon EC2:

* $ 0,40 de l’heure x 400 x 10 minutes = $ 26,7
* 1 TB de transfert de données, soit un coût de 0,10 $ par Go = 100 $

Ce petit calcul nous montre que pour quelques dizaines d’euros vous pouvez vous aussi traiter un To de données !

L’avantage concurrentiel de Google est donc important sur ce point, mais il n’est pas exclusif.

Sur le même thème :

3 Responses to “Google analyse plus de 20 petabytes de données par jour”

  1. [...] Comment font-ils ? A quoi sert MapReduce, toutes les explications ici… [...]

  2. [...] Si ces sujets vous intéressent vous pouvez également consulter cet article : Comment Google analyse plus de 20 petabytes de données par jour [...]

  3. [...] déjà évoqué cette possibilité il y a un peu plus d’un an à la fin de cette note. Mais au fait ça sert à quoi [...]

Leave a Reply