Elastic MapReduce : Un nouveau service dans les Clouds d’Amazon

amazon-web-services-mapreduceDécidément ils sont très actifs chez Amazon web services, en trois ans ils auront mis en place un système de service distribués trés complet (Cloud EC2, SimpleDB, Storage S3, Queue Service SQS). Le dernier en date concerne MapReduce, j’avais d’ailleurs déjà évoqué cette possibilité il y a un peu plus d’un an à la fin de cette note. Mais au fait ça sert à quoi MapReduce

MapReduce est un outil qui permet de consolider de très grands volumes de données (plusieurs téra). Massivement utilisé par Google, ce programme leur permet par exemple de construire l’index du web, calculer le pagerank, consolider des statistiques, et encore plein d’autres choses que vous pourrez lire ici ou laIBM et Yahoo l’utilise également.

hadoopConcernant MapReduce à proprement parlé, il existe plusieurs implémentations, la plus connue est Hadoop. Hadoop est de ce programme libre de la fondation Apache.

Et Amazon est partit de cette brique open source pour construire son offre. En fait, Amazon web services propose de s’occuper de toute l’intendance (serveurs, OS, installation et configuration Hadoop) pour que vous n’ayez plus qu’à fournir les données, la formule et attendre le résultat.

Si vous manipuler de très gros volumes de données (Log, données d’analyse financière, calcul scientifique, etc..) cet outil vous sera surement utile. Surtout si vous ne souhaitez pas gérer la quantité de serveur nécessaire à la mise en place d’un cluster de calcul. Par contre si vous devez utilisez ce service régulièrement n’espérez pas réalisez des économies extraordinaire, ce n’est pas le but de l’offre.

clouderaC’est d’ailleurs dommage que l’offre commerciale ne soit pas plus agressive, ce type de travail ne demande pas de l’allocation de ressource en temps réels. Ils auraient donc pu utiliser les périodes de faible activité de leur infrastructure pour lancer ces calculs. Avec deux avantages, utiliser la plate forme de manière optimale, et proposer un prix dégressif en fonction de l’urgence du besoin.

Enfin si ce sujet vous intéresse sachez que Cloudera à également lancé un offre packagé autour d’Hadoop.

Et pour finir sur MapReduce, si vous avez des données colossales à traiter faite nous par de vos méthodes, de vos commentaires sur ce service Amazon ou contacter moi, nous pourrons en discuter.

Sources :

Sur le même thème :

Leave a Reply