Une base PostgreSQL de 2 petabyte chez Yahoo!

Je ne sais pas qui utilise encore le moteur Yahoo! mais il est toujours intérressant de suivre leurs travaux sur les hautes volumétries. En effet après leurs communications sur Hadoop c’est cette fois le tour de PostGreSQL, utilisé pour améliorer le ciblage publicitaire.

PostGreSQL

Selon Waqar Hasan, Directeur des bases de données chez Yahoo : « C’est la première fois, à notre connaissance, que l’on place une base de donnée de plus d’un petabyte en production. Nous l’avons construite pour qu’elle atteigne plusieurs dizaines de pétabytes et nous avons l’intention d’y parvenir en 2009. »

Cette base contient le comportement des visiteurs de leur site web. Le but de cette base est d’effectuer une analyse comportementale fine des habitudes et profils des internautes. La finalité étant bien entendu commerciale, il s’agit de mieux cibler les annonces publicitaires en fonction du profil des internautes.

Techniquement, Yahoo utilise PostgreSQL sur environ 1000 serveurs (soit 2 Tera par serveur!).Le volume des mise à jour est lui aussi impressionnant, le flux des clics internaute représente plus de 24 milliards d’update par jour !

Si le sujet vous intéresse vous trouverez plus d’informations ici et ici, ou directement sur le blog de Josh Berkus d’un des ‘core dev’ de PostGreSQL

Sur le même thème :

Leave a Reply