Comment archive.org stocke plusieurs petaoctets de données

wayback archive.org capricorn-tech

L’Internet Archive, également connu sous le sigle IA est une organisation consacrée à l’archivage du Web, située en Californie. Le projet sert aussi de bibliothèque numérique. L’archivage des données a commencé en 1996, en 2007, la Wayback Machine contenait plus de 2 petaoctets de données. Le volume augmente désormais à un rythme de 30 téraoctets par mois.

Ces données sont collectées en collaboration avec Alexa. Le robot d’indexation utilisé est Heritrix, un logiciel libre, programmé en Java. Le logiciel de numérisation de livre est Scribe, ce logiciel est gratuit et en open-source (Scribe Software).

A peu près une fois tous les 2 mois, IA récupère des copies du contenu aspiré par Alexa. Ensuite elles sont traitées via un premier cluster et au fur et à mesure il est sauvegardé sur bandes DLT et sur les ‘tepabox‘ :

petabox

 

Les archives courantes des données sont stockées sur des ordinateurs de bureau, chacun contenant quatre disques durs de 160 Go sous ReiserFS, 512 Mo de RAM . Le tout relié en ethernet, simple et efficace. Les hôtes peuvent être accessibles en utilisant le shell distant (rsh) . Les hôtes du cluster ont un script d’auto-authentification, de sorte que le shell sécurisé (ssh) est également possible. L’accès à l’hôte est limité en fonction du type de compte. Les comptes d’utilisateurs par exemple peuvent se connecter directement sur research.archive.org et avoir accès à toutes les machines situées dans les rack de niveau 1 via un partage NFS.

racks internet archive

Ensuite toutes les données web sont archivées et stockées dans des fichiers DAT/ARC. L‘ARC contient les documents archivés (html, gif, jpeg, ps,…), chacun précédés de quelques informations d’en-tête sur le document. Ces fichiers archivés et compressés sont individuellement accessibles (via le web ou en ssh pour certains utilisateurs membre du programme).

Enfin à chaque fichier ARC correspond un fichier DAT. Les fichiers DAT contiennent des méta-informations sur chaque document, liens vers l’extérieur que le document contient, format de fichier, la taille du document, etc.

Toutes les versions sont en permanence disponible sur le site www.archive.org. Belle architecture, simple , efficace avec des coûts de stockage minimaliste pour des volumes extraordinaire !

Sur le même thème :

One Response to “Comment archive.org stocke plusieurs petaoctets de données”

  1. [...] Comment archive.org stocke plusieurs petaoctets de données Catégorie: archivage     Tags: archivage,données del.icio.us Wikio Technorati [...]

Leave a Reply