La British Library archive des milliards de pages Web

Julien Helmlinger - 05.04.2013

Edition - Bibliothèques - British Library - Archive - Pages Web


La British Library a commencé sa collecte afin d'archiver et préserver des milliards de pages Web, blogs, et autres ebooks qui apparaissent sur le domaine britannique d'Internet. Le service public entend ainsi documenter le domaine en son intégralité, un projet qui comprend la création d'une base de donnée reccueillant tous les Tweets publics ainsi que les pages Facebook. La première étape de ce programme ambitieux débute.

 

 

 

 

A dater de ce samedi, et pendant les trois mois à venir, la British Library prévoit de récolter les premiers 4,8 millions de sites britanniques, ce qui correspond à un milliard de pages Web. Tandis que 300 ans avaient été nécessaires à l'institution pour récolter 750.000 pages de journaux imprimés.

 

Ce projet d'archivage se fixe comme objectif la conservation d'enregistrements numériques d'œuvres culturelles et intellectuelles. Et selon les organisateurs, il comprendra éventuellement des copies de tous les messages publics des usagers Twitter et Facebook du Royaume-Uni. En outre, ebooks et autres éditions iPad de journaux ne sont pas exclus.

 

Comme l'explique Lucie Burgess, responsable de la stratégie au sein de la bibliothèque : « Nous devons faire la distinction entre le contenu publié au Royaume-Uni et ailleurs, mais en principe, nous serons en mesure d'archiver les tweets accessibles au public de tout individu, entreprise ou organisation. »

 

Les contenus vidéo seront pris en charge par la collecte de données, mais pas encore les contenus de type YouTube ou Spotify. Si pour l'heure le projet s'intéresse aux domaines « .uk », il devrait être élargi ensuite aux domaines « .org » et « .com ».

 

Un projet qui arrive tardivement, selon ses organisateurs, qui expliquent que de nombreuses données ont été perdues ces dernières années. Lucie Burgess ajoute : « Il s'agit de prendre un instantané. Il ne s'agit pas pour nous de dire ce qui est intéressant. Les chercheurs seront les juges de ça. »

 

Si jusqu'à présent, la British Library ne pouvait légalement archiver qu'un nombre limité de sites Web, le Legal Deposit Libraries Act de 2003 a néanmoins ouvert la voie au stockage de ces données. Néanmoins pour des questions de copyright, l'institution doit solliciter l'accord de ses ayants droit avant de copier une page provenant d'un site Internet.

  

Et la consultation de ces archives numériques sera offerte dans les salles de lecture de la British Library et dans chacune des six bibliothèques suivantes : la Bodleian Library, à Oxford, la Cambridge University Library, la Bibliothèque nationale d'Écosse, la Bibliothèque nationale du Pays de Galles, ainsi que la Trinity College Library de Dublin.