Europeana Newspapers : Numériser la presse d'information, d'ici 2015

Antoine Oury - 02.12.2014

Patrimoine et éducation - Patrimoine - Europeana Newspapers - BnF numérisation Gallica - presse ancienne patrimoine


Depuis le mois de février 2012, une douzaine de bibliothèques nationales d'Europe se sont alliées pour le projet Europeana Newspapers, dont l'objectif est de rendre accessibles 18 millions de pages issues de la presse d'information, d'ici janvier 2015. Le corpus choisi se concentre sur les XIXe et XXe siècles, avec un accent sur les grands événements historiques.

 

 

CC-BY, Europeana Newspapers

 

 

Le projet Europeana Newspapers rassemble 18 partenaires, 11 partenaires associés, qui reçoivent tous des fonds de la part de l'Union européenne, ainsi que 22 partenaires annexes, qui ne reçoivent pas de financement, mais des « bénéfices annexes » comme l'accès aux technologies développées dans le cadre du projet.

 

La numérisation et la valorisation de la presse historique entrent dans le cadre du Programme-cadre pour la compétitivité et l'innovation (CIP) de l'Union européenne, et ont pu, à ce titre, bénéficier d'un financement à hauteur de 4,12 millions € de la part de l'Union européenne, pour un budget total de 5,16 millions €.

 

Améliorer l'accès et les usages des ressources numériques

 

La majorité des documents du corpus visé est déjà numérisée, par les différentes bibliothèques nationales impliquées dans le projet Europeana Newspapers. Le plus souvent, sous forme d'images : autrement dit, le texte lui-même reste difficilement accessible, la recherche dans le texte est impossible, et s'emparer des documents, par les chercheurs ou le grand public, s'avère délicat. La période couverte s'étend de 1618, avec des journaux en provenance des Pays-Bas, à 1955 en Lettonie. Les documents sont tous dans le domaine public, soit 70 ans après la publication du journal.

 

Les objectifs d'Europeana Newspapers résident donc avant tout dans l'amélioration de l'OCR, Optical Characters Recognition (reconnaissance optique de caractères) et la mise en place de l'OLR, Optical Layout Recognition (reconnaissance optique de la mise en page), afin d'indexer d'une manière plus fluide les titres et différentes rubriques des journaux. 

 

Enfin, le développement des entités nommées est également en production : l'indexation des noms propres, des noms de sociétés, ou des événements permettra de lier des documents, ou encore d'associer une page Wikipédia à un nom ou une expression précise (pour l'allemand, le néerlandais et le français uniquement, pour le moment).

 

8 millions de pages devraient bénéficier de l'OCR, et 2 millions de l'OLR : sur les 18 millions de pages du projet Europeana Newspapers, seules les pages des titres de la fin XIXe et du XXe peuvent être traitées avec ces technologies, d'après les opérateurs du projet. Pour le moment, 1,385 million de pages ont bénéficié de l'OCR, et 1,002 de l'OLR.

 

La technologie d'OCR est pilotée par l'université d'Innsbruck, en Autriche, à partir du logiciel FineReader d'ABBYY, et l'OLR par la société CCS (Content Conversion Specialists), à Hambourg, qui produit des documents METS/ALTO. Ces derniers permettent d'associer des caractères en plein texte aux pixels correspondants sur l'image, afin de « superposer » la transcription et la numérisation originale.

 

 

Europeana Newspapers from Europeana Newspapers on Vimeo.