BnF : Impliquer les internautes pour corriger les manuscrits numérisés de Gallica

Cécile Mazin - 27.11.2014

Lecture numérique - Acteurs numériques - BnF Gallica - numérisation livres - manuscrits OCR


En janvier 2012, la BnF s'est engagée dans un projet impliquant également Orange, Jamespot, Urbilog, I2S, ISEP, INSA Lyon, université Lyon 1, université Paris 8. Le projet était de soumettre des pages web aux internautes, et de les impliquer dans « une plateforme de correction collaborative de documents numérisés afin de produire des documents rééditables et accessibles à l'ensemble des utilisateurs ». La plateforme Correct poursuit aujourd'hui son développement.

 

 

 

 

Le projet de recherche FUI12 Ozalid a donc abouti à Correct. Il devait se dérouler sur trois périodes avec une amélioration des solutions d'édition de texte, pour arriver à des outils plus puissants encore : 

  • 2012-2013 : mise en place d'une interface permettant de corriger des textes numérisés.
  • 2013-2014 : mise en place de fonctionnalités permettant, pour un texte donné, de reconstruire la mise en forme du document et de reconstituer un ordre logique de lecture.
  • 2014-2015 : mise en place de fonctionnalités permettant un enrichissement éditorial des textes (indexation, vocalisation, annotation, etc.).

 

S'appuyer sur une contribution collective, ou crowdsourcing, Correct est donc un outil de Correction et d'Enrichissement Collaboratif des Textes numérisés (CorrECT, donc). Depuis ce 24 novembre, la troisième phase d'expérimentation est en cours : elle permet « à tous de corriger des documents numérisés provenant de Gallica et de participer à des projets de correction collaboratifs ». 

 

Sur le blog de la BnF, on donne quelques autres détails. Les documents qui ont été corrigés « seront réintégrés dans Gallica à la fin du projet, offrant une meilleure indexation des documents et une meilleure qualité de leur mode texte ». Pour mieux saisir l'enjeu, il faut comprendre comment se déroule la numérisation : dans un premier temps, le manuscrit est photographié, et l'image qui en résulte passe par un outil de reconnaissance de caractères. 

 

 

 

Ce dernier est puissant, certes, mais peut se méprendre sur telle ou telle lettre, un mot, ou un signe de ponctuation. Dès lors, une relecture humaine devient essentielle pour arriver à disposer d'un texte propre. Quand on télécharge le fichier PDF du livre, on retrouve alors deux couches : la première est la numérisation (fichier image), la seconde, invisible, est celle du texte reproduit. 

  

Si le cœur vous en dit, il est possible de s'aventurer sur Correc, à cette adresseIl est aussi possible, sans s'inscrire, de découvrir les outils mis en place, à cette adresse.

 

 

Rappelons que Google dispose depuis plusieurs années maintenant d'une solution de crowdsourcing identique, mais qui n'est pas aussi clairement présentée. En effet, l'outil reCaptcha, qui sert généralement à différencier un robot d'un être humain, en lui demandant d'identifier des lettres bizarrement écrites, est en réalité une solution pour améliorer la reconnaissance optique, et corriger les ouvrages numérisés par Google.

 

De son côté, la BnF avait déjà sollicité l'outil Wikisource, en avril 2010, pour l'aider à corriger l'OCR de 1400 textes. Avec ce partenariat, les internautes agiront donc directement sur les œuvres et leur conféreront une nouvelle dimension afin qu'ils « soient en tout point conformes avec la version originale ». De la sorte, Wikimédia France voulait valoriser « le travail effectué par les internautes sur le projet Wikisource et démontrer que les collaborations entre des projets menés de front par des bénévoles, comme Wikisource et Wikipédia, et des organismes publics comme la BnF, permettent d'ouvrir au plus grand nombre l'accès à des ressources littéraires de qualité ».