OCR : Wikisource à la rescousse des oeuvres numérisées de la BnF

Clément Solym - 07.04.2010

Edition - Bibliothèques - livres - numérisés - BnF


Tout le monde le sait, l'outil Captcha qui sert à l'identification des internautes humains sur le web, quand on remplit des champs pour confirmer une inscription appartient à Google. Enfin, ReCaptcha. Et surtout, par ce biais, Google l'utilise pour améliorer ses outils de numérisation, en recourant à la bonne volonté - et l'insu de leur plein gré - des internautes qui l'utilisent. Nous en parlions déjà en août 2008...

Pour améliorer son service, la BnF va plutôt recourir à la bonne volonté des utilisateurs de Wikisource, en proposant 1400 textes, qui seront intégrés à Wikisource et dont les internautes pourront corriger l'OCR, ou Optical Character Recognition, ou reconnaissance optique de caractères.

En effet, les textes numérisés par la BnF « ont bénéficié d’une transcription automatique afin de permettre la recherche directe dans le texte ». Sauf que les technologies se heurtent souvent aux textes anciens et que des erreurs apparaissent. Avec ce partenariat, les internautes agiront donc directement sur les oeuvres et leur conférer une nouvelle dimension afin qu'ils « soient en tout point conformes avec la version originale ».

De la sorte, Wikimédia France veut valoriser « le travail effectué par les internautes sur le projet Wikisource et démontre que les collaborations entre des projets menés de front par des bénévoles, comme Wikisource et Wikipédia, et des organismes publics comme la BnF, permettent d’ouvrir au plus grand nombre l’accès à des ressources littéraires de qualité ».

De la sorte, la correction collaborative des textes qui seront présents sur Wikisource donnera aux amateurs l'accès à un texte non seulement original, mais surtout fiable - contrairement à Google Books qui numérise à tout va sans faire de corrections...

Aujourd'hui, Wikisource est constitué de 50.000 textes, tous appartenant au domaine public ou sous licence libre.

Amusant : voilà quelques jours, Gallimard a demandé à Wikiource de retirer des oeuvres qui y étaient présentes : « Le 15 février 2010, la Wikimedia Foundation a reçu une demande de Éditions Gallimard SA (une société française dont le siège est situé au 5 rue Sébastien Bottin -- 75007 Paris) de retirer certaines pages du Wikisource en langue française, avec pour motif qu'elles sont en violation de copyright. Cette demande s'appuie sur l'affirmation des Éditions Gallimard que le site Wikisource vise un public français et que, par conséquent, d'après les règles françaises de conflit de lois, le droit d'auteur s'applique à ce contenu. »