ReLIRE : un mot erroné par page, qu'en pense le droit moral ?

Nicolas Gary - 31.01.2014

Lecture numérique - Usages - registre ReLIRE - numérisation - oeuvres indisponibles


Le registre ReLIRE se présente comme une solution alternative à Google et d'autres sociétés qui « ont tendance à confondre production culturelle et contenus exploitables », soulignait Alain Absire, président de la Sofia. Le projet a également pour vocation de prévenir une exception, qui se place au niveau européen, et autoriserait les bibliothèques à numériser les oeuvres indisponibles. Le président évoque alors une « expropriation des droits des auteurs », puisque les livres seraient mis en accès gratuit pour les internautes.

 

 

Revolver inversé

ActuaLitté, CC BY SA 2.0

 

 

Les conditions de numérisation des oeuvres pour le projet ReLIRE, qui vise la numérisation des oeuvres indisponibles du XXe siècle, sont déjà connues. La Sofia avait diffusé un document en septembre 2013, pour en préciser les contours et les modalités. 

La qualité de la numérisation et l'exactitude des données devront répondre aux exigences techniques les plus hautes ; 

- l'exploitation pourra se faire en mode texte (aux formats epub, xml, html…) et/ou en mode image (aux formats PDF image, PNG…) ; 

- le livre devra a minima être disponible dans un format non propriétaire, sur une pluralité de canaux de vente représentatifs ; 

- chaque livre devra être commercialisé à l'unité et dans son intégralité auprès des particuliers. Il pourra être commercialisé auprès des collectivités ; 

- des mesures techniques de protection seront mises en place pour assurer l'accomplissement des modalités d'exploitation prévues par la licence, dans le respect des droits et des intérêts légitimes des ayants droit.  

Au cours de sa présentation, Régis Habert, chargé de mission livres indisponibles du XXe siècle, pour le Cercle de la Librairie, à qui a été confiée la constitution de la société de projet, est revenu sur cette problématique qualitative et technique. Les oeuvres subiront une numérisation homothétique, autrement dit, le produit de la numérisation sera identique à la version papier. Deux formats seront proposés : 

  • ePub pour les documents textes (littérature, essais, …) – qualité éditoriale (OCR à 99,999%) Format prioritaire pour la SDP
  • PDF pour les documents à mise en page structurée avec couche texte cachée (OCR à 99,50 %) 

Une erreur par page après numérisation 

 

Le rythme de numérisation doit être de 1000 oeuvres par semaine, pour parvenir au nombre de 50.000 par an, et l'ensemble de cette réalisation durera neuf années, avec un financement qui aujourd'hui est prévu pour 200.000 livres. Or, une double interrogation se pose : 

 

L'explication est simple : pour la constitution des fichiers EPUB, « la relecture humaine a un coût, qui aujourd'hui n'est pas prévu ». Autrement dit, les fichiers EPUB seront délivrés bruts de décoffrage. Alain Absire souligne : « Il n'y a pas de relecture, puisqu'il n'y a pas d'épreuves. » Avant d'ajouter que l'on devrait arriver à un seuil maximum « d'une erreur par page ». Autrement dit, un mot par page qui serait erroné, après la numérisation, et le passage par la reconnaissance optique de caractère, en vue de transformer le fichier image en fichier texte. Un maximum, insiste le président de la Sofia, « tout à fait acceptable ». 

 

« C'est intolérable », entend-on alors dans la salle. 

 

Christian Roblin, directeur de la Sofia, interviendra pour tenter une meilleure explication. « En réalité, quand on a un fichier PDF, c'est une photo. Après, il y a des erreurs qui sont dans l'OCRisation [NdR : processus de passage du fichier image au fichier texte] du texte pour la recherche par mot. Mais quand vous accédez à la photo, elle reproduit intégralement le texte que vous avez sous les yeux. Donc, il n'y a pas d'erreur. En tout cas, pour le PDF, il n'y a pas d'erreur. »

 

Selon lui, on peut trouver « une petite erreur dans le fichier cache », mais attendu que l'on effectue une recherche par mot clef, « il y a de très fortes chances d'accéder au texte, malgré cette petite erreur. Mais vous aurez, dans le fichier PDF, un respect intégral de l'oeuvre telle qu'elle apparaît ». 

 

« Une erreur par page, sur un livre numérisé qui a déjà été édité, et qui a donc déjà été corrigé a priori (au XXe siècle, il y avait encore des correcteurs chez les éditeurs) ! Donc en fait, leur numérisation ne va pas laisser un mot erroné par page, mais va ajouter un mot erroné par page depuis un livre qui n'en contenait pas a priori », souligne un éditeur numérique.

 

A la recherche du droit moral

 

On se réfugierait volontiers vers le Code de la propriété intellectuelle pour rétorquer que le droit moral semble quelque peu mis à mal. En effet, l'article L121-1 souligne que « L'auteur jouit du droit au respect de son nom, de sa qualité et de son oeuvre ». A ce titre, une numérisation qui contiendrait une erreur par page - sans compter celles que le livre pourrait déjà contenir en soi, est assez peu compatible avec le fait même du respect de ce droit moral, et du respect de l'oeuvre. 

 

 

Les célèbres #epicfail de la numérisation Google Books

 

 

Pour mémoire, c'était d'ailleurs sur ce point qu'avait été tranchée la question d'une possible présence de bandes dessinées dans la prochaine liste du registre ReLIRE, qui doit être présentée le 21 mars prochain. Le SNAC BD avait expliqué, en juin dernier, que l'approche visuelle dans le monde des bulles, était essentielle à l'oeuvre « et son sens est intrinsèquement lié à la perception et à l'objet livre ». 

 

Contrairement aux textes qui ne présentent que des lignes de mots. Les dangers d'une numérisation pour des oeuvres BD seraient susceptible de « constituer une atteinte au droit moral de l'auteur, et ce d'autant plus si l'œuvre est en couleur : le processus de numérisation est de nature à modifier profondément la couleur », insistait le syndicat. C'est également pour cette raison que les livres trop richement illustrés, et les albums jeunesse par exemple, étaient également exclus de la liste du registre, bien qu'il soit possible d'en trouver.

 

Entre temps, la Sofia a bien établi la charte technique promise, pour définir les critères de qualité de numérisation, mais pour les textes noirs. Qu'en sera-t-il du respect de ce droit moral des auteurs ou des ayants droit, puisque le droit moral « est transmissible à cause de mort aux héritiers de l'auteur » ? Il semble bien passé par pertes et profits dans le cas présent.

 

Il faut probablement comprendre qu'une fois le fichier numérisé, il reviendra à l'éditeur désireux de l'exploiter commercialement d'effectuer le travail de relecture, pour nettoyer les erreurs qu'il contiendra. Mais on peut légitimement se demander qui, alors, a « tendance à confondre production culturelle et contenus exploitables » ?

 

Nous tenterons d'obtenir plus d'informations sur ce point.