Proust peut enfin reposer en paix, avec un fichier corrigé

Clément Solym - 28.10.2010

Reportage - projet - gutenberg - proust


Le fichier originel avait été décrié, mais il y avait vraiment très peu d'erreurs dans le fichier du Projet Gutenberg

Du côté de chez Swann « truffé de fautes » dans le Projet Gutenberg ? Et ce fichier « bourré de fautes d'orthographe » disponible dans la bibliothèque numérique « 100 livres classiques » de la console DSi XL de Nintendo, en lieu et place du fichier numérique de l'exemplaire de Folio (Gallimard) ?

Pas de liste de fautes


Telles furent les conclusions hâtivement tirées par de nombreux fans de Proust à la lecture de l'article du 18 mars 2010 signé de Philippe Fontaine, journaliste à 01net., suite à la sortie de cette console le 5 mars.

Les commentaires de Philippe Fontaine – parfois déformés - furent aussitôt repris avec joie dans la presse en ligne francophone doublée de la blogosphère, sans parler des avis de lecteurs présents sous les articles. Qui eût cru que le sujet déchaînerait tant de passions ?

Mais, question plus importante encore, qui ne laisserait aucune erreur après avoir révisé cinq cents pages de Proust à l'écran ? En tout cas, probablement pas ceux ayant émis les avis de lecteurs les plus acides, au vu de leur propre orthographe.

Les expressions « truffé de fautes » et « bourré de fautes d'orthographe » me paraissent mal refléter la qualité du fichier du Projet Gutenberg et le travail des volontaires ayant révisé ligne après ligne près de cinq cents pages à l'écran – et ceci deux fois de suite - pour proposer un fichier texte très compact fiable à 99,9 % et pouvant être téléchargé en une seconde.

Principe de relecture

Des volontaires relisent en effet ligne après ligne puis page après page le texte produit par un logiciel OCR en le comparant avec la version scannée du même livre. Chaque livre est relu et corrigé deux fois, et la deuxième relecture est assurée par des correcteurs expérimentés. Après publication, les fautes qui auraient pu subsister peuvent ensuite être signalées à tout moment – après vérification dans un exemplaire imprimé ou scanné - et sont corrigées rapidement.

Une faute avait bien été repérée et signalée dans l'article de O1net., à juste titre, avec capture d'écran à l'appui et lien vers le livre. Mais, malgré l'annonce d'un livre « bourré de fautes », je n'ai pas eu le plaisir de recevoir la liste de fautes aussitôt demandée par courriel à la rédaction de 01net., ce qui aurait permis une correction immédiate du fichier du Projet Gutenberg dès la réponse reçue, et aurait donc allégé d'autant la révision du dit fichier.

Quelques fautes en fait, et corrigées

Les rares erreurs que comprenait ce fichier sont maintenant corrigées. Je suis l'une des volontaires du Projet Gutenberg, qui en compte plusieurs milliers, aussi je me suis fait un plaisir de relire le fichier en troisième relecture – les livres étant relus systématiquement deux fois avant leur mise en ligne, comme expliqué plus haut.


Les fautes furent corrigées avec l'aide de Gallica, grâce à l'exemplaire scanné de la version originale de Du côté de chez Swann publiée par Gallimard. La version numérisée du livre de Gallimard sur Gallica est tout aussi fiable qu'une version imprimée, puisqu'il s'agit de la photographie numérique de cette version, avec un avantage appréciable, le fait de pouvoir également consulter ce fichier converti en mode texte par un logiciel OCR, et de pouvoir faire des recherches textuelles sur ledit fichier.

Un correcteur d'orthographe utilisé sur le fichier incriminé - doublé d'une comparaison systématique avec le même terme dans la version numérisée en mode image (la meilleure, donc) disponible dans Gallica - ont confirmé d'emblée ma première impression, à savoir que l'oeuvre n'avait pas été « massacrée » par le Projet Gutenberg. Toutes choses déjà pressenties à ActuaLitté par Nicolas, Clément ayant ensuite lancé une enquête.

Les autres fichiers de Proust

J'en ai profité aussi pour relire de la même manière les autres oeuvres de Proust disponibles dans le Projet Gutenberg - utilisation d'un correcteur d'orthographe puis vérification dans un exemplaire numérisé de Gallimard dans Gallica - afin d'y traquer les dernières coquilles, vraiment très peu nombreuses sinon inexistantes selon les volumes, puisque ces livres avaient déjà été soumis à deux relectures.

Si l'écriture de Proust est superbe et très originale, y compris pour le choix d'une orthographe rare, d'une ponctuation riche utilisée à la perfection et d'apostrophes remplaçant parfois les traits d'union (ce que d'aucuns n'ayant jamais lu Proust pourraient prendre pour des «fautes», un contresens monumental), sa révision sur un fichier électronique n'est pas facile, aussi ceci m'a demandé un peu de temps, d'autant plus que je dois également gagner ma vie par ailleurs.

Le Projet Gutenberg tente de produire des oeuvres fiables à plus de 99,9 % après relecture, ce pourcentage étant également celui de la Library of Congress - bibliothèque nationale des États-Unis - pour ses livres numérisés à partir de versions imprimées. Un pourcentage de 100 % ne pourrait être atteint que si les éditeurs fournissaient directement leurs propres fichiers numériques, chose assez rare. Le fichier en question était donc déjà fiable à 99,9 % avant sa troisième relecture.

Les chefs-d'oeuvre de la littérature mondiale sont ensuite mis à la disposition de tous dans de «petits» fichiers pouvant aisément circuler via l'internet et pouvant être utilisés par quiconque, y compris par Nintendo et Gallimard si bon leur semble, en se conformant à la licence d'utilisation présente à la fin de chaque fichier. Les versions électroniques de Proust dans le Projet Gutenberg ont donc dû rendre service à de nombreuses personnes de par le monde, même avec quelques coquilles ne dépassant pas les 0,1 %.

Perspectives

Pour les amoureux de Proust, signalons que les derniers volumes de À la recherche du temps perdu ne sont pas (encore) disponibles dans le Projet Gutenberg, puisqu'ils sont soumis au copyright aux États-Unis. Publiés après la mort de Proust en novembre 1922, ils tomberont dans le domaine public 95 ans après la mort de l'auteur. Je vous laisse faire le calcul. Mais votre aide sera bienvenue le temps venu pour traquer les dernières coquilles.

Ces livres appartenant au domaine public en France, ils sont bien évidemment présents dans Gallica et qui plus est, avec possibilité de recherche textuelle, même si l'oeuvre téléchargée représente encore un fichier très volumineux. Précisons que, même sur Gallica, la conversion d'un livre en mode image en livre en mode texte entraîne des «fautes», et c'est chose normale, puisque la conversion se fait au moyen d'un logiciel OCR fiable à 99 % dans le meilleur des cas. Ces fautes sont purement logicielles, et les logiciels OCR vont continuer de gagner en qualité.


Cela dit, bien sûr, si le prochain fichier destiné à la bibliothèque numérique « 100 livres classiques » de la future console de Nintendo émane directement de Folio, plutôt que du Projet Gutenberg, ce sera beaucoup mieux, puisqu'il s'agira d'un fichier parfait « issu » de la maquette du livre et directement fourni par l'éditeur de Proust.

Mais l'erreur est humaine, puisqu'il y aurait eu confusion entre le fichier test (celui du Projet Gutenberg) et le bon fichier (celui de Folio), si j'ai bien compris l'article de Clément dans ActuaLitté, et la faute d'orthographe aussi (dans le fichier du Projet Gutenberg), puisqu'il s'agissait d'une erreur logicielle ayant malheureusement échappé à la vigilance des volontaires ayant corrigé ce livre.

Les ultimes fautes peuvent toujours être signalées – après vérification dans un exemplaire de Gallimard – auprès de la rédaction d'ActuaLitté, qui se fera certainement un plaisir de transmettre (merci Nico).

Nous espérons que Proust peut enfin dormir en paix – ou tout au moins retrouver une certaine quiétude d'esprit – en attendant des fichiers électroniques parfaits pour toutes ses oeuvres.


Quelques liens


Proust dans le Projet Gutenberg
grâce à des volontaires habitant en Amérique du Nord, en Australie et ailleurs.

Les langues dans le Projet Gutenberg
Le français est la deuxième langue – après l'anglais, bien sûr - avec Stendhal, Jules Verne, Emile Rostand, Proust et bien d'autres.

Distributed Proofreaders
,
le site sur lequel les livres sont relus et corrigés deux fois par le biais d'un logiciel conçu dans ce but. Notre prochain article sera d'ailleurs consacré à ce site (génial, n'ayons pas peur des mots) et à la méthode de correction des livres.


Copyright © 2010 Marie Lebert. Tous droits réservés. Pour diffusion en ligne sur ActuaLitté.