Rentrée littéraire : La fashion week des libraires

Exclusif : Un Captcha pour Internet Archive, concurrent de Google Books

Nicolas Gary - 28.10.2013

Lecture numérique - Usages - reconnaissance de catactères - recaptcha - Google Books


En 2000, quand Luis Von Ahn, un ingénieur de la Carnegie Mellon University âgé de 21 ans, cherchait simplement à confirmer que face à un écran se trouvait bien un être humain. C'est ainsi que les codes Captcha virent le jour : un filtre de sécurité composé d'un code à entrer et qui désormais permettent de faire la distinction entre un robot spammeur mal intentionné et un être humain - qu'importe qu'il soit mal intentionné...

  

 

BookScanner et numérisation de livre

 

ActuaLitté, CC BY SA 2.0

 

 

C'est en 2007 que reCaptcha remplacera le Completely AutomatedPublic Turing test to tell Computers and Humans Apart, avec ces deux mots déformés, mis l'un à côté de l'autre. Finis les alignements de lettres aléatoirement choisies, on choisit deux mots : l'un connu, l'autre pris dans la base de données de Google Books. Et pour affiner la reconnaissance de caractères, la société américaine qui numérise au kilomètre décide d'acheter reCaptcha, un outil qui améliorera ses livres numériques.

 

Mais le principe de fonctionnement est toujours le même : profiter du regard humain pour identifier des mots sur lesquels le moteur Google Books a des doutes. L'un des deux mots est connu de Google Books, le second est soumis au jugement de plusieurs internautes, qui à force de validation, vont valider le terme méconnu. Or, reCaptcha est utilisé sur des milliers de de sites et plus de 30 millions de ces couples de mots sont affichés chaque jour. 

 

Le magazine Science avait estimé que l'on parviendrait à retranscrire 160 livres chaque jour, si l'ensemble des captchas utilisés sur le net était mis à profit. C'est que l'un des deux mots provient d'une page de livres, et les internautes, sous couvert de lutter contre le spam et les robots envahisseurs de sites, finalement, viennent en aide aux scanners de Google, et à son entreprise de bibliothèque numérique globale.

 

 

"Et remettre entre les mains de Google cette somme d'ouvrages numérisés est un risque évident : on ne rend pas un unique acteur responsable de l'archivage des livres "

 

 

« Mais ces livres du domaine public ou non, que Google numérise, quelle est l'utilisation marchande qui en est faite », interroge Benjamin Sonntag, de la Quadrature du Net ?C'est que, depuis quelque temps, en plus des livres, l'outil reCaptch est utilisé pour numériser la presse - les archives du Ne York Times depuis 2009. Et depuis mars 2012, l'outil sert également à améliorer le service Street View. « Vis-à-vis de toute société privée, il faut rester prudent : plus elle grandit, moins il est possible de lui faire confiance. Et remettre entre les mains de Google cette somme d'ouvrages numérisés est un risque évident : on ne rend pas un unique acteur responsable de l'archivage des livres. »

 

C'est dans cette optique que la Quadradture va développer pour Internet Archive un logiciel reCaptcha-like, afin d'aider l'organisation à améliorer la qualité de leurs fichiers. « Tout est publié chez eux, les sources, les codes : c'est une structure en laquelle on peut avoir plus confiance. D'ailleurs, des partenariats se dessinent en France... », poursuit Benjamin Sonntag. 

 

C'est que, chez Internet Archive, on propose les PDF image, les JPEG originaux de la numérisation, ainsi que des EPUB générés par un OCR. Or, même avec ABBY, probablement le plus efficace des logiciels de reconnaissance de caractères, les fichiers sont plus ou moins bons. Et ce dernier « tourne uniquement sous Windows, et pas libre. Et les EPUB, comme partout, ont besoin de l'aide d'un être humain, parce qu'il n'y a encore qu'un humain pour lire les lettres et les mots ».

 

Le projet est aujourd'hui déjà avancé, puisque selon les estimations de la Quadrature, « 10 % du logiciel sont là. La recherche et développement est achevée, maintenant, il faut passer au code, et ce n'est pas vraiment la part la plus agréable. Il faut passer à la phase d'industrialisation ». Le logiciel, encore son nom, aura le même mode de fonctionnement, et reposera sur l'Open Source. « Notre programme sera gratuit, comme reCaptcha et libre. Il fonctionnera sur le même modèle que reCaptcha. »

 

Faire plaisir à Linus ?

 

Quel intérêt alors ? « Eh bien, quand tu utilises Linux, Linus Torvalds [NdR : le créateur de Linux, système d'exploitation libre], il n'est pas plus content que si tu es sur Windows. C'est simplement que ton outil t'appartient un peu plus, et que tu sors d'un monde propriétaire. » Cet argument, particulièrement simple, pourrait avoir un grand impact dans les communautés du livre, quand il s'agira de le déployer. Après tout, il aura le même intérêt de lutte contre les spams que reCaptcha, sans travailler pour une firme américaine, et servir des intérêts privés. 

 

 

 

 

Concrètement, le logiciel apportera d'ailleurs quelques éléments supplémentaires. « On pourra savoir de quel livre vient le mot qui est utilisé pour la reconnaissance, disposer de données plus transparentes. On s'appuiera sur le logiciel libre de reconnaissance de caractère Tesseract, qui permet de pouvoir déterminer des termes dont on n'est pas certain. Mais également de donner l'emplacement du mot sur l'image. L'idée n'est pas de rendre ce logiciel plus intelligent, les algorithmes ne sont pas conçus pour cela, mais simplement d'offrir une alternative libre, par rapport à celle de Google. »

 

Et d'ajouter : « Une alternative, c'est de la concurrence, mais dans le domaine du livre, cela permet de rouvrir le jardin que Google avait fermé. Que font-ils de cet usage privatif des données liées à Google Books ? Ils assurent travailler pour le bien de l'humanité, mais personnellement, je ne les crois pas. Avec notre outil, nous proposerons un système qui peut être modifié, et qui n'appartient pas à Google. Cette recherche d'ouverture est essentielle. »

 

En 2008, von Ahn, à l'origine de l'outil, expliquait « Environ 60 millions de Captcha sont utilisés à travers le monde chaque jour - chacun prenant environ 10 secondes. Par personne, cela ne représente pas grand-chose, mais bout à bout, ces puzzles impliquent 150.00 heures de travail. » Notons qu'une solution visuelle est à l'étude depuis bientôt un an, pour remplacer les mots de reCaptcha, par un outil reposant sur le graphisme d'une image à réajuster.

 

Dans le domaine de la reconnaissance de caractères, l'OCR, un autre acteur est à signaler : Distributed Proofreaders, fondé en 2009 par Charles Franks, et qui s'était originellement associé au Projet Gutenberg, pour aider à la relecture et la correction des pages numérisées. Des bénévoles du monde entier prennent part à cette relecture de documents, avec un processus très cadré : tout livre est relu par trois personnes avant que l'on ne passe à son formatage, en deux étapes.