Lecture numérique > Acteurs numériques > Actualité
L'outil antispam Captcha sert à la numérisation de livres anciens
Une nouvelle vie pour un outil qui fête ses huit ans...
Par Clément S., le vendredi 15 août 2008 à 06:13:15 - 1 commentaire
12
L'antispam au secours des livres
Conçu voilà huit ans pour empêcher les ravages du spam dans les boîtes à courriel, Captcha est actuellement en cours d'évolution et servira prochainement à transcrire les journaux et manuscrits aux lettres passablement... déformées. Sa sécurité n'est pas de 100 %, et l'on rapporte çà et là des systèmes de robots qui en sont venus à bout, mais dans l'ensemble, ça freine bien.
Le système, pensé par Luis von Ahn, à l'origine du modèle Captcha, et qui supervise la numérisation de livres dans 70 universités, a ainsi proposé d'ouvrir son système à qui veut s'inscrire et permettra alors d'aider à la numérisation. En effet, les personnes vont scruter le mot affiché, proposer leur version et par recoupement, Captcha relaiera à un ordinateur le mot mystère. Cela aiderait alors à la numérisation de 160 livres par jour.
reCAPTCHA, version reloaded !
Le nouveau système, modestement baptisé reCAPTCHA servira pour des livres publiés avant 1900 et serait doté d'une efficacité de 80 % de réussite. En passant par une phase de reconnaissance optique de caractère (OCR), on s'appuiera ensuite sur la base de données de référence pour décoder le mot qui pose problème.
« Environ 60 millions de Captcha sont utilisés à travers le monde chaque jour - chacun prenant environ 10 secondes. Par personne, cela ne représente pas grand-chose, mais bout à bout, ces puzzles impliquent 150.00 heures de travail », explique von Ahn.
Encore à perfectionner
Si la numérisation et la reconnaissance tendant de toute manière à être perfectionnées, elles semblent tout de même plus attentives que les opérations de numérisation de masse. Du côté de Google, quand on ne numérise pas à la main, on se sert d'un logiciel de détection maison, ainsi que sur la reconnaissance humaine. Mais on refuse de dire si reCaptcha pourrait devenir un partenaire...
Par Clément S., le vendredi 15 août 2008 à 06:13:15 - 1 commentaire
Mots clés :
Captcha -
reCaptcha -
numérisation -
spam
Publié par William
comme quoi le captcha est utile... moi je m'étais dit que ça ferait un très bon générateur de noms de domaine, dans ton exemple on aurait "overlooks.com" d'intéressant... enfin bref. Quoiqu'il en soit, moi je dis stop au captchas incompréhensibles : http://fanurl.com/00
Publier un commentaire
Reportages
"Forces et faiblesses de la librairie indépendante en Languedoc Roussillon"
L'association Languedoc Roussillon livre et lecture (LR2L) a dévoilé lundi 6 février un rapport présentant un état des lieux de la librairie dans la région, issu de rencontres avec 70 % de ces entreprises.
Tribunes
"La campagne Sempé contre la hausse de la TVA se poursuit"
Rappel de la campagne Sempé contre le relèvement de la tva, elle se poursuit et prend une dimension à la mesure des impacts négatifs qui paraissent semaine après semaine.
Reportages
"Numérisation à la BnF : dégradations, retards et scandales"
Dans le cadre d'un marché public, la société Jouve a pris la main pour la numérisation de 70.000 oeuvres chaque année durant trois ans. Mais après quelques mois à peine, la question de la réalisation du marché se pose lourdement...
Reportages
"Pandas et libraires, une histoire de survie pour espèces menacées"
Pour une fois que l'on ne parle pas de moteur de recherche ni d'algorithme avec cette histoire de bestioles...
Précédentes Suivantes
Suivez-nous
Communiqué
Enjeux contemporains de la littérature
Jeudi 26 janvier : coup d’envoi des Enjeux contemporains de la littérature organisés par la Maison des écrivains et de la...
Profitez d'un vaste réseau de diffusion pour communiquer sur votre actualité, vos événements et vos parutions !
En savoir +






















Réactions