Numérisation manuelle pour Google Book Search

Clément Solym - 25.04.2008

Lecture numérique - Acteurs numériques - Google - numérisation - bibliothèque


Dans l'université du Michigan, au second étage de la bibliothèque, Courtney Mitchel a pour compagne une énorme machine qui ingère les pages d'une Bible plusieurs fois centenaire. Comme d'autres, Mitchel se dévoue à réaliser des versions numériques pour sauvegarder des ouvrages rares et fragiles. Et ce travail se fait pour lui à la main. Près de 600 pages quotidiennement, bien moins rapide que les machines dont dispose Google, alors que cette Bible sera intégrée à Google Book Search, portail qui doit à terme contenir plusieurs dizaines de millions de livres à terme.

Sisyphe est-il un bibliothécaire ?

« C'est monotone, commente, laconique, Mitchel. Mais j'apprends pourtant quelque chose de précieux : comment interagir avec des matériaux vraiment anciens et travailler avec l'imagerie numérique, ce qui se révèle très utile pour l'histoire de l'art. »

La conception de l'ouvrage en question rend particulièrement difficile le scan des parties centrales du livre et la méthode employée, qui photographie chaque double page ne facilite pas la tâche. Pourtant, cet exemplaire pourrait compter parmi les plus anciens.

De son côté, Google affirme que son processus de numérisation ne détériore pas les livres, et s'avère bien plus rapide que la technique employée par Mitchel. « Il nous a fallu du temps pour le développer, c'est pour cela que nous gardons précieusement notre secret », déclare un responsable de Book Search, Ben Bunnell, qui refuse même de dire où s'effectue la numérisation.

Partenaire particulier

Pour de nombreuses autres bibliothèques, cette campagne de sauvegarde des livres a commencé voilà une dizaine d'années. Google alloue à 28 d'entre elles un financement, qui permet au moteur de récupérer en contrepartie un exemplaire du livre. Ainsi, dans le cas du Michigan, cet accord a permis la numérisation d'un million d'ouvrages depuis 2004 quand il en demeure encore presque six millions à passer à la machine.

Les accords ne manquent pas entre le géant et les éditeurs ou les bibliothèques : on recense Cambridge university press ou encore Wisdom Publications. Pourtant, des procédures judiciaires ont été entamées, affirmant que Google viole le droit d'auteur. Mais le moteur clame que l'utilisateur ne peut déposer que des livres qui ne sont plus sous le coup du copyright, et que les livres soumis au droit d'auteur ne sont que partiellement consultables.

Danger de la centralisation ou centralisation des dangers ?

Pour Brewster Kahle, fondateur de l'Internet Archive pour l'Open Content Alliance, Google tente ni plus ni moins que de « verrouiller le domaine public », en réalisant des copies d'oeuvres pour lesquelles le droit d'auteur ne s'applique plus. Sa plus grande angoisse est de savoir si le moteur partagera éternellement les livres numérises. « Nous pensons que l'on devrait multiplier les bibliothèques, les éditeurs et les moteurs de recherche ainsi que les utilisateurs, pour disposer de plusieurs points de vue », considère Kahle.

Une conception théorique louable, mais que John Price Wilkin, bibliothécaire à l'université du Michigan, estime toute théorique. « Nos ouvrages sont entièrement consultables en ce que les gens peuvent les trouver, les lire, les utiliser et faire tout ce qu'ils souhaitent pour leur scolarité ou pour le plaisir. » Reste que Google disposerait effectivement au terme de ces partenariats de fonds issus de toutes les grandes bibliothèques...

Esclave de la machine, par une chaleur d'enfer

Il fait très chaud dans la pièce où travaille Mitchel. On y travaille dans un silence seulement interrompu par les bruits des ordinateurs et des scanners, les clics de souris, pour visualiser l'image, et la corriger à l'aide du logiciel Omniscan, créé par une société allemande, Zeutschel GmbH.

D'un clic, il envoie le livre numérisé à Google, qui se chargera de réaliser la reconnaissance des caractères, qui rend possible la recherche dans le livre et la navigation plus fluide. Alors, le moteur fait parvenir une copie de sa réalisation à la bibliothèque puis en place une dans son stock de livres en ligne.

Pour Chava Israel, collègue de Mitchel, qui réalise des numérisations depuis trois ans, il existe une philosophie derrière ce travail de fourmi. « Ce que je préfère, c'est d'être face à un livre ancien, et d'être alors en mesure de préserver les connaissances, pour ainsi aider les autres et leur permettre d'accéder à davantage de contenu. Je tourne alors les pages. C'est une sorte de méditation. »