Google Books en vacances, compte presque 130 millions de livres dans le monde

Clément Solym - 09.08.2010

Zone 51 - Insolite - numeriser - livres - monde


Il faut s'appeler Google Books et avoir du temps à perdre pour réaliser la comptabilisation de l'ensemble des ouvrages à numériser dans le monde. Ce qui implique de déterminer combien de livres ont été publiés depuis que le monde existe et fait des livres.

« Quand vous faites partie d'une entreprise qui tente de numériser l'ensemble des livres du monde, la première question sur laquelle vous tombez régulièrement est : Combien existe-t-il de livres ? », s'interroge l'équipe.

Une démarche impossible, en soi, mais étant donné que Google a déjà compté jusqu'à l'infini, deux fois, finalement, ce n'était pas si terrible que cela. Dans un grand billet, Google Books explique la démarche et la procédure à mettre en oeuvre pour y parvenir.

Ce qui est intéressant, c'est que la société se pose la problématique en terme non pas de texte, mais en tant qu'oeuvre, enrichie d'une préface, de notes ou de commentaires et ainsi de suite. Mais il fallait donc, dans un premier temps, définir ce que pouvait bien être un livre.


S'il est possible de s'appuyer sur la définition ISBN du livre, il faut prendre en compte que l'ISBN a parfois été accordé à des produits qui ne sont pas des oeuvres (marque-pages, tee-shirt, etc.). Or, un même code ISBN a pu servir à 1500 ouvrages différents, note la firme, qui a dû sentir quelques sueurs froides lui ruisseler sur la nuque.

Premier constat : on compterait alors plus d'un milliard d'oeuvres à numériser, mais Google a rapidement fait le ménage, pour supprimer les doublons de ses listes, et hop, on arriverait à 210 millions de tomes à scanner.

Deuxième campagne de diminution, pour ne garder que des textes, et voilà que l'on tombe à 146 millions. Et si l'on supprime tout ce qui est également publications gouvernementales et/ou administratives, alors le chiffre exact serait 129.864.880 tomes. « Au moins jusqu'à dimanche », plaisante le blog, puisque durant le week-end, il était peu probable que des sorties aient lieu. Mais forcément, ce chiffre changera avec le temps.

Ces chiffres ont été obtenus en s'appuyant sur plus de 150 sources de métadonnées, bibliothèques, WordlCat et autres catalogues de prestataires commerciaux. La société ne devrait pas manquer d'affiner ses outils de vérification...