Perfectionner les recherches sur Google Books : un algorithme tout neuf

Clément Solym - 03.11.2010

Lecture numérique - Acteurs numériques - recherche - livres - algorithme


 Ah, Google ! Pas une journée sans que la société ne soit évoquée dans les médias, ni que l'un ou l'autre de ses services ne fasse l'objet d'une plainte ou assimilé. En l'occurrence, le célèbre Google Books est toujours au coeur de préoccupations de tous...

Si Google s'est fait connaître pour son algorithme permettant la recherche sur internet, avec son classement de liens par pertinence, la dépendance à ses résultats contraints tous les fournisseurs de contenu. Lui y compris. Parce qu'avec Books, c'est évidemment un outil de mise à disposition d'oeuvres numérisées dont il s'agit.



Or, les livres imprimés et numérisés posent une tout autre problématique : l'algorithme est à peu près inefficace les concernant, puisqu'ils ne comportent aucune page avec des liens, se renvoyant la balle les uns les autres.

Restait donc à inventer un BookRank, de la même manière qu'il existe un PageRank. Cela dit, même chez Google, les solutions aux épineux problèmes ont leurs limites. Pour Matthew Gray, ingénieur logiciel en chef du service, il est nécessaire de tirer profit de ce qui a été appris avec la recherche sur le web et d'en tirer profit pour les livres.

Et bilan des courses, un nouveau système de recherche pour les livres est mis à l'épreuve. Plus complexe, plus sophistiqué, il a été mis en place voilà peu et permet de 'comprendre' l'objet même de votre recherche.

Rich Results, mon nouvel ami

Rich Results affine ainsi ce que l'utilisateur veut trouver, pour différencier la recherche simple d'un titre, d'un sujet général. Mais ce type d'outil n'est pas réellement fulgurant : la recherche par titre ou thème existe déjà, bien que largement perfectible.

En fait, l'algorithme a été repensé pour prendre en compte plus d'une centaine de signaux pour classer les résultats. Il ne s'agit plus simplement de prendre en compte la fréquence de recherches effectuées sur un ou plusieurs termes, mais également les ventes récentes de ce livre, le nombre de bibliothèques qui en possède un exemplaire, et combien de fois il a été réimprimé.

L'âge du capitaine ne saurait tarder à être intégré, on s'en doute.



« Une des choses essentielles que nous ayons apprises, c'est que le tout est plus grand que la somme des parties », explique Matthew. Chose qui assure désormais qu'en faisant une recherche avec Stieg Larsson, désormais, on ne tombera plus sur un livre pour enfant datant de 2008, nommé Dragon Tatto, titre de l'un des ouvrages en anglais du romancier... Plutôt pas mal.

Tout cela relève cependant de la pertinence et de l'exécution d'une requête la mieux comprise. Les amateurs de web sémantique se doutent que l'on s'approche ici de perspectives qui passionnent Google.

Or le plus compliqué est de déterminer pourquoi l'utilisateur souhaite trouver des informations sur le livre. Est-ce pour un extrait, de simples informations bibliographiques sur le livre ou bien s'en procurer un exemplaire - en version papier ou numérique ? Ainsi, Rich Results aura pour mission première de parvenir à mieux déterminer les résultats qu'il faut proposer à l'utilisateur.

Un panel multiple de nouvelles options verra donc le jour, pour que les 15 millions d'ouvrages présents dans la bibliothèque puissent pleinement être exploités.

De quoi reposer une impérative question : celle de l'exploitation, justement, et de ce que Google peut faire avec les oeuvres qu'il a numérisées. En particulier pour les oeuvres encore sous droit, qu'elles soient sous la responsabilité légale des éditeurs français ou autres. Néanmoins, de tels apports dans la bibliothèque ne manqueront pas de rendre le service plus utile encore - toutes professions confondues.