Quand le livre croise l'algorithme : Tamis, la révolution des métadonnées

Nicolas Gary - 11.10.2018

Lecture numérique - Usages - métadonnées livres algorithmes - Tamis Québec projet - algorithmes analyse livres


Le projet Tamis découle d’une longue réflexion autour de ce qui se joue entre le texte, les images et tout ce qui compose un livre. Pour que soit découvert un ouvrage, les métadonnées sont aujourd’hui essentielles. Mais les informations peuvent s’enrichir, au profit de l’œuvre.

 

tabletop assistant
Matthew Hurst, CC BY SA 2.0

 

Gilles Herman, directeur des éditions Septentrion, basées à Québec, compte parmi les premières maisons à avoir exploité internet comme vitrine de son catalogue. « Notre premier site web est apparu en 1995, et nous étions les seuls à disposer d’un moteur de recherche interne aux livres, pour mettre en avant le contenu ! »

 

Enrichir la description d'un livre, par le livre
 

Utilisant l’API gratuite de De Marque, pour mettre en avant la table des matières, la maison « cherche depuis longtemps comment rendre justice à notre catalogue ». Et en parallèle, la question des métadonnées se pose : comment mieux exploiter les informations que contient un livre pour enrichir ces dernières ?

 

Bénéficiant d’un soutien financier du Conseil des Arts du Québec – programme orienté vers la stratégie numérique pour l’innovation –, l’éditeur sollicite alors Christian Roy, fondateur de Brix Labs (société de consulting) et Clément Laberge, conseiller numérique. 

 

Le projet s’enclenche, fort d’un budget de 75.000 $ CA. « Nous sommes entrés de plain pied dans la Recherche et Développement, avec une question simple : comment ajouter le contenu des œuvres elles-mêmes pour faire la présentation ? » L’enjeu est connu : le travail sur les métadonnées est souvent opéré sans que le temps nécessaire soit pris. 

 

« Les éditeurs ne sont pas non plus formés à cela ni des spécialistes de la bibliothéconomie », note Gilles Herman. Or, tout comme un bibliothécaire, l’éditeur souhaite faire découvrir son catalogue, mais également le vendre.

 

Puiser aux algorithmes, pour trouver du nouveau
 

La perspective de créer des algorithmes dédiés est rapidement écartée : plutôt puiser dans ceux qui existent, d’autant que la communauté des programmeurs travaille plus volontiers en Open Source. « Nous avons cherché dans des secteurs comme l’analyse d’image, la recherche sémantique, ou encore les outils statistiques de textes... Comment utiliser ces ressources pour générer des métadonnées exploitables ? »

 

Premier constat : Onix, le format qui permet l’édition de métadonnées pour les livres ne dispose pas de champ de description dédié à la couverture. « Nous nous sommes tournés vers la BTLF, pour faire remonter ce manque. Après tout, on connaît l’histoire : un lecteur, en librairie, se souvient vaguement du livre qu’il cherche. Il a retenu que c’était un roman historique, avec une bicyclette sur la couverture. » 

 

C’est ici que Tamis pourrait intervenir. Et plus encore : « Les algorithmes peuvent apprendre à classer des livres, mais également à générer des descriptions. Pour exploiter le Machine Learning, il faut leur apporter suffisamment de données, leur faire » lire » les livres, pour qu’ils les exploitent. »

 

Exemple simple : seule une machine pourrait aboutir à extraire des données de géolocalisations telles que le livre serait classé comme se déroulant à 78 % à Montréal, 12 % à Paris et 10 % à Saskatchewan. « Toute la problématique est encore de parvenir à utiliser ces données par la suite, pour améliorer la découvrabilité du livre. »


Metadata
gabitogol, CC BY 2.0

 

La Machine Learning rêve-t-elle de quatrièmes de couverture ?
 

Et surtout, pour que cela fonctionne, et que l’intelligence artificielle progresse, lui apporter de la matière. « Septentrion dispose de 850 titres publiés. C’est beaucoup, mais insuffisant. Nous avons donc ouvert notre collaboration avec des éditeurs présents chez De Marque – c’était tout l’enjeu du modèle collaboratif voulu par le Conseil des Arts. »

 

En approchant les grands groupes, comme HMH, Boréal ou Québec Amérique, c’est une base de 3500 titres qui sont désormais disponibles. « Si nous avons des résultats probants, alors on pourra démarcher d’autres maisons. » Et toujours avec la garantie que les informations tirées de ces analyses seront fournies aux partenaires, qui les exploiteront à leur tour.

 

Certes, pour ce projet, 75.000 $ CA en mise de départ ne permettent en réalité que des expérimentations liminaires, « c’est juste assez pour susciter l’intérêt de chacun ». Mais d’ores et déjà, les universitaires se montrent attentifs : « Eux sont souvent dans la dimension théorique du Machine Learning, tout en manquant de contenus pour éprouver leurs hypothèses. »

 

Tamis aurait de quoi nourrir libraires, éditeurs, bibiothécaires, universitaires, chercheurs en données. Un prototype de moteur de recherche s’appuyant sur les couvertures est en cours de réflexion. Une première pour le secteur, mais qui débouche aussi sur une meilleure compréhension de l’usage des métadonnées par les moteurs de recherche eux-mêmes.

 

« On verse dans le rétro engineering pour remonter le courant et capter ce qui fonctionne. Tant pour Renault Bray que chez Amazon. Pour ce dernier, on a déjà mis en exergue qu’il est le seul acteur à se servir de mots clefs pour ses résultats de recherche. »

 

“Un côté geek fascinant”
 

Christian Roy est en charge des éléments plus techniques, les mains dans le cambouis. Responsable des recherches, programmeur, il rédige les billets présentant les résultats qui découlent des premières expérimentations. « Je prends en charge toute la technique, à l’exception du redéploiement des métadonnées dans le site des éditions du Septentrion. »

 

Tamis présente « un aspect geek fascinant, pour ce que les algorithmes réalisent. Appliquer des sciences dont on entend parler au secteur culture, c’est aussi résoudre des problèmes que l’édition rencontre ». Si les outils apparaissent complexes, leurs apports sont finalement simples.
 

 

« Pour travailler la longue traîne, cela travaillera les livres pour mieux les manifester, alors qu’on observe l’effet contraire. Les algo de recommandations s’abreuvent de données de consommation immédiates, qui ne sont pas reliées aux œuvres elles-mêmes. » 


Vancouver Public Central Library
GoToVan, CC BY 2.0

 

Bien entendu, tout dépendra de l’exploitation qui en sera faite, « mais je fais confiance à la créativité des gens qui les utiliseront ». La découvrabilité, notion centrale du projet, reste première. Pourtant, « on aboutira à des résultats inattendus aujourd’hui, qui apporteront des applications supplémentaires ». Et plus encore si le catalogue passé au crible se gonfle : « Avec 800.000 titres, on parviendrait à une tout autre échelle », poursuit-il, un brin rêveur.

 

Des données à l'enrichissement des classifications
 

Tamis incarne donc un projet de recherche appliquée qui, sans réinventer la roue, résoudrait des cas concrets de demande qu’expriment les lecteurs. « Non seulement on sort de ce que l’éditeur raconte sur son livre, mais on peut quasiment basculer vers le langage nature : le web sémantique est là. »

 

Avec, dans le même temps, la possibilité de croiser les concepts évoqués par un lecteur. « Un papillon bleu sur la couverture, c’est peu comme information, même pour un fantastique libraire, parce que la mémoire des humains n’est pas infinie. » Celle d’une machine, bien nourrie de données, en revanche, pourrait être un complément intéressant.

 

Dans un premier temps, les apports de Tamis pourront compléter les balises ONIX, par l’ajout de mots clefs descriptifs. « La BTLF est ouverte à un principe de normalisation, mais nous n’en sommes pas encore là : d’abord, il faut appréhender la valeur des choses que Tamis nous fournit, avant d’imaginer une balise descriptive de la couleur des couvertures. »

 

Et d’ajouter en plaisantant : « Qui existe d’ailleurs peut-être déjà dans les 300 pages de spécifications d’ONIX ! »

 

Des données pertinentes, qui apporteront au minimum des mots clefs, l’idée est là. Ensuite, pourquoi ne pas imaginer d’ajouter dans les classifications BISAC (Book Industry Systems Advisory Comittee), utilisée aux États-Unis, avec quelque 4000 entrées thématiques ou THEMA, de nouvelles entrées ? « La suite du projet serait alors d’établir un maping avec les classifications existantes... »

 

Presque vertitginieux. À suivre ici.

 




Commentaires

Pas de commentaires

Poster un commentaire

 

grin LOL cheese smile wink smirk rolleyes confused surprised big surprise tongue laugh tongue rolleye tongue wink raspberry blank stare long face ohh grrr gulp oh oh downer red face sick shut eye hmmm mad angry zipper kiss shock cool smile cool smirk cool grin cool hmm cool mad cool cheese vampire snake exclaim question

Vous répondez au commentaire de

Cliquez ici pour ne plus répondre à ce commentaire

* Laisser vide pour ne pas reçevoir de notification par email de nouveaux commentaires.