Recommander sans lasser, les mains dans le cambouis d'algorithmes

Antoine Oury - 20.05.2014

Lecture numérique - Acteurs numériques - recommandation - algorithme - prescription culturelle


Le Labo de l'édition accueillait ce matin trois entrepreneurs aguerris du domaine de la recommandation culturelle en ligne, pour évoquer les enjeux de la prescription. Vincent Castaignet, de Musicovery, Lucie Soureillat, de YouScribe et Laurent Le Toriellec, qui dévoilera prochainement le service Pirpl, ont ouvert le capot de leur API sans rechigner.

 

 

Vincent Castaignet (Musicovery) et Lucie Soureillat (YouScribe) - Labo de l'édition

Vincent Castaignet (Musicovery) et Lucie Soureillat (YouScribe) au Labo de l'édition

(ActuaLitté, CC BY-SA 2.0)

 

 

L'enjeu est de taille : si la recommandation « Si vous avez aimé ceci, vous pourriez aimer cela...» a fait long feu et occasionne des sourires entendus, les services d'écoute ou de lecture en ligne ont tout intérêt à poursuivre la recherche et le développement de ce service. Pour YouScribe, plateforme de lecture en streaming, elle est même la condition de sa stabilité économique : « Le moteur de recommandation permet de s'assurer que les lecteurs abonnés affichent des pages, et génèrent donc des revenus pour les éditeurs qui ont confié leurs catalogues », explique Lucie Soureillat, chargée du développement business de YouScribe.

 

Vincent Castaignet, directeur général du service de découverte musicale Musicovery, a également pu faire profiter de son expérience dans le domaine : les systèmes de recommandation qui proposent des artistes proches de, ou de la même nationalité d'un artiste écouté ont prouvé leurs limites. En effet, en matière de goûts et de couleurs, on ne discute pas, mais on cherche à prévoir...

 

Pour cela, plusieurs techniques peuvent être utilisées, ici adaptées au secteur musical :

  • La description :
  1. Les descripteurs experts : tempo, rythme…
  2. Les descripteurs sémantiques : genre musical, activité visée par l'auditeur...
  3. Les charts et les tendances : par région, pour repérer un titre émergent ou celui qui sature
  4. La description sociale : les cooccurences des préférences d'utilisateur, pour trouver à quelle tribu il appartient, même si cette solution « Si vous avez aimé » rejoint souvent les titres les plus populaires, ou ceux d'un même artiste.
  5. Une description enrichie, avec genre, sous/genre, repères chronologiques et géographiques, le rôle et les compétences de l'artiste, même si cette solution passe souvent à côté de la segmentation des « tribus musicales - ou culturelles ».
  • La production de données 
  1. Une extraction automatique à partir du signal audio.
  2. Un texte sur le contenu, particulièrement utile pour le web sémantique.
  3. Une approche éditoriale avec des experts : les référentiels seront alors stables, précis, objectifs, mais le risque d'un décalage potentiel avec la population non-spécialisée est possible. Ce type d'approche est par ailleurs non-exhaustif, car les bibliothèques sont souvent imposantes, et en constante expansion. Un contenu nouvellement ajouté sera par ailleurs dépourvu de toute description (le "cold start").

 

Bien entendu, l'idéal, pour un bon moteur de recommandation, reste de coupler toutes ces méthodes afin d'arriver à un résultat optimal, qui ne met pas seulement en avant des « artistes-clones », des morceaux trop éloignés, des titres trop diffusés... Les algorithmes qui prennent en compte les réactions de l'auditeur (saut d'une chanson, ou, au contraire, répétition d'un même titre) seront d'autant plus pertinents. Avec l'application de ces quelques règles, explique Vincent Castaignet, « les sessions d'écoute ont connu une hausse de 25 %, pour une moyenne de 45 minutes par utilisateur ».

 

Recommander un livre, opération à risque

 

Pour le livre, la tâche est à la fois plus simple et plus délicate : plus simple, parce que le texte est bien plus simple à moissonner, pour en récupérer les mots-clefs et autres infos pertinentes. Chez YouScribe, où l'ajout de tags par l'utilisateur est minimal, les textes sont convertis en codes binaires, où le 0 signale que le texte n'est pas inclus dans un thème particulier (par exemple, la médecine), quand le 1 signale qu'il en fait partie. C'est en comparant les codes que le moteur peut définir si un texte est proche d'un autre.

 

« Le data mining auprès des utilisateurs est également une grande source d'informations, que nous pouvons récupérer explicitement, en demandant quelles sont les préférences de l'usager à l'ouverture du compte, ou en proposant une notation à la fin d'un livre», explique Lucie Soureillat. Âge, sexe, géographie, parcours de recherche, temps passé sur une page... Tout cela se combine pour déterminer le potentiel livre parfait.

 

Ce qui pose problème, dans le secteur du livre, c'est qu'un lecteur ne se fait pas un avis sur un livre aussi vite que sur une musique : il faudra donc viser juste, avec un minimum d'erreur. 

 

Au moment de la mise en ligne du catalogue d'un éditeur, celui-ci partage évidemment ses métadonnées avec YouScribe, mais la collaboration sur le domaine de la recommandation s'arrête là, pour le moment. Pourtant, « les éditeurs ont tout intérêt à ce que le moteur de recommandation soit le plus efficace possible », confirme Lucie Soureillat, dans la mesure où il détermine la quasi totalité de leurs revenus.

 

 

Laurent Le Toriellec, CEO, Pirpl - Labo de l'édition

Laurent Le Toriellec, CEO de Pirpl au Labo de l'édition

(ActuaLitté, CC BY-SA 2.0)

 

Laurent Le Toriellec, directeur exécutif de Pirpl, dont le moteur de recommandation sera lancé en 2015, mise tout sur l'éditorialisation, avec une offre plus restreinte. Pirpl ne sera « pas gratuit, mais par abonnement, avec une offre limitée : on ne lit pas comme on écoute de la musique », explique Le Toriellec.

 

Pour ces recommandations, Pirpl proposera cinq livres, déjà classés selon différentes catégories : « Best-Seller », « Nouveauté », « Classique », « Pointu » et « Iconoclaste », déterminées par des experts pour chaque genre. Bien sûr, le travail est de longue haleine, mais pour éviter à l'éditeur, au lecteur, bref, au client de se retrouver le souffle court et dépourvu devant les choix infinis qui s'offrent à lui.

 

On remerciera l'Hadopi Offrelégale.fr d'avoir eu la bienveillance d'organiser cette rencontre au Labo de l'Edition, et d'avoir offert... une clef USB vierge en fin de rencontre. A remplir, donc ?