Rentrée littéraire : La fashion week des libraires

L'algorithme pour découvrir le livre parfait existe - à 84 %

Nicolas Gary - 10.01.2014

Edition - Société - stylométrie statistique - algorithme - succès commercial


Prédire le succès d'un livre avec 84 % de réussite, c'est l'enjeu d'une étude publiée par des scientifiques américains. Ces derniers se sont appuyés sur les ouvrages classiques contenus dans les archives du Projet Gutenberg, et ont analysé, comparé et décortiqué les oeuvres. Les réussites commerciales des ouvrages ont été mesurées, avec la création d'algorithmes spécifiques. 

 

 

X-memory

runran, CC BY SA 2.0

 

 

La « stylométrie statistique » régira-t-elle l'industrie du livre dans les prochaines années ? Cette méthode mathématique a été jugée « étonnamment efficace », pour définir la popularité et le succès qu'un livre pourrait connaître. Les chercheurs de l'université Stony Brook de New York ont expliqué que tout un ensemble de facteurs est à prendre en compte pour déterminer la réussite d'un livre. 

 

Parmi ces critères, il faut prendre en compte l'intérêt, la nouveauté du style, l'implication du lecteur dans l'histoire - mais bien entendu, des éléments externes peuvent intervenir. Comme la chance, une denrée toujours précieuse.

 

Tous les styles ont été passés en revue, depuis la poésie à la science-fiction (deux genres pas toujours si éloignés...), en passant par des romans tout à fait traditionnels. Les prédictions auxquelles sont arrivés les algorithmes parviennent à mesurer la potentialité du livre avec 84 % de réussite. 

 

Certaines tendances se dégagent, mais attention, ce sont des ouvrages en langue anglaise qui ont été analysés. Ainsi, le recours à des conjonctions comme ‘and' ou ‘but' et un grand nombre d'adjectifs et de noms, seraient des éléments communs dans la réussite des livres. 

 

"Prédire le succès des oeuvres littéraires pose un dilemme énorme pour les éditeurs, mais également pour les écrivains en herbe." 

 

 

En revanche, trop de verbes et d'adverbes, ou des séquences trop explicites sur les actions et les émotions sont des critères que l'on retrouve dans des livres qui ont connu moins de réussite. On préférera ainsi ‘recognised' ou ‘remembered' à des termes tels que ‘wanted', ‘took' ou ‘promised'. De même, des mots d'actualité, ou surfant sur des clichés, seraient à utiliser avec précaution. 

 

« Prédire le succès des oeuvres littéraires pose un dilemme énorme pour les éditeurs, mais également pour les écrivains en herbe. Pour ce que nous en savons, notre travail est le premier qui pose un aperçu quantitatif sur le lien entre l'écriture et le succès des oeuvres », explique le professeur adjoint Yejin Choi, un des auteurs de l'étude. 

 

« Des travaux antérieurs ont tenté de mieux comprendre la recette secrète des livres à succès. Mais la plupart de ces études étaient qualitatives, basées sur une douzaine de livres, et axées principalement sur un contenu de haut niveau - la personnalité des protagonistes et des antagonistes et les séquences. Notre travail porte sur un catalogue bien plus grand, sur différents genres, apportant des éclairages sur les schémas lexicaux, syntaxiques, discursifs et qui caractéristent les styles d'écritures communs aux littératures à succès. »  

 

"Anticiper le succès de romans est [...] un art reposant actuellement sur un peu d'expérience, un goût et un style, et c'est loin d'être un système parfait" 

 

 

Dans les faits, le logiciel a pris en compte les 1000 premières phrases de 4129 de poésie et 1117 histoires courtes, analysant les différents facteurs cités. 

 

En croisant ce type d'algorithme avec le data mining et les big datas collectés par les appareils de lecture, serait-il alors de plus en plus possible d'envisager l'écriture du livre parfait ? Dans ce principe de collectes de données, à partir des comportements de lecture, il est en effet possible pour des services marketing de parvenir à proposer de nouveaux livres à découvrir, mais également de passer en revue les éléments les plus populaires des ouvrages. 

 

Chantal Restivo-Alessi, directrice du service numérique chez HarperCollins précisait bien que l'éditeur partagerait volontiers les données obtenues de la part de services de lecture en streaming avec ses auteurs. « Mais c'est à lui d'écrire le livre. Le processus créatif reste mystérieux. » Le mystère serait toutefois moins épais si l'on sait combien de passages de sexe, d'amour ou de terreur il faudrait inclure pour arriver à capter l'attention du lecteur en permanence. 

 

Les auteurs de l'étude, à l'origine de l'algorithme, ajoutent : « Anticiper le succès de romans est une question qui fait débat entre éditeurs et auteurs. C'est un art reposant actuellement sur un peu d'expérience, un goût et un style, et c'est loi d'être un système parfait. » Cette même équipe, qui a travaillé sur des films, serait d'ailleurs parvenue à des taux de réussite de 89 %, après avoir appliqué les mêmes méthodes à des films.