Une Intelligence artificielle classe les photos de presse de la bibliothèque du Congrès

Clément Solym - 17.09.2020

Lecture numérique - Acteurs numériques


Pour aider les internautes dans leurs recherches, la Library of Congress bascule dans le monde des neurones cybernétiques. Avec une base de données de 16 millions de pages d’anciens journaux, soit 1,5 million de photos de presse, une Intelligence artificielle est appelée en renfort. 


 

Son nom de code : The Newspaper Navigator. Sa fonction : parvenir à fouiller les archives de la Library of Congress au mieux. Et parvenir à identifier comment s’est opéré le traitement médiatique des grands événements marquants de l’histoire. Au crible, les guerres, les actions des présidents et bien d’autres. 
 

Redécouvrir l'histoire et l'histoire de la presse


Avec une option visuelle apportée aux recherches historiques, précise Jim Casey, professeur adjoint d’études afro-américaines à la Penn State University. 

Actuellement en train de rédiger un article sur l’évolution des rédacteurs en chef de médias dans les premiers temps de la presse et des États-Unis, l’universitaire jubile. 

« Newspaper Navigator sera un outil inestimable pour retracer la culture visuelle de la presse. Il nous fournit une multitude d’indices sur le travail des éditeurs (dans les coulisses), afin de forger l’aspect et la représentation des premières ébauches de l’histoire », explique-t-il.



L’outil a été monté par Ben Lee, chercheur à l’université de Washington, et actuellement en résidence à la Bibliothèque du Congrès, sur le volet Innovation. 
 

Identifier, trier, classer, ranger


Pour aborder son projet, il a commencé par identifier le contenu visuel à l’aide de solution de détection d’objets au sein des pages — différencier un article d’une illustration. Il s’est penché sur la Première Guerre mondiale et la collection déjà numérisée de journaux parus entre 1900 et 1963. De la sorte, l’Intelligence artificielle a pu détecter les photos, les illustrations, les cartes ou encore, les strips et autres comics, tout en intégrant les titres et les publicités.

Par la suite, un système traditionnel de reconnaissance de caractères (OCR) a permis d’extraire les légendes associées aux images. Avec parfois des ratés majestueux.

On découvre ainsi, avec délectation, la brève publiée à l’occasion du mariage d’Ernest Hemingway et Martha Gellhorn « partis pour un voyage de noces à New York ». Le tout intitulé For whom the wedding bells toll – Pour qui sonne les cloches du mariage… L’information avait été publiée dans Collier’s Weekly, magazine fondé en 1888, où travaillait ladite épouse.



Pour se servir de Newspaper Navigator, il suffit de quelques mots clefs, par lesquels on voyage dans la base de 1,56 million de photos de presse. Une approche chronologique offre une seconde porte d’entrée dans le système, ainsi que l’État dans lequel a été publié le média. 

On pourra s’amuser à cette adresse.

Dossier : L'intelligence artificielle et la littérature, un bel avenir devant eux

 


Commentaires

Pas de commentaires

Poster un commentaire

 

grin LOL cheese smile wink smirk rolleyes confused surprised big surprise tongue laugh tongue rolleye tongue wink raspberry blank stare long face ohh grrr gulp oh oh downer red face sick shut eye hmmm mad angry zipper kiss shock cool smile cool smirk cool grin cool hmm cool mad cool cheese vampire snake exclaim question

Vous répondez au commentaire de

Cliquez ici pour ne plus répondre à ce commentaire

* Laisser vide pour ne pas reçevoir de notification par email de nouveaux commentaires.