Les archives secrètes du Vatican déchiffrées par l'intelligence artificielle

Antoine Oury - 03.05.2018

Patrimoine et éducation - A l'international - Vatican archives - intelligence artificielle Vatican - In Codice Ratio Vatican


La bibliothèque du Vatican abrite une collection de livres qui génère bien des hypothèses et des fantasmes : les Archivum Secretum Apostolicum Vaticanum, ou archives secrètes apostoliques du Vatican, ne sont en réalité que les textes qui appartiennent aux papes. Une intelligence artificielle, dirigée par des chercheurs, a été chargée de décrypter les numérisations des documents pour en faciliter la compréhension et l'exploitation.


The Sistine Hall of the Vatican Library
Le hall de la bibliothèque du Vatican (photo d'illustration, Anna & Michal, CC BY-SA 2.0)
 


Plus de 80 kilomètres de documents, des manuscrits chargés d'Histoire, voilà de quoi éveiller l'intérêt des chercheurs. C'est pourtant un robot, ou plutôt une intelligence artificielle, qui explorera les archives secrètes du Vatican : une équipe de chercheurs italiens, dirigée par Paolo Merialdo, Donatella Firmani, Elena Nieddu et Marco Maiorino, accompagnera ce lecteur un peu particulier dans son travail.

 

In Codice Ratio — c'est le nom du projet et de l'intelligence artificielle — n'a, en apparence, rien de différent des nombreux programmes de reconnaissance de caractères (OCR) qui servent à déchiffrer, organiser et rendre lisibles les images des documents passés sous les scanners. Ainsi, l'intelligence artificielle est capable d'identifier les lettres, une par une, pour les changer en langage informatique.

 

Toutefois, les documents des archives secrètes ont la particularité d'être écrits en minuscule caroline, une écriture apparue au VIIIe siècle grâce à Charlemagne, qui lui a laissé son nom. Si cette écriture avait pour objectif d'en remplacer une autre, jugée illisible — elle introduit par exemple l'espace entre les mots —, elle apparaît aujourd'hui, à nos yeux profanes habitués aux caractères informatiques, assez énigmatique.

 

Pour l'intelligence artificielle aussi, la lecture des minuscules carolines n'est pas des plus aisées : les « n » et les « m » sont régulièrement confondus par la machine avec des « i » qui se succèderaient. À l'inverse, l'un des avantages des documents des archives secrètes est que leur rédaction manuscrite, assurée par des scribes, fait apparaître des lettres régulières et similaires entre elles.

 

Une machine pour comprendre caroline
 

Les chercheurs ont donc mis au point un programme, dans leur intelligence artificielle, pour que cette dernière segmente les lettres en tracés, afin de prévenir au maximum les erreurs et autres faux positifs. Une fois les lettres segmentées, l'intelligence artificielle utilise chaque pièce en sa possession pour tenter de créer toutes les lettres possibles avec ces pièces : au bout du processus, une seule lettre doit apparaître.

 

Bien entendu, ce n'est pas le cas, et l'intelligence artificielle doit véritablement apprendre. Pour ce faire, les chercheurs ont demandé l'aide d'étudiants scolarisés dans 24 écoles italiennes pour indiquer à la machine quelles constructions étaient proches des lettres existantes. Dans l'illustration ci-dessous, les lettres « G » entourées de vert sont les modèles, tandis que celles entourées de rouge sont des « faux positifs ». Les élèves devaient ensuite sélectionner quelle construction, dans les propositions suivantes, se rapprochait de la lettre « G ».

 

La bibliothèque du Vatican, des trésors
de manuscrits sur le net


Pour parfaire l'intelligence de leur collègue informatique, les chercheurs lui ont inculqué un peu de logique à travers la probabilité : par exemple, si l'intelligence artificielle identifie un mot avec le segment « iii », il est plus probable que ce dernier soit un « m » mal déchiffré...

 

Pour tester l'intelligence artificielle après entraînement, les chercheurs lui ont proposé de lire 18.000 pages issues des registres du Vatican, qui rassemblent essentiellement la correspondance et des avis. L'intelligence artificielle a obtenu un score d'identification correct de 96 % : si de nombreux mots restent mystérieux pour elle, les progrès sont évidents.

Pour le moment, toutefois, les chercheurs préfèrent garder cachés à l'IA les documents écrits de la main de l'homme, mais par des profanes de l'art de l'écriture...




via The Atlantic


Commentaires

Pas de commentaires

Poster un commentaire

 

grin LOL cheese smile wink smirk rolleyes confused surprised big surprise tongue laugh tongue rolleye tongue wink raspberry blank stare long face ohh grrr gulp oh oh downer red face sick shut eye hmmm mad angry zipper kiss shock cool smile cool smirk cool grin cool hmm cool mad cool cheese vampire snake exclaim question

Vous répondez au commentaire de

Cliquez ici pour ne plus répondre à ce commentaire

* Laisser vide pour ne pas reçevoir de notification par email de nouveaux commentaires.