#NUMERISATION – Les archives du Vatican sont composées de 85 kilomètres d’étagères contenant des documents riches de 2000 ans d’histoire. Cette mine d’informations est depuis longtemps inaccessible et difficilement lisible. C’est en partant de ce constat que le projet in Codice Ratio, porté par Paolo Merialdo, Donatella Firmani, Elena Nieddu de l’Université Tre Roma, et Marco Maiorino, a été mis en place.

 

Vatican Rome
ActuaLitté, CC BY SA 2.0
 


Ce dispositif consiste en la création d’une intelligence artificielle capable de retranscrire en caractères imprimés les anciens textes aux graphies complexes. Lettres Numériques vous détaille le fonctionnement. Le Vatican possède des archives très anciennes d’actes légaux, de correspondances de papes, de livres de comptes qui pourraient être exploités par bon nombre d’historiens.

Actuellement, seule une très faible proportion de ces ressources a été scannée et mise en ligne (ici). En raison du coût considérable que représente la numérisation de l’ensemble, un système de parrainage a été élaboré par le biais de dons. C’est dans ce contexte de dépoussiérage qu’intervient le projet in Codice Ratio. En effet, l’exploitation de ces documents rencontre une double difficulté : ils ne sont pas encore en ligne et même quand ils le sont, ils ne constituent que des numérisations de graphies très complexes à décoder.

Ce projet vise donc à utiliser les numérisations pour y appliquer une IA qui déchiffrera l’écriture pour proposer ces documents en caractères d’imprimerie. Si ce projet se révèle concluant, il pourrait ouvrir la voie à d’autres initiatives similaires dans le monde entier.
 

Comment cette IA fonctionne-t-elle ?


La procédure combine l’utilisation d’un OCR (reconnaissance optique de caractères) et d’une IA. En résumé, l’OCR est appliqué sur les numérisations des ouvrages et décompose l’image en mots et les mots en lettres-images. Ces lettres-images sont ensuite comparées à celles contenues dans sa mémoire pour produire le bon caractère. Cette technique, très efficace sur les numérisations d’ouvrages imprimés, pose problème dès que la graphie est manuscrite et qu’il n’y a plus d’espace entre les lettres.

Il faut dès lors trouver une solution de segmentation en lettres et nourrir cet OCR avec une multitude d’exemples d’anciennes graphies pour qu’il puisse comparer le caractère qu’il lit avec ceux de sa mémoire, et ainsi produire le bon caractère d’imprimerie. Ceci a été rendu possible grâce à des données d’entraînement produites d’une part par des paléographes experts de ces périodes, d’autre part par une centaine d’étudiants universitaires.

La constitution de la première base de données a donc été très onéreuse, mais s’avère très fiable, tandis que les données récoltées dans un second temps, moins exigeantes en termes d’expertise, ont été construites à moindre coût grâce au crowdsourcing. Elles sont toutes disponibles en ligne.
 

Un exemple de graphie ancienne



Ce projet met en place une nouvelle approche de segmentation de caractères. Selon ses responsables, « notre idée est de gouverner la segmentation imprécise des caractères en considérant que les segments corrects sont ceux qui donnent lieu à une séquence de caractères qui composeront plus probablement un mot latin. Nous avons conçu une solution fondée sur des principes qui reposent sur des réseaux de neurones convolutifs et des modèles de langue statistique ».
 

Les archives secrètes du Vatican déchiffrées
par l'intelligence artificielle


En bref, la segmentation se fait grâce aux unités les plus fines, où il y a moins d’encre (ou le moins de pixels), pour déterminer les liaisons entre les lettres afin de les découper correctement et d’appliquer l’OCR sur le bon segment. Les réseaux de neurones convolutifs (ou CNN), qui composent l’OCR, analysent l’image d’une certaine façon (voir ici) afin de déterminer quel caractère a la probabilité la plus élevée d’être écrit. Ce CNN fonctionne grâce aux données d’entraînement fiables qui lui ont été données.
 

Résultats stupéfiants


Les premiers résultats sont disponibles en ligne. Leur CNN, grâce à ces très bonnes données d’entraînement, possède un taux de précision de 96 %. Les créateurs du projet comptent améliorer leur IA pour qu’elle soit par exemple capable de reconnaître les abréviations.


Un exemple du travail fourni par l’IA
 


Tout l’intérêt de cette technologie réside dans le fait de passer de graphies anciennes et illisibles pour le commun des mortels à des caractères d’imprimerie. Elle permettra de réduire drastiquement les dépenses associées à ce type de déchiffrage ainsi que le temps perdu par les historiens pour effectuer leurs recherches.

Cette technologie a également le mérite de faire une copie de ces précieux ouvrages et de les mettre dans d’autres mains qu’une poignée de chercheurs accrédités. Cette procédure, appliquée aux archives du monde entier, pourrait permettre de donner accès à ces documents inestimables au plus grand nombre.
 


En partenariat avec Lettres Numériques




Commentaires

Pas de commentaires

Poster un commentaire

 

grin LOL cheese smile wink smirk rolleyes confused surprised big surprise tongue laugh tongue rolleye tongue wink raspberry blank stare long face ohh grrr gulp oh oh downer red face sick shut eye hmmm mad angry zipper kiss shock cool smile cool smirk cool grin cool hmm cool mad cool cheese vampire snake exclaim question

Vous répondez au commentaire de

Cliquez ici pour ne plus répondre à ce commentaire

* Laisser vide pour ne pas reçevoir de notification par email de nouveaux commentaires.