Linéaire A : déchiffrer les langues perdues avec l'intelligence artificielle

Victor De Sepausy - 24.07.2019

Patrimoine et éducation - A l'international - langues perdues - intelligence artificielle - déchiffrer langues informatique


La pierre de Rosette, à l’heure de la Machine Learning, est toujours d’actualité. Si l’on ne demande plus à Champollion de traduire les hiéroglyphes en s’appuyant sur une version en grec ancien, c’est que l’intelligence artificielle pourrait prendre le relais. Au Massachusetts Institute of Technology, on la fait travailler sur des langages vieux de 3500 ans…


grec ancien
 

L’apprentissage automatique, celui qui change les ordinateurs en machines capables de progresser, offre des pistes d’explorations infinies. La capacité à traduire, si elle passe aujourd’hui par l’irremplaçable intervention humaine, se fait grignoter par l’intelligence artificielle. 

L’exemple du Translatotron de Google — de son vrai nom — tente ainsi d’améliorer la traduction automatique, par l’intermédiaire de l’IA. Directe et rapide, cette synthèse vocale n’est encore qu’expérimentale, mais montre bien la voie suivie.
 

À la recherche du sens des langues perdues


Jusqu’où envisager que l’IA saura se perfectionner, pour supprimer ses approximations et incompréhensions ? Difficile à dire. Yuan Cao du laboratoire d’IA de Google et Jiaming Luo et Regina Barzilay du MIT, collaborent actuellement sur des approches plus anciennes. Il s’agit d’éprouver les capacités de l’apprentissage automatique, pour aboutir à une nouvelle compréhension.

Leur projet vise à la création d’un « système capable de déchiffrer les langues perdues ». Loin des outils de traduction automatique, ils expérimentent au contraire une méthode type less is more. Quand l’approche du Translatotron vise à collecter un maximum de données pour couvrir le plus de champs possible, les chercheurs travaillent sur une base minimale.
 
Leur machine a ainsi découvert le Linéaire B, forme ancienne et archaïque du grec — une écriture mycénienne composée de 87 signes. Elle remonte à 1500 et fut en usage jusqu’en 1200 avant notre ère, remplacée par l’alphabet grec avec lequel il n’a pourtant aucun lien.


poème mythologique, en ougaritique - Mbzt, CC BY SA 4.0

 
L’autre langage, l’ougaritique, est une langue chamito-sémitique : elle ressemble au cananéen, et se présente sous la forme d’un alphabet cunéiforme consonantique : les voyelles étaient en option. Elle s’étend sur une période proche du Linéaire B, du XVe au XIIe siècle avant notre ère. Ougarit (ville de l’actuelle Syrie), fut un lieu de rencontre avec les Hébreux, qui vivaient non loin — de quoi offrir des clefs de compréhensions pour certains textes de l’Ancien Testament.
 

Plus loin, toujours plus loin


Ces deux langues sont aujourd’hui connues et déjà traduites par des humains. Cependant, l’Intelligence artificielle qui s’est vu confier la tâche de les déchiffrer a démontré une efficacité inattendue, bien qu’espérée. Avec un taux de 67,3 % de traduction des mots apparentés au Linéaire B, ses résultats indiquent « une précision remarquable », notent les chercheurs.

Reste alors à s’attaquer à des problèmes plus complexes : qui dit Linéaire B, suppose un Linéaire A. Baptisé Hiéroglypes crétois par Arthur Evans qui les découvrit en Crète, à la fin du XIXe siècle, le langage conserve aujourd’hui encore tout son mystère. On le suppose composé de 25 signes et idéogrammes. Cependant, il était en vigueur à l’époque minoenne, soit entre 2000 et 1450 av. J.-C.. Écrit de gauche à droite, il nous est toutefois parvenu des documents rédigés dans le sens inverse. Troublant…
 
Apparu dans la deuxième partie de l’âge de bronze, le Linéaire A est « l’une des premières formes d’écriture jamais découvertes… qui se différencie par son absence », commentent les chercheurs. Or, si aucun humain n’est parvenu à le décoder, la machine a peut-être un rôle à jouer. 
 

Apprendre à une machine comment apprendre


Quand en 1886, Evans mit la main sur cette pierre comportant un étrange jeu d’inscriptions, il dut comprendre rapidement l’ampleur de la découverte. Il passa sa vie à tenter de traduire, mais pas plus ses tentatives que les suivantes n’ont abouti. 

Le Linéaire B repose sur une hypothèse de Michael Ventris : en 1953, ce linguiste amateur imagine que certains mots répétés seraient des toponymes de l’île de Crète. Audacieux, mais bien vu. La seconde approche, partait de l’idée que cette écriture devait être une forme primitive du grec ancien. Et de nouveau, un pari qui fonctionne.

Or, si la machine du MIT traduit déjà des langues que l’humain est parvenu à déchiffrer comment servirait-elle pour le Linéaire A, qui résiste, encore et toujours, aux assauts des traducteurs ? 

Derrière la traduction automatique réside l’idée que les langues, quelles qu’elles soient, ont des idiomes et fonctionnements communs. Le premier enjeu est donc de cartographier les relations, pour un langage et de multiplier les exemples avec d’autres. On aboutit même à des règles fondamentales simples du type roi = homme, femme = reine. 


tablette d’argile, Linéaire A - Olaf Tausch, CC BY SA 4.0

 
La machine, à ce jour, ne va rien comprendre de ce qu’elle traduit, mais elle pourra, au-delà du signifiant, aboutir à un faisceau de relations qui seront la traduction. Mais pour cela, il faut beaucoup de données — quand on parle de langues vivantes.
 

Less is more, l’approche allemande


Voilà quelques années, une équipe de chercheurs allemands est parvenue à la conclusion qu’avec une méthodologie similaire, reposant sur des bases de données, on obtenait de solides résultats. Mais cette fois, pour des langues rares, avec de petites quantités de données. 
 
Jiaming Luo et ses collègues ont éprouvé ce principe avec le Linéaire B et l’Ougaritique. Sauf que l’on parvient à des résultats, en connaissant les langues qui découlent et en établissant des liens entre la langue mère et ses langues filles. Pour le Linéaire A, la nouvelle technique reposant sur le langage originel ne fonctionne pas.

Or, la principale différence entre l’humain et la machine, c’est que cette dernière ne se fatigue pas, et peut enchaîner les expérimentations sans fin, et très rapidement. Certes, il manquera l’intuition qui avait conduit Michael Ventris à décoder le Linéaire B. Mais pour pallier cette imagination, la machine dispose d’une force de calcul brute colossale.

En se servant de toutes les langues pour lesquelles la traduction automatique est déjà opérationnelle, les chercheurs entendent faire chauffer les processeurs à blanc, pour décoder l’inconnu.


Commentaires

Pas de commentaires

Poster un commentaire

 

grin LOL cheese smile wink smirk rolleyes confused surprised big surprise tongue laugh tongue rolleye tongue wink raspberry blank stare long face ohh grrr gulp oh oh downer red face sick shut eye hmmm mad angry zipper kiss shock cool smile cool smirk cool grin cool hmm cool mad cool cheese vampire snake exclaim question

Vous répondez au commentaire de

Cliquez ici pour ne plus répondre à ce commentaire

* Laisser vide pour ne pas reçevoir de notification par email de nouveaux commentaires.