Facebook offre son outil FastText : l'intelligence artificielle et le langage

Clément Solym - 22.08.2016

Lecture numérique - Acteurs numériques - Facebook langage comprendre - Intelligence artificielle vocabulaire - langue comprendre réseau


Pas certain que l’industrie du livre ne puisse en tirer profit dès à présent, mais la disponibilité de fastText en open source reste une nouvelle réjouissante. Le Labo de recherche de Facebook a décidé de partager largement sa bibliothèque de classification de textes, ainsi que des documents de travail. Le monde va pouvoir avancer sur l’intelligence artificielle – à défaut de tourner rond.

 

 

 

« Comprendre le sens des mots qui vous roulent sur la langue, quand vous parlez ou du bout des doigts, quand vous publiez un message, est l’un des plus grands défis techniques auxquels sont confrontés les chercheurs en intelligence artificielle », indiquent le Facebook AI Research Lab, ou FAIR.

 

L’appréhension par une IA du sens des mots est en effet tout l’enjeu de l’interaction entre un ordinateur et un être humain : que la machine puisse traiter les informations de manière à répondre intelligemment. 

 

Traiter les spams et le clickbait

 

Or, la quantité croissante de contenus disponibles sur la Toile, implique que l’on puisse utiliser des outils plus souples « pour mieux comprendre les contenus de très vastes ensembles de données, afin de fournir des résultats de classification plus précis ». C’est donc tout l’objet du langage et de sa maîtrise dont Facebook propose de s’emparer, avec son outil FastText. 

 

Ce dernier est constitué d’une bibliothèque conçue pour aider à bâtir des solutions évolutives dans la représentation du texte et sa hiérarchisation. Les chercheurs assurent que leur petit outil dispose des méthodes les plus en pointe dans le traitement du langage naturel – celui qui fait qu’un humain parle à un autre humain. Mais également dans le domaine de l’apprentissage – dira-t-on de l’éducation ? – des machines. 

 

Les premières expérimentations sur la langue que les chercheurs de Facebook ont mises en œuvre portent sur le spam, le fléau du net, mais également sur les publications baptisées clickbait. Vous en avez certainement croisé, il s’agit de billet au titre ULTRA incitatif, véritable piège à clics autant qu’attrape-couillon. 

 

Sans aucune valeur réelle, ces billets suscitent l’envie de découvrir, avec pour paradoxe que les lecteurs savent pertinemment qu’ils ne liront rien de bien consistant. 

 

Enseigner à la machine, le gage des prochaines années

 

Pour apprendre aux robots, certaines compagnies ont décidé de passer par la lecture : c’est le cas de Google, qui a avalé près de 3000 romans d’amour, pour développer sa compréhension des textes. Le projet mené par les scientifiques de la firme est arrivé à un stade où l’intelligence artificielle serait en mesure d’écrire ses propres romans, assurait-on.

 

Plus concrètement, la machine pourrait reproduire des trames narratives découlant des livres, mais serait encore incapable d’imaginer une histoire inédite. Il faudra donc, un jour où l’autre, que l’on en arrive à définir ce que peut être l’inédit, face à une machine qui n’a aucune difficulté à mémoriser tout ce qui lui est rentré dans le disque. 

 

Quant à l’outil de classification de Facebook, il a été pensé pour « fonctionner sur une grande variété de langue, y compris l’anglais, l’allemand, l’espagnol, le français et le tchèque, en profitant de la structure morphologique des langues ». Il est en mesure d’interpréter les mots et intégrer des sous-entendus – presque. (via Facebook)

 

 

On peut télécharger les codes à cette adresse.