Un premier livre entièrement traduit par une intelligence artificielle

Victor De Sepausy - 02.10.2018

Edition - Les maisons - intelligence artificielle traduction - livre traduire machine - robot traduire livre


Ces dernières années, les logiciels de traduction automatique comme Google Translate ne cessent de s’améliorer. Pourtant, ils ne dispensent toujours pas l’homme d’un travail de relecture attentif, de corrections et d’ajustements, afin de garantir la qualité et l’intelligibilité de la traduction.




 

Quantmetry, expert en IA, et DeepL, start-up allemande spécialisée dans la traduction automatisée basée sur le Deep Learning, ont entamé il y a quelques mois un défi technologique : celui de traduire intégralement un ouvrage scientifique de 800 pages avec une intelligence artificielle. Assurons d'ores et déjà que ActuaLitté n'a pas encore pu mesurer la différence entre le texte originel et la traduction : les informations communiquées relève de ce que l'éditeur a transmis.

 

Le Deep Learning en renfort de l'IA

 

Le Deep Learning (ou l’apprentissage profond en français) reste encore un domaine peu connu du grand public. Pour l’expliquer, imaginons une machine capable d’apprendre par elle-même au fur et à mesure sans l’intervention de l’homme.

 

Quantmetry et DeepL ont développé, au printemps 2018, un outil permettant de traduire des ouvrages techniques de l’anglais vers le français. Le défi était d’éviter une traduction littérale en tenant compte du contexte, des sous-entendus, des mots ayant plusieurs significations ou encore des tournures des phrases et des subtilités de la langue française.

En seulement deux mois et demi, le livre est traduit ! Bien sûr, une équipe de chercheurs de l’ENSAI, l’INRIA et du CNRS ont mené un travail de relecture, mais la qualité de la traduction rendue par l’IA relevait d’un niveau encore jamais atteint. 

 

80 % de temps gagné grâce à l’usage de l’IA

 

Le premier livre traduit par le Deep Learning est l'ouvrage de référence Deep Learning, écrit par Ian Goodfellow, Yoshua Bengio et Aaron Courville.

 

Quantmetry prévoit de mettre à disposition l’outil pour accélérer la diffusion du savoir scientifique dans la communauté francophone d’ici la fin d’année ou le début d’année prochaine. Quantmetry souligne que l’IA est performante pour traduire un contenu technique, mais que le rôle du traducteur humain reste essentiel, à plus forte raison concernant les ouvrages artistiques ou littéraires. 
 

« Cet ouvrage présente un contexte mathématique et conceptuel pour l’apprentissage profond, couvrant les fondations de l’algèbre linéaire, de théorie des probabilités et de l’information, du calcul numérique et de l’apprentissage automatique », indique l’éditeur dans sa présentation. Nul doute que si l’on venait à y trouver une métaphore, c’est que la pauvrette se serait égarée.

 

« Il offre également des perspectives de recherche couvrant des sujets théoriques tels que les auto-encodeurs, l’apprentissage de représentation, les modèles probabilistes structurés, la fonction de partition, l’inférence approximative et les modèles génératifs profonds. » Et la litote, elle met le chocolat dans le papier d'alu...

 

Un défi technique, mais pas seulement 

 

C’est aussi un manifeste pour défendre la francophonie dans l’enseignement des disciplines scientifiques, car, comme l’a bien noté Cédric Villani, on ne pense pas les mathématiques de la même manière en anglais et en français. 

 

La traduction de cet ouvrage répond à l’ambition de faciliter la transmission des connaissances les plus avancées sur le sujet, de participer à la formation des ingénieurs et chercheurs de demain et d’initier ainsi la naissance d’une véritable communauté autour des enjeux scientifiques, techniques et sociétaux posés par les algorithmes de traitement de données.

 

Le livre, coédité par Florent Massot et Quantmetry, sera mis en vente officiellement le 18 octobre au prix de 69 € dans toutes les librairies, à la Fnac et sur Amazon.

 




Commentaires
Si l'humain a fait un travail de relecture (correction), ça n'a strictement rien de nouveau. Les agences de traduction travaillent avec les traducteurs automatiques à base d'IA depuis très longtemps !
En effet, le travail de correction par des êtres humains qualifiés est encore indispensable.



Mais il ne faut pas non plus oublier que l’apprentissage des réseaux de neurones artificiels se fait par l’exemple, c’est-à-dire en exploitant des traductions réalisées par des humains qualifiés, qui n’ont certainement pas été consultés pour que leur travail serve un jour à les remplacer par une machine.



Mais Internet, aujourd’hui, est beaucoup conçu pour que les humains travaillent gratuitement pour les algorithmes d’IA.



Exactement comme le reCAPTCHA de Google que je suis obligé d’utiliser pour poster cet article. En identifiant un certain type d’images, j’entraîne l’algorithme de reconnaissance d’images de Google.



Pourquoi faire ? Sous prétexte d’assurer la sécurité des sites, Google, avec reCAPTCHA et les images de Google street view, cherche certainement à entraîner les algorithmes de ses voitures autonomes.



Il en va de même pour Linguee, par exemple, où le comportement des utilisateurs sert probablement à vérifier la pertinence des traductions, et à entraîner l’algorithme de... DeepL ! Nous alimentons tous la traduction automatique à nos dépens.
Pour ce qui est des reCaptcha, l'idée est juste géniale. Perso, ça ne me gêne pas trop qu'un tel système de vérification ait une réelle utilité, plutôt que de n'être qu'une stricte perte de temps.



Pour ce qui est des traducteurs, ils ont été payés pour leurs travail. Le résultat ne leur appartient pas. Ceux qui se font piller ce sont ceux à qui appartiennent ces textes, et qui ont embauché les traducteurs.



Etre contre cette évolution, ça revient, de fil à aiguille, à vouloir supprimer toute forme de mécanisation : voiture, tracteur, roue, pelle et pioche, .. ?



Nous sommes condamnés à trouver d'autres formes de travail, voire d'autres formes de sociétés où le travail ne serait plus la grandeur à laquelle tout se mesure...
Pour recaptcha, l’idée est en effet géniale. Pour Google. Plutôt que de payer des gens à travailler, on crée une sorte de micro-tâche effectuée par des gens qui seront obligés de les effectuer s’ils veulent accéder aux sites web (dont ceux des services publics...). Vu que la tâche à effectuer est infime, les gens ne prennent pas ça comme du travail. Pour Google, le gain est énorme. Mais ne vous attendez pas à avoir accès à des voitures autonomes gratuitement. Il faudra repayer (ou retravailler, ou recéder ses données) pour y avoir accès. C’est une forme d’exploitation consentie, qui n’enrichit que Google.



Pour les traducteurs, le droit français les reconnaît comme auteur (du moins pour les traductions éditoriales et littéraires). Ils relèvent fiscalement de l’AGESSA et sont payés par des notes de droits d’auteurs (voir le site de l’ATLF). Ils sont doublement lésés : en tant qu’auteurs de leurs traductions, et car leur travail sert à entraîner une machine destinée à les remplacer.



Je pense comme vous que faire son luddite de base ne sert à rien. Mais les GAFAM ont les moyens d’imposer leurs technologies comme monopole, et surtout les moyens médiatiques pour les faire accepter.



La question n’est pas de s’opposer à la technologie, c’est de savoir à qui elle profite, qui travaille à son amélioration (recaptcha, linguee, ou cession de nos données personnelles), et qui risque d’en subir les conséquences.

Les métiers ne sont pas interchangeables, se former prend du temps. Allez expliquer aux traducteurs (dont je fais partie) qu’après des années d’études supérieures et d’expériences, il faut reprendre des études de sciences, d’informatique, d’ingénierie de haut niveau en intelligence artificielle ? Est-ce réaliste ?



Les traducteurs devraient évidemment se renseigner sur le fonctionnement de la traduction automatique, savoir ce qu’est un réseau de neurones artificiels, comment les intégrer dans leur travail. Mais la post-édition (un métier qui existe déjà, qui consiste à corriger des traductions automatiques) représente une dépossession du savoir-faire. Il faudrait peut-être les remplacer par des compétences en programmation… Mais vous imaginez la barrière psychologique ? On le voit bien dans l’article, d’ailleurs, ou l’auteur se moque un peu du texte, incrédule, mais ne cherche pas à vulgariser la technique derrière, car c’est très difficile.
Les traducteurs se faisaient "voler" leur travail bien avant la traduction neuronale, avec les mémoires de traduction dont (presque) toutes les agences sont équipées. Si je relis bien Wikipedia, l'outil qui se taille la part du lion, Trados a été créé en 1988.



Mais, on peut voir la question d'une autre manière : ça leur permet de garder le travail pour eux, en augmentant considérablement leur capacité de production, et en augmentant énormément les volumes produits. Les besoins sont immenses, pour pas dire intarissables ! Le traducteur apporte la valeur ajoutée haut de gamme, quand le bas de gamme serait de toute manière fait dans les pays à bas coûts, à commencer par l'Inde ou la Chine.



On ne demandera jamais au traducteur de devenir ingénieur en IA. Mais, oui, demain il aura probablement son réseau neuronal installé à côté de son MS Office. Ces traducteurs neuronaux sont déjà câblés en services externes dans les outils de TAO.



Pour vous rejoindre en partie, ce qui me gêne dans les GAFAM, ce n'est pas tant qu'ils fassent du business, ni même qu'ils trouvent des moyens intelligents de faire progresser leurs systèmes à bon compte, c'est surtout que leur position dominante leur permet de le faire sans être soumis aux taxes et autres impôts auxquels sont soumis toutes les entreprises qui ne peuvent pas faire de "l'optimisation fiscale". Ca, oui, c'est un énorme scandale. Nous payons TOUS, financièrement parlant, entreprises et particuliers, pour l'argent que l'état de gagne pas sur leurs énormes business !
Je suis au courant de tout ça, et vous avez raison, c’est la façon dont on utilise les outils qui compte.



Mais les outils ont un impact sur la manière dont on réfléchit (cf. Macluhan, Lawrence Lessig...). Et il faudra forcément acquérir des compétences de haut vol en NMT pour configurer son propre système.

Tout le but de Trados (dont l’éditeur SDL est par ailleurs agence de traduction, tiens donc...) est de réduire les coûts de production « par défaut » grâce au logiciel, avec les mémoires de traduction, la segmentation du texte et le calcul de ressemblance des phrases, puis avec la traduction automatique déjà intégrable/intégrée.



Alors oui, les outils de TAO sont formidables, quand le traducteur les maîtrise pour lui même, rien à redire. Je les utilise tous les jours. Mais dans les faits, il s’agit aussi de relations de pouvoir entre les agences et les traducteurs qui par ailleurs, n’ont pas souvent été formés à mener leur business d’indépendant, à négocier face aux agences, et surtout, à aller chercher des clients directs. Quant aux traducteurs littéraires, ils ne sont souvent même pas nommés par les maisons d’édition. Tout est histoire de rapport de force, comme avec les GAFAM.



Alors, maîtriser ses propres outils pour son propre business, oui. Mais s’il s’agit de maîtriser la traduction automatique, les traducteurs risquent de devenir des correcteurs de texte mâché par un algorithme. Le processus de traduction est taylorisé, on ne devient que des serre-boulons sur la chaîne d’approvisionnement. On n’a plus le temps de s’approprier le texte, on crache du texte au kilomètre.



Les évolutions de l’IA sont passionnantes, mais ça vient réellement parasiter le travail cognitif du traducteur.



Les besoins sont immenses ? Soit ! Qu’on utilise les millions d’euros de l’IA pour former des linguistes, alors ! Pour améliorer l'enseignement des langues puis de la traduction (doux rêve). Pourquoi vouloir se passer de l’humain ?





Quelques références qui pourront vous intéresser sur ces sujets :

l’article de Claude Bédard, revue Traduire n°237, déc. 2017.



et The Shallowness of Google Translate, The Altantic. https://www.theatlantic.com/technology/archive/2018/01/the-shallowness-of-google-translate/551570/
Le fait que les traducteurs deviennent des post-éditeurs de traductions automatiques, ce n'est pas du future, c'est déjà le cas, là maintenant.



Vous sous-estimez à quel point l'IA est en train de révolutionner notre monde, et ça se passe là, sous nos yeux. L'IA est en train de diffuser dans tous les secteurs d'activité, et sur tous les supports un minimum technologiques que nous utilisons tous les jours. Même les endroits les plus inattendus.



Systran a été racheté par un Coréen qui fournit des technos de traduction pour les smartphones Samsung. Depuis, ils ont sorti un logiciel NMT, produit en collaboration avec les universités américaines, fer de lance de leurs savoir faire, supposé capitaliser sur un écosystème open-source. Les mêmes fabricants de smartphones ont déjà sorti des modèles intégrant des puces spécialisées dans les réseaux neuronaux. La boucle est bouclée. Les technos sont là, les produits disponibles.



Le même Samsung vient de sortir un TV qui utilise l'IA pour du traitement d'image (upscaling 8K). Il suffit de taper deep-fake dans un moteur de recherche pour avoir une idée ce que la techno neuronale peut faire sur de l'image et de la vidéo.



Tous les constructeurs automobiles travaillent sur la conduite autonome, mais sortent déjà des voitures intégrant de l'IA. Les chatbots commencent à envahir le web, et les plateformes téléphoniques. Des logiciel IA ont déjà été officiellement autorisés à produire des diagnostiques médicaux. Stromae a sortir il y a peu un CD entier de chansons produites en "post-éditant" les créations d'un logiciel IA. Et, je ne parle pas de la finance, ni des militaires, ...



Il n'est plus temps de s'inquiéter pour savoir si les métiers vont changer, mais de réfléchir aux nouvelles sociétés qu'il faut inventer pour accompagner une révolution radicale des outils et de leurs usages. Et, c'est trop tard pour tergiverser, ces outils sont déjà là.
@Etienne - Le traducteur écrit ses traductions et en est donc l'auteur.



Parenthèse fermée, réjouissons-nous : le bon vieux livre bascule en définitive de l'œuvre de l'esprit au terne produit industriel. Hein, quoi ? 69 euros ???? Le prix d'une œuvre de l'esprit au catalogue de la Pléiade ? À qui profite l'intelligence artificielle ? Rendez l'argent ! Ou plutôt taxons l'outil pour qu'il bénéficie à notre société humaine.
@Caroline - je pense qu'on ne vit pas dans le même monde.



Quand une entreprise du CAC 40 demande la traduction de son rapport annuel ou de son catalogue produit, ou quand la Commission Européenne demande la traduction d'une proposition de loi ou d'un rapport d'analyse sectoriel, pour arriver à traduire ces volumes énormes dans des délais très courts, il faut une armée de douzaines de traducteurs par langue. Il faut une autre armée pour relire et corriger les traductions. Elles sont ensuite validées par un chef de projet, souvent accompagné de ses linguistes spécialistes du domaine. A la fin, je ne pense pas que chacun de ces intervenants ne possède le moindre droit sur la traduction produite.



Pour ce qui est du prix d'un livre, dans notre société commerciale, il y a belle lurette que plus aucun produit n'est vendu par rapport à son prix de revient, mais par rapport au prix qu'un client est prêt à payer. Taxer les outils, ça ne reviendrait qu'à réduire le marché, parce que, ce qui coûte plus cher qu'on ne peut le vendre, ou plus cher que le budget alloué, on ne le fait pas. Pourquoi ne voit on pas/plus de belle reliures en cuire ou de belles enluminures dans les rayons des libraires ? Où sont passés ces beaux métiers ? Plus personne n'est prêt à payer le prix pour avoir ces belles choses. Tout au plus, on voit de belles éditions du Seigneurs des Anneaux ou de Harry Potter avec les accessoires de magiciens en plastique, parce qu'il y a encore des jeunes fans avec des parents qui n'hésitent pas à cette dépense pour leur faire plaisir. Coût de production élevé = moins de volume produit = moins de boulot.
Vous avez raison @Étienne, il existe une multitude de marchés de la traduction dont celui d’irréductibles traducteurs financiers : ils signent les rapports qu’ils adaptent et les groupes CAC s’arrachent leur carte de visite. Source Université d’été de la traduction financière (SFT).

Pour ma part, j’apprends beaucoup de mes lectures et les sélectionnerai davantage lorsque l’offre ressemblera à ça : https://m.huffingtonpost.fr/2017/12/29/la-traduction-de-ce-livre-de-cuisine-est-catastrophique_a_23319863/ À chacun sa bibliothèque idéale !
Il y aura toujours des traductions de merde, qu'elle soit faites par la machine ou par un traducteur chinois ou indien. Ce qui est en cause, ce n'est pas la techno, c'est le processus de traduction des gens qui ont fait ça.



Pour ce qui est de la traduction littéraire, rassurez vous, elle a encore de beaux jours devant elle. En effet, pour entraîner un traducteur automatique, il faut des textes dit "alignables", c'est à dire pour lesquels il est facile de faire la correspondance phrase par phrase. La traduction littéraire satisfait difficilement dans ce critère.



Il en va ensuite de même pour traduire. On obtient de bon résultats avec les traducteurs automatiques quand ils ont été spécifiquement entraînés sur le vocabulaire et les tournures des textes qu'on a à traduire, et quand ceux-ci sont très stéréotypés et redondants. Là encore, la traduction littéraire satisfait difficilement dans ce critère.



Ce sont donc peu des oeuvres littéraires qui sont pillées pour entraîner les traducteurs automatiques, et ce sont peu les oeuvre littéraires pour lesquelles il est intéressant d'utiliser un traducteur automatique.



Malgré ça, si vous êtes traductrice, jurez moi que vous n'avez jamais entré une phrase dans Google Translate !?
Mieux que jurer : je signe chaque année le Code de déontologie des adhérents de la SFT qui rappelle un principe fondamental de mon métier - le secret professionnel. La saisie dans une application de TA gratuite et non sécurisée d’un seul fragment de texte confidentiel constituerait un grave manquement. Le traducteur professionnel engage sa responsabilité.
Bonjour,



Je ne suis pas votre interlocutrice d'origine mais, tentée par votre défi, j'ai fait avaler un paragraphe de ma traduction actuelle au fameux DeepL - paragraphe sélectionné pour sa facilité : disons que j'estime que n'importe quel étudiant en première année de fac d'anglais produira une très bonne traduction, éventuellement émaillée d'une ou deux fautes d'orthographe.





Le résultat non retouché : "Certains des il y avait encore des voitures abandonnées sur les routes. Elle a vu des collines et des maisons,

même quelques personnes, et ce qu'elle a réalisé était un village, plus grand que

celle qu'elle connaissait, avec les bâtiments et les endroits où ils se trouvaient autrefois.

vendait de l'essence pour les voitures et de la nourriture aux voyageurs.

Bien que pour la plupart, Mark est resté off la plupart du temps."
Bonjour Actualisante,



On peut avoir le texte source avant traduction ?



La première chose qui me frappe, c'est la mise en forme de votre texte dans votre message ci-dessus : il y a des coupures de paragraphes un peu n'importe où au milieu des phrases. Si ces coupures étaient dans votre copier/coller sur DeepL, il est fort probable que ça a dû lui poser des problèmes : il est entraîné pour traduire des phrases entières, et comme il prend pour significatif les retours de lignes, votre découpage a probablement eu comme effet qu'il a essayé de traduire des bouts de phrases. Essayez en recopiant les phrases entières, une par une, proprement sans retour de ligne intempestif.



Avec les traducteurs automatiques, même de dernière génération, on obtient de bons résultats surtout quand on entraîne le traducteur sur des textes du domaine à traduire, que ce domaine utilise un vocabulaire assez restreint (mais possiblement très spécifique), et des tournures de phrases assez stéréotypées (mais possiblement sophistiquées). On n'obtient difficilement de bons résultats 1) sur du texte libre narratif, avec du vocabulaire très ouvert et des tournures de phrases potentiellement quelconques, et 2) sur un traducteur automatique générique entraîné pour traduire un peu tout et n'importe quoi.



Google Translate ou DeepL, bien que très performants, sont surtout utiles au commun des mortels qui a besoin d'aide pour trouver un peu de vocabulaire, pour donner une idée d'un texte écrit, dans une langue qu'il ne maîtrise pas ou très peu.



Mais tentez l'expérience de traduire un texte juridique, ou des recettes de cuisine, sur un traducteur automatique entraîné pour ça, surtout si vous traduisez le Nième document de ce genre et que les précédents ont alimenté le traducteur pour son entraînement, et vous verrez clairement l'apport en productivité : le traducteur humain peut se concentrer sur sa vraie valeur ajoutée, et utiliser les propositions automatiques pour gagner considérablement sur le volume.
Deux remarques :



1. Ce n'est certainement pas le premier ouvrage produit ainsi, mais le premier qui s'en vante, promotion oblige. Il y a par exemple les romans pré-traduits aux USA qu'on trouve depuis quelque temps sur Kindle (je ne parle pas de l'horrible IA "Mark Hallaq" qu'Amazon a fini par virer). Ça donne des trucs comme: "La boulangère rebondit sur sa poitrine. Il saisit ses bras pour l'empêcher de tomber. Elle leva les yeux dans ses yeux. Ses gros orbes bleus l'attirèrent. Il se figea, ses doigts la croisant." Ça ressemble plus à du DeepL qu'à du GoogleTranslate.



2. Il n'y a pas de "traduction littéraire". Un "ouvrage scientifique", à moins d'être exclusivement constitué de figures et formules mathématiques, se comporte comme un essai ou un roman s'il est servi par un *traducteur d'édition* rémunéré en droits d'auteur, et dont le nom ou pseudo est mentionné. En revanche, un *traducteur indépendant* est rémunéré en honoraires par des clients ou agences qui disposent de sa production comme bon leur semble. Il traduit généralement des textes spécialisés, mais rien n'empêche qu'il soit ponctuellement recruté pour des textes "littéraires" voire "artistiques" – rarement par des éditeurs traditionnels, toutefois.
Bonjour Étienne,



Non, désolée, je ne peux pas vous donner la VO, c'est encore confidentiel pour l'instant. J'ai bien vu le problème du copié/collé à remanier, qui en dit long sur le prodigieux temps gagné par cet outil.

Pour de la langue juridique (ou médicale), j'aurais très peur de contresens qu'un être humain ne commettrait pas et pour les recettes, c'est effectivement une langue beaucoup plus facile, mais on va retomber sur des problèmes communs à la traduction d'édition : la machine s'obstine à utiliser les mêmes tournures alors que le traducteur a pour boulot de varier l'expression…

Et je ne suis pas persuadée que le gain de temps soit phénoménal pour le cas de l'ouvrage en question, pour lequel, à mon avis, les relecteurs ont dû s'arracher les cheveux en se disant qu'ils auraient aussi vite fait de traduire directement…
Poster un commentaire

 

grin LOL cheese smile wink smirk rolleyes confused surprised big surprise tongue laugh tongue rolleye tongue wink raspberry blank stare long face ohh grrr gulp oh oh downer red face sick shut eye hmmm mad angry zipper kiss shock cool smile cool smirk cool grin cool hmm cool mad cool cheese vampire snake exclaim question

Vous répondez au commentaire de

Cliquez ici pour ne plus répondre à ce commentaire

* Laisser vide pour ne pas reçevoir de notification par email de nouveaux commentaires.