La traduction automatique, de Babel Fish à Google Traduction

Marie Lebert - 11.12.2013

Edition - Société - traduction automatique - Babel Fish - Google translate


Babel Fish et son petit poisson jaune débarquent sur la toile en décembre 1997. Le succès est immédiat. Premier logiciel de traduction gratuit de l'anglais vers cinq autres langues et vice versa, Babel Fish permet enfin de comprendre ce qui se dit sur le web dans d'autres langues. Google Traduction prend le relais dix ans plus tard, et permet aujourd'hui de traduire la plupart des langues sur un web multilingue.

 

L'anglais omniprésent

 

En 1997, le web est encore anglophone à 82,3%, d'après le site Babel (rien à voir avec Babel Fish) lancé conjointement par l'Internet Society et Alis Technologies pour contribuer à l'internationalisation du réseau. Pour mémoire, l'Internet Society est fondée en 1992 par Vinton Cerf (co-inventeur de l'internet en 1974) afin de favoriser le développement de l'internet, et Alis Technologies est une société montréalaise spécialisée dans le traitement automatique des langues.

 

Entre autres tâches, Babel mène la première étude jamais faite sur la répartition des langues sur le web. Les résultats sont publiés en juin 1997 dans un « Palmarès des langues de la toile » disponible en sept langues (anglais, allemand, espagnol, français, italien, portugais, suédois). Ce palmarès donne les pourcentages de 82,3% pour l'anglais, 4% pour l'allemand, 1,6% pour le japonais, 1,5% pour le français, 1,1% pour l'espagnol, 1,1% pour le suédois et 1% pour l'italien.

 

Babel Fish

 

AltaVista est le grand moteur de recherche de l'époque, avec Yahoo bien sûr, mais Yahoo est plutôt un annuaire avec classement des sites (en 63 sections) par l'esprit humain, plus pointu que celui d'AltaVista, où ces tâches sont entièrement automatisées. Lorsqu'une recherche ne donne pas de résultat dans Yahoo, elle est automatiquement aiguillée vers AltaVista, et réciproquement.

 

En décembre 1997, Yahoo propose déjà une interface en sept langues (anglais, allemand, coréen, français, japonais, norvégien, suédois) sur un web qui s'internationalise, mais pas (encore) de logiciel de traduction.

 

 

 

 

À la même date, AltaVista lance Babel Fish, premier logiciel de traduction gratuit du web, connu aussi sous le nom d'AltaVista Translation. Alimenté par des dictionnaires multilingues comprenant 2,5 millions de termes, Babel Fish est l'œuvre de Systran, société franco-américaine pionnière dans le traitement automatique des langues.

 

Babel Fish peut traduire une page web de l'anglais vers cinq autres langues (allemand, espagnol, français, italien, portugais) et vice versa, la page web originale et la traduction apparaissant en vis-à-vis sur l'écran. On peut également faire un copier-coller de n'importe quel texte court et obtenir une traduction immédiate d'un simple clic de souris.

 

Bien qu'ayant ses limites avec un texte traduit très approximatif sinon drôle ou carrément incompréhensible, Babel Fish est aussitôt plébiscité par les 12 millions d'usagers que compte la toile de l'époque et contribue grandement au plurilinguisme du web. Les usagers non anglophones unilingues peuvent enfin comprendre dans les grandes lignes ce qui s'écrit dans la langue de Shakespeare. Quant aux usagers anglophones, ils disposent d'un outil qui les aide à comprendre d'autres langues.

 

La traduction automatique

 

Qu'est ce exactement que la traduction automatique ? Systran explique à l'époque sur son site : « Un logiciel de traduction automatique traduit une langue naturelle dans une autre langue naturelle. La traduction automatique prend en compte la structure grammaticale de chaque langue et elle utilise des règles pour transférer la structure grammaticale de la langue source (texte à traduire) vers la langue cible (texte traduit). La traduction automatique ne remplace pas et n'est pas destinée à remplacer le traducteur humain. » On s'en serait douté, mais les espérances des usagers sont telles qu'il est important de le préciser.

 

À la même date, le site de l'EAMT (European Association for Machine Translation) donne les précisions suivantes : « La traduction automatique est l'utilisation de l'ordinateur pour la traduction de textes d'une langue naturelle à une autre. Elle fut l'un des premiers domaines de recherche en informatique. Il s'est avéré que cet objectif était difficile à atteindre. Cependant il existe aujourd'hui un certain nombre de systèmes produisant un résultat qui, s'il n'est pas parfait, est de qualité suffisante pour être utile dans certaines applications spécifiques, en général dans le domaine de la documentation technique. De plus, les logiciels de traduction, qui sont essentiellement destinés à aider le traducteur humain à produire des traductions, jouissent d'une popularité croissante auprès d'organismes professionnels de traduction. »

 

50% d'usagers non anglophones

 

D'anglophone, l'internet devient peu à peu multilingue, avec 56 millions d'usagers non anglophones en juillet 1998, d'après Global Reach, société spécialisée dans l'internationalisation des sites web.

 

En Europe par exemple, on ne compte que 15% d'usagers de langue maternelle anglaise, mais 32% consultent des pages web en anglais alors que 28% évitent ces mêmes pages puisqu'ils ne connaissent pas la langue. 

 

Tournant majeur dans l'histoire de l'internet, le nombre d'usagers habitant hors des États-Unis atteint la barre des 50% en juillet 1999. Second tournant majeur un an plus tard, le nombre d'usagers non anglophones atteint lui aussi la barre des 50% en été 2000 (mais 78% des pages web sont encore en anglais).

 

Toujours selon Global Reach, la progression se poursuit, avec un pourcentage de 52,5% d'usagers non anglophones en été 2001, 57% en décembre 2001, 59,8% en avril 2002, 64,4% en septembre 2003 (dont 34,9% d'Européens non anglophones et 29,4% d'Asiatiques) et 64,2% en mars 2004 (dont 37,9% d'Européens non anglophones et 33% d'Asiatiques).

 

Des logiciels de traduction

 

Arrive l'an 2000. Le marché des logiciels de traduction est désormais en plein boom avec l'essor du commerce électronique et la localisation des sites web, à savoir leur adaptation à une communauté linguistique ou géographique donnée.

 

De nouveaux logiciels de traduction automatique sont développés par diverses sociétés spécialisées (Alis Technologies, Lernout & Hauspie, Globalink, Softissimo et autres), avec des versions web payantes et/ou gratuites, auxquels s'ajoutent des logiciels, produits et services ciblant trois types de clients : le grand public, les professionnels des langues et les entreprises localisant leurs sites web. 

 

En mars 2001, IBM se lance dans un marché en pleine expansion avec un produit professionnel haut de gamme, le WebSphere Translation Server. Ce logiciel traduit instantanément en huit langues (allemand, anglais, chinois, coréen, espagnol, français, italien, japonais) les pages web, courriels et chats, c'est selon. Il interprète 500 mots à la seconde, de quoi faire pâlir les linguistes que nous sommes, bien que notre travail soit de bien meilleure qualité, n'est-ce pas. Le dit logiciel permet aussi l'ajout de vocabulaires spécifiques.

 

En parallèle, on assiste à l'essor de la traduction assistée par ordinateur (TAO) qui, contrairement à la traduction automatique (TA), implique une interaction entre l'homme et la machine. Les logiciels de TAO deviennent monnaie courante chez les traducteurs professionnels, le plus populaire étant Wordfast, notamment pour son rapport qualité-prix.

 

Lancé en 1999 à Paris par Yves Champollion, Wordfast propose une mémoire de traduction avec gestion de la terminologie en temps réel et contrôle typographique. Il est compatible avec les autres grands logiciels du marché que sont le WebSphere Translation Server d'IBM ou les logiciels de SDL Trados. Utilisable sur toute plateforme (Windows, Mac, Linux, etc.), Wordfast compte 14.000 clients en 2010, dont les Nations Unies, Coca-Cola, Sony et bien d'autres.

 

Google Traduction

 

Arrive Google avec sa force de frappe. Lancé en octobre 2007, Google Traduction (Google Translate dans sa version originale) est un service en ligne gratuit qui traduit instantanément un texte ou une page web dans une autre langue, soit en copiant un texte dans l'interface web soit en entrant une adresse web pour avoir une traduction immédiate de cette même page dans la langue souhaitée.

 

Tout comme Systran en d'autres temps, Google s'empresse d'expliquer que ce nouveau service peut aider l'usager à comprendre le sens général d'un texte en langue étrangère, mais ne propose pas de traductions exactes. Là encore, on s'en serait douté, mais mieux vaut une note explicative en toutes lettres. Les espérances des usagers sont grandes et ils ne comprennent pas très bien pourquoi la traduction automatique ne fait pas des progrès plus rapides.

 

 

 

 

Innovation par rapport à la concurrence, Google Traduction se base sur une analyse statistique du texte à traduire, et non pas sur une analyse traditionnelle basée sur des règles.

 

Avant le lancement de Google Traduction, Google utilisait un traducteur de Systran du même type que Babel Fish, avec plusieurs étapes chronologiques quant aux paires de langues disponibles, qui marient d'abord l'anglais, le français, l'allemand, l'espagnol et le portugais avant de s'intéresser au flamand, à l'italien, au chinois simplifié, au japonais, au coréen, à l'arabe, au russe et enfin au chinois traditionnel.

 

Lors du lancement de Google Traduction, le logiciel offre d'abord toutes les combinaisons possibles pour les langues déjà disponibles (celles qu'on vient d'énumérer). Suivent nombre d'autres langues, par exemple le perse en juin 2009, le haïtien créole en janvier 2010 et le latin en octobre 2010. Détail qui a son importance, on a  le choix entre plusieurs traductions pour le même terme à partir de janvier 2011.

 

Début 2009, nouvelle innovation, le texte peut être lu par synthèse vocale, avec là aussi l'ajout régulier de nouvelles langues, un service apprécié non seulement des usagers aveugles et malvoyants mais aussi de tous ceux qui apprennent une nouvelle langue.

 

Deuxième innovation, Google lance en juin 2009 le Google Translator Toolkit, un service web permettant aux traducteurs (humains) de réviser les traductions générées automatiquement par Google Traduction. Ces mêmes traducteurs peuvent également partager traductions, glossaires et mémoires de traduction.

 

Le Google Translator Toolkit débute sans surprise avec l'anglais comme langue source et 47 langues cibles. Deux ans plus tard, en mai 2011, il propose 345 langues sources et le même nombre de langues cibles, soit 100 mille paires de langues. Pour ceux qui en douteraient encore, le web est vraiment multilingue. Quant aux paires de langues proposées en décembre 2013, on ne les compte même plus.

 

Paix à Babel Fish

 

Qu'est devenu Babel Fish et son petit poisson jaune, se demandent nos lecteurs avec raison ? Babel Fish déménage sur le site de Yahoo en mai 2008 où il continue de nager vaillamment sur les mers virtuelles en traduisant jusqu'à 38 langues avant de définitivement rendre l'âme (burn-out ou non, on ne sait pas) quatre ans plus tard, en mai 2012, pour être remplacé par le traducteur de Bing (Microsoft).