Les systèmes d'encodage, de l'ASCII à l'Unicode

Clément Solym - 15.03.2010

Patrimoine et éducation - Scolarité France - systèmes - encodage - langue


Communiquer dans plusieurs langues implique d’avoir des systèmes d'encodage adaptés à nos alphabets et idéogrammes respectifs. ASCII, le vétéran disponible depuis 1968, laisse progressivement la place à l'Unicode, lancé en 1991. Mais il faut attendre 2008 pour que les deux systèmes d'encodage soient également représentés sur l'internet, et 2010 pour que l'Unicode supplante définitivement l'ASCII.


ASCII

Le premier système d'encodage informatique fut l’ASCII (American standard code for information interchange). Publié en 1968 aux États-Unis par l’American National Standards Institute (ANSI), avec actualisation en 1977 et 1986, l'ASCII est un code standard de 128 caractères traduits en langage binaire sur sept bits (A est traduit par «1000001», B est traduit par «1000010», etc.). Les 128 caractères comprennent 33 caractères de contrôle (qui ne représentent donc pas de symbole écrit) et 95 caractères imprimables: les 26 lettres sans accent en majuscules (A-Z) et minuscules (a-z), les chiffres, les signes de ponctuation et quelques caractères spéciaux, le tout correspondant aux touches du clavier anglophone.

L'ASCII permet uniquement la lecture de l’anglais et du latin. Il ne permet pas de prendre en compte les lettres accentuées présentes dans bon nombre de langues européennes, y compris le français, et à plus forte raison les langues non alphabétiques (chinois, japonais, coréen, etc.). Ceci ne pose pas de problème majeur les premières années, tant que l’échange de fichiers électroniques se limite essentiellement à l’Amérique du Nord. Mais le multilinguisme devient bientôt une nécessité vitale. Des variantes de l’ASCII (norme ISO-8859 ou ISO-Latin) prennent en compte les caractères accentués de quelques langues européennes. La variante pour le français, par exemple, est définie par la norme ISO-8859-1 (ISO-Latin-1).

Avec le développement du web dans les années 1990, l’échange des données s’internationalise de plus en plus. On ne peut plus se limiter à l’utilisation de l’anglais et de quelques langues européennes, traduites par un système d’encodage datant de 1968. De plus, le passage de l’ASCII original à ses différentes extensions devient vite un véritable casse-tête, y compris au sein de l’Union européenne, les problèmes étant entre autres la multiplication des variantes, la corruption des données dans les échanges informatiques ou encore l’incompatibilité des systèmes, les pages ne pouvant être affichées que dans une seule langue à la fois.

Unicode


Publié pour la première fois en janvier 1991, l’Unicode est un système d'encodage «universel» sur 16 bits spécifiant un nombre unique pour chaque caractère. Ce nombre est lisible quels que soient la plateforme, le logiciel et la langue utilisés. L’Unicode peut traiter 65.000 caractères uniques et prendre en compte tous les systèmes d’écriture de la planète. À la grande satisfaction des linguistes, il remplace progressivement l’ASCII. L’Unicode se décline en plusieurs variantes en fonction des besoins, par exemple UTF-8, UTF-16 et UTF-32 (UTF: Unicode transformation format). Il devient une composante des spécifications du World Wide Web Consortium (W3C), l'organisme international chargé du développement du web.

L’utilisation de l’Unicode se généralise en 1998, par exemple pour les fichiers texte sous plateforme Windows (Windows NT, Windows 2000, Windows XP et versions suivantes), qui étaient jusque-là en ASCII.

Dix ans plus tard, en 2008, les deux systèmes d'encodage sont également représentés sur l'internet, à savoir 50 % pour les fichiers en ASCII et 50 % pour les fichiers en Unicode.

En 2010, l'Unicode poursuit sa progression avec le vent en poupe, et dépasse désormais l'ASCII, ce qui était bien son but lors de son lancement il y a près de vingt ans, preuve qu'il faut du temps pour toute chose, y compris dans le domaine informatique.

Copyright © 2010 Marie Lebert. Tous droits réservés. Avec diffusion en ligne par ActuaLitté.




Commentaires

Pas de commentaires

Poster un commentaire

 

grin LOL cheese smile wink smirk rolleyes confused surprised big surprise tongue laugh tongue rolleye tongue wink raspberry blank stare long face ohh grrr gulp oh oh downer red face sick shut eye hmmm mad angry zipper kiss shock cool smile cool smirk cool grin cool hmm cool mad cool cheese vampire snake exclaim question

Vous répondez au commentaire de

Cliquez ici pour ne plus répondre à ce commentaire

* Laisser vide pour ne pas reçevoir de notification par email de nouveaux commentaires.