L'ebook a 40 ans > 1985 > Des extensions pour l'ASCII

Marie Lebert - 18.05.2011

Reportage - ebook - anniversaire - ascii


 

Avec le développement de l’internet hors de la sphère anglophone, communiquer uniquement en anglais devient insuffisant, d’où la nécessité de prendre en compte les caractères accentués de plusieurs langues européennes et les caractères d’autres langues.
L’ASCII sur 7 bits
Le premier système d'encodage informatique est l’ASCII (American Standard Code for Information Interchange). Publié en 1968 aux États-Unis par l’American National Standards Institute (ANSI), l'ASCII est un code standard de 128 caractères traduits en langage binaire sur sept bits (A est traduit par «1000001», B est traduit par «1000010», etc.). Les 128 caractères comprennent 33 caractères de contrôle (qui ne représentent donc pas de symbole écrit) et 95 caractères imprimables: les 26 lettres sans accent en majuscules (A-Z) et minuscules (a-z), les chiffres, les signes de ponctuation et quelques caractères spéciaux, le tout correspondant aux touches du clavier anglophone.

L’ASCII sur 8 bits
L'ASCII permet uniquement la lecture de l’anglais (et du latin, mais à mon sens, peu de gens utilisent le latin pour communiquer via l’internet). L’ASCII ne permet donc pas de prendre en compte les lettres accentuées présentes dans bon nombre de langues européennes (français, espagnol, allemand, etc.), les langues disposant d’autres alphabets (arabe, grec, russe, etc.) et à plus forte raison les langues non alphabétiques (chinois, coréen, japonais, etc.).

 

 

 


Ceci ne pose pas de problème majeur les premières années, tant que l’échange de fichiers électroniques se limite surtout à l’Amérique du Nord. Mais le multilinguisme devient bientôt une nécessité vitale. Des variantes de l’ASCII (norme ISO-8859 ou ISO-Latin) sur huit bits sont publiées en 1985 pour prendre en compte les caractères accentués de quelques langues européennes. La variante pour le français, l’espagnol et l’allemand (entre autres) est la norme ISO-8859-1 (ISO-Latin-1).

Un véritable casse-tête

Avec le développement du web, l’échange des données s’internationalise encore davantage. Même avec des variantes de l’ASCII, on ne peut décidément plus se limiter à l’utilisation d’un système d’encodage datant des débuts de l’informatique. De plus, le passage de l’ASCII original à ses différentes extensions devient vite un véritable casse-tête, y compris au sein de l’Union européenne, les problèmes étant entre autres la multiplication des variantes, la corruption des données dans les échanges informatiques ou encore l’incompatibilité des systèmes, les pages ne pouvant être affichées que dans une seule langue à la fois.

Olivier Gainon, fondateur de CyLibris et pionnier de l’édition électronique littéraire, écrit à ce sujet en décembre 2000 : « Il faut que le réseau respecte les lettres accentuées, les lettres spécifiques, etc. Je crois très important que les futurs protocoles permettent une transmission parfaite de ces aspects - ce qui n’est pas forcément simple (dans les futures évolutions de l’HTML ou des protocoles IP, etc.). Donc il faut que chacun puisse se sentir à l’aise avec l’internet et que ce ne soit pas simplement réservé à des (plus ou moins) anglophones. Il est anormal aujourd’hui que la transmission d’accents puisse poser problème dans les courriers électroniques. La première démarche me semble donc une démarche technique. Si on arrive à faire cela, le reste en découle : la représentation des langues se fera en fonction du nombre de connectés, et il faudra envisager à terme des moteurs de recherche multilingues. » (Entretien du NEF)

L’Unicode

Publié pour la première fois en janvier 1991, l’Unicode est un système d'encodage universel sur 16 bits spécifiant un nombre unique pour chaque caractère. Ce nombre est lisible quels que soient la plateforme, le logiciel et la langue utilisés. L’Unicode peut traiter 65.000 caractères uniques et prendre en compte tous les systèmes d’écriture de la planète. L’Unicode est progressivement adopté à partir de 1998. L’introduction d’un nouveau système d’encodage représente en effet un énorme travail à tous niveaux, pour sa prise en compte dans tous les logiciels et tous les navigateurs web. (On y reviendra dans notre épisode d’après-demain, consacré à l’Unicode.)


Notre prochain épisode: 1990 > Le web booste l’internet

Copyright © 2011 Marie Lebert