Le Projet Gutenberg et les langues

Clément Solym - 10.11.2010

Reportage - langage - projet - gutenberg


Le Projet Gutenberg est un projet visionnaire lancé il y a bientôt 40 ans par Michael Hart pour créer des versions électroniques gratuites d'oeuvres littéraires et les disséminer dans le monde entier.

En 2010, le Projet Gutenberg dispose de sites web aux États-Unis, en Australie, en Europe et au Canada. Le projet est toujours essentiellement anglophone, mais le multilinguisme est l'une de ses priorités.

En 1990-1994

À l'origine, les livres numériques sont surtout en anglais. Comme le Projet Gutenberg est lancé à partir de l'Université de l'Illinois (États-Unis), avec l'aide de volontaires anglophones, son but premier est de procurer des livres à la communauté anglophone, à savoir 95 % des usagers de l'internet au début des années 1990. (Les usagers non anglophones atteignent les 50 % en été 2000, avec un pourcentage qui augmente régulièrement ensuite.)

Le Projet Gutenberg inspire aussi d’autres bibliothèques numériques ailleurs, à savoir le Projekt Runeberg pour la littérature nordique (scandinave) en 1992 et le Projekt Gutenberg-DE pour la littérature allemande en 1994.

Le Projekt Runeberg est la première bibliothèque numérique suédoise de livres du domaine public, et un partenaire du Projet Gutenberg. Elle est créée en décembre 1992 par Lysator, un club informatique d’étudiants, en collaboration avec la bibliothèque de l'Université de Linköping (Suède), pour produire et organiser des versions électroniques gratuites de la littérature nordique classique. 200 oeuvres sont disponibles en 1998, avec une liste de 6.000 auteurs nordiques en tant qu'outil de développement des collections.

Projekt Gutenberg-DE est la première bibliothèque numérique allemande de livres du domaine public, et également un partenaire du Projet Gutenberg. Plusieurs dizaines de textes peuvent être lus en ligne en 1998, avec une page web pour les textes courts et plusieurs pages – une par chapitre – pour les oeuvres plus longues. Une liste alphabétique d'auteurs et de titres est également disponible, ainsi qu'une courte biographie et bibliographie pour chaque auteur.

En 1997

Le français fut la deuxième langue du Projet Gutenberg, et c'est toujours le cas en 2010. Les premiers livres disponibles en français sont six oeuvres de Stendhal et deux oeuvres de Jules Verne, toutes mises en ligne début 1997.

Les six oeuvres de Stendhal sont quatre récits: Les Cenci (publié en 1837), Vittoria Accoramboni (1837), La Duchesse de Palliano (1838) et L'Abbesse de Castro (1839) – tous récits publiés dans La revue des deux mondes - et deux romans: Le Rouge et le Noir (1830) et La Chartreuse de Parme (1839).

Les deux romans de Jules Verne sont: De la terre à la lune (1865) et Le tour du monde en quatre-vingts jours (1873).

À cette date, trois romans de Jules Verne sont déjà disponibles en anglais: From the Earth to the Moon (titre original: De la terre à la lune, 1865), disponible en septembre 1993; Around the World in 80 Days (titre original: Le tour du monde en quatre-vingts jours, 1873), disponible en janvier 1994; et 20,000 Leagues Under the Seas (titre original: Vingt mille lieues sous les mers, 1869-1870), disponible en septembre 1994.

Depuis la parution de ces premiers titres, Jules Verne a toujours fait partie des auteurs les plus téléchargés, à la onzième place dans le «Top 20» du Projet Gutenberg en décembre 1999 et à la sixième place dans le «Top 100» des auteurs les plus téléchargés durant les trente derniers jours à la date du 6 novembre 2010.

À titre anecdotique, le premier recueil d'images disponible dans le Projet Gutenberg toutes langues confondues est French Cave Paintings (Peintures des cavernes en France), mis en ligne dès avril 1995 (eBook #249), avec une version XHTML ajoutée en novembre 2000. Il s’agit de quatre photos de peintures paléolithiques retrouvées dans une grotte de l’Ardèche, un département du sud-ouest de la France. Ces photos, sous copyright, ont été mises à la disposition du Projet Gutenberg par Jean Clottes, conservateur général du patrimoine, pour pouvoir être appréciées de tous.

Disponible en 1997, l'eBook #1000 est La Divina Commedia de Dante Alighieri (publiée en 1321), en italien, sa langue originale. En octobre 1997, Michael Hart annonce son intention d'intensifier la production de livres dans des langues autres que l'anglais.


En 1998


Début 1998, le catalogue comprend quelques oeuvres en allemand, en espagnol, en français (dix titres), en italien et en latin.

Stendhal et Jules Verne sont suivis par Edmond Rostand avec Cyrano de Bergerac, publié en 1897 et disponible dans le Projet Gutenberg cent ans plus tard, en mars 1998.

En 1999


Disponible en mai 1999, l'eBook #2000 est Don Quijote (publié en 1605) de Cervantès, en espagnol, sa langue originale.

En juillet 1999, Michael écrit lors d'un entretien par courriel : « J'introduis une nouvelle langue par mois maintenant, et je vais poursuivre cette politique aussi longtemps que possible. »

En 2000


Disponible en décembre 2000, l'eBook #3000 est le volume 3 (1919) de À l'ombre des jeunes filles en fleurs de Marcel Proust, en français, sa langue originale.

Le Project Gutenberg Australia est lancé en juillet 2001, et commence à produire des livres numériques en anglais et dans d'autres langues, par exemple certains volumes en français de À la recherche du temps perdu (1913-1927) de Marcel Proust. (Les derniers volumes sont toujours sous copyright aux États-Unis, raison pour laquelle ils ne sont pas disponibles dans le Projet Gutenberg.) Les collections du Project Gutenberg Australia comprennent 1.750 livres numériques en février 2009.

En 2001

Disponible en octobre 2001, l'eBook #4000 est The French Immortals Series (Recueil de textes d'Immortels français), en anglais. Publié en 1905, ce livre est une anthologie d'oeuvres de fiction courtes de plusieurs membres de l'Académie française : Émile Souvestre, Pierre Loti, Hector Malot, Charles de Bernard, Alphonse Daudet et d'autres.

En 2002


Disponible en avril 2002, l'eBook #5000 est The Notebooks of Leonardo da Vinci (Les carnets de Léonard de Vinci), un traduction de ces carnets datant du 16e siècle de l'italien vers l'anglais. Ce livre est depuis régulièrement présent dans le «Top 100» des livres téléchargés.

En 2003

Le Project Gutenberg Consortia Center (PGCC) – fondé en 1997 pour regrouper des collections de livres numériques émanant d'autres sources - est affilié au Projet Gutenberg en 2003 et devient l'un de ses sites officiels. Ce site propose plus de 75.000 titres dans divers formats et en plusieurs langues en octobre 2010.

En 2004

Début 2004, 25 langues sont représentées dans le Projet Gutenberg.

En février 2004, Michael Hart prend l'avion vers l’Europe, avec des étapes à Bruxelles (Belgique), Paris (France) et Belgrade (Serbie).

Le 12 février 2004, il donne une conférence au siège de l’UNESCO (Organisation des Nations Unies pour l'éducation, la science et la culture) à Paris. Le lendemain, toujours à Paris, il anime un débat à l’Assemblée nationale. La semaine suivante, il s’adresse au Parlement européen à Bruxelles. Puis il va rendre visite à l'équipe du Projet Rastko à Belgrade pour soutenir le lancement du Projet Gutenberg Europe et de Distributed Proofreaders Europe.

Le Projet Rastko est un projet non gouvernemental à vocation culturelle et pédagogique fondé en 1997 et faisant partie d'un réseau culturel régional dans la péninsule des Balkans, située au sud-est de l'Europe.

Distributed Proofreaders Europe (DP Europe) est calqué sur le site original de Distributed Proofreaders, un site créé en octobre 2000 par Charles Franks pour partager la correction des livres entre de nombreux volontaires.

Dès ses débuts, DP Europe est un site plurilingue, avec prise en compte des principales langues nationales européennes. Grâce à des traducteurs volontaires, le site de DP Europe est disponible en douze langues dès avril 2004. L'objectif à long terme est une interface disponible en soixante langues, à savoir la plupart des langues européennes.

En 2005

En mai 2005, DP Europe termine la correction de son centième livre. Ces livres sont en plusieurs langues, en tant que reflet de la diversité des langues en Europe. L'encodage utilisé est l'Unicode, pour pouvoir corriger des livres dans de nombreuses langues. 600 livres sont disponibles en février 2009.

En juillet 2005, 42 langues sont représentées dans le Projet Gutenberg, y compris le sanscrit et les langues mayas. Les sept langues principales sont l'anglais (avec 14.548 ebooks le 27 juillet 2005), le français (577 ebooks), l'allemand (349 ebooks), le finnois (218 ebooks), le néerlandais (130 ebooks), l'espagnol (103 ebooks) et le chinois (69 ebooks).

En 2006


Disponible en décembre 2006, l'eBook #20000 est Twenty Thousand Leagues Under the Sea (Vingt mille lieues sous les mers, publié en 1869) de Jules Verne, dans une version audio en langue anglaise.

En décembre 2006, 50 langues sont représentées dans le Projet Gutenberg. Les dix langues principales sont l'anglais (avec 17.377 ebooks le 16 décembre 2006), le français (966 ebooks), l'allemand (412 ebooks), le finnois (344 ebooks), le néerlandais (244 ebooks), l'espagnol (140 ebooks), l'italien (102 ebooks), le chinois (69 ebooks), le portugais (68 ebooks) et le tagalog (51 ebooks).

En 2007


Project Gutenberg Canada (PGC) est lancé le 1er juillet 2007, le jour de la fête nationale au Canada. Distributed Proofreaders Canada (DPC) débute ses activités en décembre 2007, avec 100 livres numériques en anglais, en français et en italien en mars 2008, et 250 livres en février 2009.

En 2010

En novembre 2010, 60 langues sont représentées dans le Projet Gutenberg. Les dix langues principales sont l'anglais (avec 28.666 ebooks le 6 novembre 2010), le français (1.672 ebooks), l'allemand (715 ebooks), le finnois (542 ebooks), le néerlandais (498 ebooks), le portugais (474 ebooks), le chinois (405 ebooks), l'espagnol (297 ebooks), l'italien (253 ebooks) et le grec (107 ebooks). Ces langues sont suivies du latin, de l'espéranto, du suédois et du tagalog.

En 2020, peut-être

Il est possible qu'on puisse bénéficier un jour de la traduction immédiate de ces livres dans un vaste choix de langues, par le biais d'un logiciel de traduction automatique.

Dans dix ans, la traduction automatique pourrait avoir atteint un taux de fiabilité de l’ordre de 99% - la recherche est très active dans ce domaine, avec des logiciels de plus en plus performants – avec possibilité de lire des oeuvres littéraires dans un grand nombre de langues.

a

Les livres traduits par le biais d'un logiciel de traduction automatique ne rivaliseront certainement pas avec le travail des traducteurs littéraires et leurs efforts talentueux pendant des jours et des mois sinon des années. Mais ils permettraient au lecteur une première approche d'oeuvres littéraires jamais traduites jusqu'ici, ou traduites seulement dans quelques langues, pour des raisons commerciales.

Le texte d'un livre traduit (issu d'un logiciel de traduction) pourrait ensuite être corrigé par des traducteurs (des êtres humains, pas des logiciels), en utilisant une interface semblable à celle utilisée actuellement pour la correction du texte d'un livre (issu d'un logiciel OCR) par les volontaires de Distributed Proofreaders.

On se prend ainsi à rêver à un Distributed Translators pour partager la révision des traductions, Distributed Translators pouvant être un organisme partenaire de Distributed Proofreaders et du Projet Gutenberg.



Nos dossiers précédents


Copyright © 2010 Marie Lebert. Tous droits réservés. Pour diffusion en ligne par ActuaLitté