Avec Ngram Viewer, Google examine des milliards de mots

Clément Solym - 17.12.2010

Zone 51 - Insolite - ngram - viewer - google


La recherche, c'est le dada de Google. Qui vient de présenter un nouvel outil permettant d'explorer 5,2 millions de livres parmi ceux qui ont été numérisés, en anglais, mais également français, chinois, allemand, russe et espagnol. En fait, 5.195.769 de livres précisément.

Ngram Viewer est une sorte de monstre. Contrairement à la fonction de recherche de sites internet, l'outil examine l'ensemble des mots contenus dans les ouvrages. Et pour l'utilisateur, permet de dégager des tendances d'utilisations et la récurrence de mots, phrases ou expressions, sur une année précise. Le tout passe évidemment par l'utilisation des ressources de Google Books.

La somme de données représente environ 4 % de l'ensemble des livres imprimés entre 1800 et 2000, mais n'en reste pas moins passionnante. On peut ainsi se rendre compte de la popularité entre les différents présidents américains dans les ouvrages, George Washington, Thomas Jefferson et Abraham Lincoln.


Un ensemble de données qu'il aurait été humainement impossible d'examiner sans l'aide de la technologique

Un outil dément pour les historiens des langues, qui disposent désormais d'un appareil pour décortiquer complètement les usages, à travers 500 milliards de mots. Les curieux pourront comparer plusieurs mots simultanément pour en définir les tendances.

Ces bases de données entrent également dans le cadre d'un projet de recherches mené par l'université d'Harvard, et deux professeurs Jean-Baptiste Michel et Erez Lieberman, rapporte le Guardian. Les utilisateurs peuvent effectuer des recherches directement dans l'outil et télécharger gratuitement les données pour leur usage personnel.


Chose amusante, le mot livre n'a jamais cessé de grandir...

Essayer Ngram Viewer