Rentrée littéraire : La fashion week des libraires

Les chercheurs vont bientôt se pencher sur nos tweets

Marie Lebert - 11.01.2013

Lecture numérique - Acteurs numériques - archivage des tweets - library of congress - stockage des informations


Les chercheurs pourront prochainement consulter nos tweets publics à la Library of Congress, sur place, en tant que reflet des tendances de notre époque.  Mais ceci représente un challenge technique inédit sur lequel les spécialistes planchent encore en ce début d'année.

 

 

Quelques chiffres

 

Twitter est créé en mars 2006 par Jack Dorsey, aidé de quelques collègues, et lancé en juillet de la même année. Les premiers tweets sont émis de San Francisco, siège de la société. Twitter gagne rapidement une popularité mondiale, avec 106 millions d'usagers en avril 2010 et 300 mille nouveaux usagers par jour.

 

Quant aux tweets (de 140 caractères maximum, est-il utile de le rappeler), parfois surnommés les SMS de l'internet, tout au moins les premiers temps, ils sont au nombre de cinq mille tweets quotidiens en 2007, 300 mille en 2008, 2,5 millions en 2009, 50 millions en janvier 2010, 55 millions en avril 2010 et 500 millions en décembre 2012.

 

 


 

 

Si l'interface est disponible en vingt langues, dont le français bien sûr, 500 langues sont représentées sur Twitter en mai 2011.

 

Twitter compte 100 millions d'utilisateurs actifs (postant au moins un message par mois) en septembre 2011, 140 millions en mars 2012 et 200 millions en décembre 2012, d'après ZDNet. La version anglophone de Wikipédia indique quant à elle une communauté de 500 millions d'utilisateurs, ou plus exactement de comptes Twitter à la fois actifs et non actifs.

 

Une mine d'informations

 

Twitter est maintenant le troisième réseau social derrière Facebook et Weibo, grand réseau de micro-blogging chinois. Ou le deuxième réseau social, Weibo étant le troisième, selon les sources.

 

Twitter est non seulement un réseau social, mais aussi un réseau d'information. Le monde change, une fois de plus. Désormais, les infos transitent d'abord par Twitter avant d'atteindre sites d'information, blogs et autres canaux officiels ou non. Twitter est aussi en passe de devenir le premier réseau éducatif, pour la même raison.

 

Archivage par la Library of Congress

 

En avril 2010, suite à un accord passé avec Twitter (la société), la Library of Congress devient le dépositaire des 21 milliards de tweets publics émis pendant quatre ans, de juillet 2006 à avril 2010 donc, le tout représentant un fichier compressé de 2,3 téra-octets et un fichier non compressé de 20 téra-octets.

 

Cette collection de départ est ensuite archivée en temps réel, en tant que reflet des tendances de notre époque, avec un système permettant de l'organiser par date (jour et heure). Les archives atteignent 170 milliards de tweets au le 1er décembre 2012, ce qui représente un fichier compressé de 133,2 téra-octets, avec 50 métadonnées par tweet (qui dit mieux ?) et un duplicata complet de la collection.

 

 

 

 

Si la Library of Congress archivait 140 millions de tweets par jour en février 2011, elle en archive près de 500 millions en octobre 2012. À ce jour, notre monde produit donc au moins un demi-milliard de tweets quotidiens.

 

Consultation prochaine sur place

 

Dans un post de son blog daté du 4 janvier 2013, la Library of Congress reconnaît l'importance des médias sociaux qui sont en passe de devenir le premier moyen de communication et d'expression créative et qui supplantent souvent les revues, périodiques et autres sources collectées jusque-là par les bibliothèques de recherche.

 

La Library of Congress indique aussi qu'elle travaille à un système informatisé de consultation des tweets sur place, pour les tweets datés de plus de six mois, et qu'elle a déjà reçu plus de 400 demandes de la part de chercheurs aux profils très divers, avec des requêtes allant du journalisme citoyen aux communications politiques des élus en passant par les taux de vaccination, les prédictions sur l'activité boursière, l'accès public à l'appareil judiciaire et la communication à chaud lors d'attaques terroristes ou de catastrophes naturelles.

 

Les requêtes varient aussi en quantité puisqu'elles vont de la consultation d'un hashtag depuis ses débuts à la consultation d'une collection complète répondant à des données statistiques précises.

 

Les chercheurs devront signer un document interdisant l'utilisation commerciale de la collection de tweets consultée et sa redistribution.

 

Pas facile à mettre en route

 

Comme il s'agit de la première collection numérique se développant en temps réel à un rythme aussi effréné, un tel système n'est pas facile à mettre en place.

 

Par la force des choses, la technologie mise en place par Twitter pour créer et distribuer les tweets est beaucoup plus avancée que celle consistant à les archiver et les consulter, une technologie sur laquelle planchent quelques sociétés privées dont les services de consultation sont facturés. Il faut aussi des centaines sinon des milliers de serveurs dédiés.

 

Si la Library of Congress archive depuis l'an 2000 des dizaines de milliers de sites web gouvernementaux ou couvrant les évènements politiques (qui représentent 300 téra-octets de données), avec communication sur place, mettre six années de tweets (2006-2012) à la disposition des chercheurs est un nouveau challenge inédit.

 

Il y a non seulement les tweets, mais les tweets retweetés via Twitter, les tweets retweetés manuellement, les tweets comportant des liens, images et vidéos, auxquels s'ajoutent encore d'autres variétés (terme de la Library of Congress). 

 

À l'heure actuelle, une recherche faite par le personnel de la bibliothèque dans les archives 2006-2010 (21 millions de tweets) demande une compilation informatique de 24 heures.

 

Le futur système de consultation, dont la réalisation sera confiée à une société privée (par exemple Gnip, déjà responsable de l'archivage des tweets), devrait être disponible dans un délai relativement court. Les discussions sont en cours au plus haut niveau. Les chercheurs attendent patiemment.

 

Prospective

 

À long terme, cette collection sera peut-être consultable par tous en ligne, qui sait ? Comme pour le web, qui a commencé à être archivé par l'Internet Archive à compter d'avril 1996, avec l'ensemble des archives consultable en ligne via la Wayback Machine cinq ans après, à compter d'octobre 2001.

 

En tweetant, nous constituons les collections numériques de demain. Dans un futur proche, les chercheurs se pencheront peut-être sur les tweets émis par ActuaLitté au mois de janvier 2013 en tant que reflet des tendances littéraires de ce début d'année.