Mise à jour : voir l’article de Jean-Laurent sur Slate.

Il se trouvait justement que nous avions lancé nos premières API sur la plateforme Mashape et que nous étions en train de développer des outils en R pour data scientists. C’était donc l’occasion parfaite pour nous de voir comment toute cette émulation allait pouvoir s’appliquer à un sujet nouveau. Chez Proxem, nous sommes convaincus que la communication graphique permet de rendre claires des technologies compliquées, et avons donc décidé de fabriquer deux data visualisations.

Première visualisation : mettre en évidence le langage propre à un auteur

« A la croisée de la linguistique et de la statistique, nous dit Wikipédia, la stylométrie tente d’identifier le style d’un texte, inhérent à son auteur, mais aussi à son époque, son genre. » La stylométrie est un domaine de la linguistique qui a beaucoup progressé avec le développement des techniques d’analyse textuelle sur ordinateur comme celles que développe Proxem. Aujourd’hui, en quelques clics, on peut se faire une idée du style d’un auteur – ou du moins, de certains aspects de son style – pourvu qu’on dispose des outils adaptés.

En l’occurrence, nous proposons un service qui s’appuie sur des corpus de milliards de mots et de ngrams (un terme d’informaticien pour décrire des groupes de plusieurs mots) afin de dire quelles expressions sont très courantes ou très rares dans une langue donnée. Par exemple, l’outil sait que « bon appétit » est une expression courante mais que « descente de gradient » ou « poulpe parabolique » l’est franchement moins. Avec cette logique, on est capable de déterminer les expressions et le vocabulaire qu’un auteur utilise plus que la moyenne ; on fait ressortir, en somme, ses marottes, ses obsessions, ses tics de langage, ou du moins les sujets qui l’intéressent particulièrement. Nous avons appliqué cette démarche aux articles de Jean-Laurent, en ne conservant que les expressions de plusieurs mots (et non les mots tout seuls) car c’était nettement plus parlant. Voici le résultat :

PhraseCloud_JLC
Cliquez sur l’image pour l’agrandir

Quand il a reçu cette visualisation, Jean-Laurent nous a confié qu’il était bluffé ; le mail qu’il nous a envoyé contenait plusieurs points d’exclamation ! Intéressé par l’expérimentation, il s’attendait néanmoins à être agacé par les résultats qui ne lui apprendraient pas grand chose. Il a donc été ravi de voir que la visualisation objectivait sa pratique journalistique ; elle montrait à la fois les thématiques évidentes d’un journaliste qui surfe sur l’actualité, notamment politique, en voyant ressortir les noms des politicien-ne-s les plus médiatiques, mais aussi des sujets qui lui sont plus chers et propres, d’orientation plus sociologique. Un point pour nous !

Deuxième visualisation : cartographier les sujets de prédilection d’un journaliste

La deuxième expérimentation que nous avons faite s’appuie sur un outil qui détecte de quoi parle un document. Pour chaque article que nous lui avons donné à manger, il nous a renvoyé un certain nombre de thématiques, ici 10, car empiriquement cela fonctionnait bien. Nous avions donc, pour chaque article, une liste des thématiques qui s’en dégageaient, comme par exemple « Politique française », « Urbanisme » ou encore « Réseau social ». Nous avons répété cette analyse sur chaque article, ce qui nous fournissait une liste fort touffue de listes de thématiques.

Une petite page d’histoire s’impose. En fouille de données, il y a un domaine où des listes de listes se présentent souvent : c’est l’analyse des comportements d’achat. Dans ce cas, ce ne sont pas des thématiques que l’on analyse, mais des produits achetés en supermarché. Chaque ticket de caisse correspond à une liste de produits, et l’ensemble de ces tickets constitue une liste de listes de produits. Les personnes qui étudiaient ces comportements dans les années 1990 ont trouvé que ce n’était pas très pratique et ont inventé, pour se simplifier la vie, une famille d’algorithmes qu’on appelle les algorithmes de règles d’association. Le plus connu, parce qu’il calcule vite, est l’algorithme APriori, et c’est lui que nous avons utilisé pour, nous aussi, nous simplifier la vie.

Grâce à cet algorithme, nous avons pu identifier quelles thématiques allaient souvent ensemble, par exemple « Famille Sarkozy » et « Affaire politico-financière française » (c’est un vrai exemple !). Sans tricher, c’est à dire, sans faire d’autres filtres, nous avons généré le graphe d’association suivant :

SimpleGraph_v2
Cliquez sur l’image pour l’agrandir

Là aussi, c’était très parlant. Même s’il y a des thématiques qui sont assez redondantes (mais ça, la machine ne le sait pas) comme « Urbanisme » et « Urbanisation », dans l’ensemble on voit nettement se dégager différents groupes de thématiques : en premier lieu la politique, et notamment l’extrême-droite, mais aussi les réseaux sociaux, l’urbanisme, l’immigration, le chômage.

Conclusion

Sans rien dire de la politique éditoriale de Slate, Jean-Laurent nous a confié que cette analyse lui avait été très utile, ce qui nous a convaincu de l’intérêt de l’appliquer à d’autres auteurs, d’autres médias, ou d’autres formes d’expression. Pour des tweets, ce sera sans doute moins riche, mais si vous avez des idées à nous soumettre, n’hésitez pas !

Enfin, si vous voulez expérimenter par vous-même, que vous êtes bricoleur, voire carrément développeur, ou que vous pouvez demander l’aide d’un ami, sachez que vous pouvez reproduire les visualisations qui apparaissent dans cet article en utilisant :

Les outils utilisés pour générer les images seront publiés prochainement, abonnez-vous à ce blog pour ne pas les manquer.