Du côté des médias sociaux

Facebook est le plus grand réseau social en ligne qui ait jamais existé. C’est peut-être aussi celui qui a l’histoire la plus trouble, comme le romance le film The Social Network. Toujours est-il qu’il y a un procès en cours contre Mark Zuckerberg, fondé sur un document qui affirme que celui-ci aurait cédé la moitié du réseau à celui qui a initié le procès. Facebook étant valorisé à 190 milliards de dollars, on peut comprendre que la controverse suscite l’intérêt…

Facebook continue ses expériences sur la façon dont les utilisateurs s’expriment. Après avoir recueilli, via un questionnaire, les traits de personnalités basiques d’une personne (introversion/extraversion, ouverture/timidité, etc.) et ont analysé les mots les plus utilisés par chacune de ces personnes. Comme on peut s’en douter le vocabulaire n’est pas le même mais il est frappant de voir, par exemple, la corrélation entre l’introversion et l’intérêt pour la culture japonaise.

L’application d’écoute musicale Spotify s’est lancé à son tour dans l’analyse de ses vastes données et propose une visualisation qui montre en temps réel les morceaux écoutés simultanément par deux personnes.

Autre actualité pour les réseaux, celle d’une application dont on a peu parlé dans cette lettre : Secret, qui permet de partager anonymement des confessions à ses contacts, sans qu’on sache vraiment qui est sur l’application. Il pouvait paraître inévitable que l’application soit crackée et que les noms soient révélés, mais la faille qui permettait cette opération a, semble-t-il, été corrigée.

Enfin n’oublions pas que ces aventures numériques ont un coût, notamment pour les éditeurs des sites concernés. Parmi ces coûts, le lobbying représente un investissement considérable chez certains : ainsi Google est le 8e lobbyiste le plus important aux Etats-Unis et augmente chaque année ses dépenses.

Au royaume de la data

Au XIXe, le critique d’art Giovanni Morelli aurait identifié la paternité d’un certains nombre de tableaux en s’appuyant non pas sur des éléments macroscopiques comme les sujets traités, leurs postures, mais de menus indices comme la façon de dessiner les mains, les oreilles… Cette démarche repose d’après Carlo Ginzburg sur un paradigme émergent où, pour faire simple, on analyserait les choses à partir de leurs détails plutôt qu’à partir de l’ensemble. Or voici qu’une équipe de recherche a mis au point un algorithme qui permettrait d’automatiser cette analyse des détails et de faire apparaître les ressemblances entre des tableaux qu’on n’aurait pas spontanément associés entre eux.

Cet algorithme repose vraisemblablement sur une famille de technique très à la mode en ce moment, le deep learning, qui est en fait une amélioration de techniques plus anciennes de la famille des réseaux de neurones artificiels. Ces techniques sont très valorisées, notamment sur le marché des ressources humaines : ainsi Andrew Ng, l’un des spécialistes influents du sujet chez Google, a quitté la société pour rejoindre Baidu, le moteur de recherche chinois qui fait apparemment sa montée en puissance sur ces sujets-là.

Si les algorithmes constituent souvent la partie la plus spectaculaire de ces procédés, il est bon de rappeler qu’ils ne représentent qu’une partie du travail, et c’est loin d’être la plus pénible. La préparation des données est une tâche cruciale sans laquelle le meilleur algorithme du monde ne renverra rien de sensé. Les données « brutes » n’ont pas d’intérêt en tant que tel et ils faut construire des données utiles pour pouvoir en faire émerger des connaissances utiles sur le sujet étudié.

La préparation des données brutes est un problème bien connu des spécialistes des big data, dont le journal officiel a proposé vendredi dernier une traduction : « mégadonnées ». L’auteur de ces lignes a souhaite protester contre cette traduction qui décrit fort imparfaitement, à ses yeux, le phénomène concerné.

Avant de présenter notre visualisation de la semaine, rappelons que la visualisation de données suit avantageusement des règles dont certaines sont connues depuis un petit moment, comme le montre cette liste de conseils qui aura un siècle l’année prochaine. La visualisation elle-même montre la proportion d’utilisation des langues sur le web comparée à leur nombre de locuteurs.

langues