1. La collecte

La première chose à faire est bien sûr de commencer à collecter de l’information, en sachant que Twitter est par nature très bruité et qu’il faut beaucoup de tweets pour en trouver des pertinents. Les années précédentes, nous avons notamment capturé dans nos filets beaucoup d’opérations de communication autour de jeux concours sur la période de Noël, ainsi que des réseaux de bots qui s’appuient sur des hashtags populaires.

Au lieu de les supprimer à posteriori, il vaut mieux essayer de ne tout simplement par les collecter. Pour cela, notre marge de manoeuvre provient des mots-clés de recherche que nous cherchons sur Twitter : plutôt de prendre le seul mot « Noël », qui va être très utilisé en décembre, nous recherchons des combinaisons entre Noël et la notion de cadeau ou l’évocation du désir : « je veux/je voudrais…. pour Noël ». Twitter est un réseau social très utilisé par les ados, dont l’orthographe n’est pas toujours la priorité, il est crucial de rechercher également des combinaisons avec des fautes : à titre d’exemple, nous avons collecté près de 500 tweets contenant l’expression « jveut » et « Noël ».

2. Le filtrage

Malgré la finesse de nos mots-clés, les données collectées restent bruitées par rapport à ce que nous recherchons. On peut s’en rendre compte en regardant par exemple les comptes Twitter les plus mentionnés dans notre corpus, où l’on trouve notamment Cdiscount, Topachat, la Fnac… Si ces comptes ont bien un rapport avec la conso à Noël, il ne reflètent pas tant les attentes spontanées des consommateurs que les tendances qu’ils cherchent à pousser et nous ne souhaitons donc pas les inclure. A titre d’illustration (sans forcément chercher à le rendre lisible et à y détecter des communautés), on voit qu’ils ressortent nettement dans le réseau de qui mentionne qui sur le corpus.

cooccurrences

L’autre type de compte qui ressort de cette visualisation, ce sont les médias et personnalités médiatiques. L’exemple le plus évident est l’animateur Cyril Hanouna avec lequel de nombreux twittos ont interagi sur la période de Noël. A nouveau, comme notre objectif est d’analyser les conversations des internautes entre eux, ces échanges avec des comptes de type média ne sont pas vraiment pertinents. Nous avons donc filtré les principales mentions de comptes de marques ou de média.

Enfin, un filtre supplémentaire permet de neutraliser au moins en partie les effets d’emballement sur un sujet, qui sont difficiles à interpréter : le fait de ne pas analyser les retweets. En effet il est difficile de déterminer si quelqu’un qui retweete un souhait de cadeau exprime le même souhait ou une autre intention de communication. Par ailleurs, c’est un bon moyen d’éliminer une partie des messages relatifs à des jeux concours, qui reposent souvent sur le fait de retweeter quelque chose pour avoir une chance de gagner.

Après application de tous ces filtres, il reste entre 20 et 25% du million de tweets initialement collecté : on se rend ainsi compte à quel point l’étape de filtrage est cruciale en particulier pour l’étape suivante : l’analyse sémantique.

3. L’analyse sémantique

En pratique, cette étape est faite au fur et à mesure de la collecte, mais dans le procédé de l’étude, c’est maintenant qu’elle intervient. Pour l’étude sur Noël, nous appliquons aux tweets nos bases de connaissances linguistiques sur la grande distribution. Cela permet de détecter tous les produits mentionnés dans les tweets et d’en déterminer la fréquence. La façon dont nous détectons ces produits permet de distinguer les différents sens avec lesquels un mot est utilisé, pour ne garder que celui qui nous intéresse : par exemple, pour détecter les babas au rhum, nous pouvons exclure « baba Noël » (un surnom donné à Cyril Hanouna) ou « être baba » (ce qui, convenons-en, est peu utilisé, mais fait déjà partie de nos ressources linguistiques). Ces produits sont regroupés selon une nomenclature de produits, ce qui permet de passer instantanément du constat « on parle de robes, de pulls, de t-shirts, de maillots de sport, etc » au constat « on parle beaucoup de prêt-à-porter. De là, on peut passer à un constat raisonnablement fiable des familles de cadeaux les plus désirés à Noël :

Top 10 des types de produits les plus mentionnés

top20

4. L’analyse statistique exploratoire

L’analyse sémantique sert de base à l’étape suivante, une analyse de nature plus statistique et exploratoire, et dont le résultat est l’étude réalisée. Il n’y a pas de méthode toute faite pour analyser ce type de données et c’est là qu’intervient le savoir-faire de nos chargés d’étude : il faut tâtonner, être inventif et bien connaître l’outil. C’est en creusant par exemple la catégorie « Épicerie sucrée » qu’on se rend compte que les internautes parlent beaucoup de ce qu’ils mangent à Noël, ce qui est un aspect des tendances de consommation que l’on n’avait pas forcément identifié. Une fonctionnalité de notre logiciel particulièrement utile pour cette étape est la heatmap (carte de chaleur) qui permet en autre de voir l’évolution des types de produit au cours du temps :

Surreprésentation des types de produits au cours du temps

heatmap

On voit ainsi que la quantité de tweets relatifs aux cadeaux de Noël augmente le jour du réveillon et de Noël, ce qui n’est pas surprenant, mais aussi que certaines catégories de produit ressortent, comme la téléphonie. Quand on regarde les tweets, on se rend compte que beaucoup de twittos regrettent de ne pas avoir eu un iPhone comme cadeau, ce que nous avions également constaté les années précédentes. De proche en proche, on identifie un certain nombre de résultats pertinents et quantifiés, qu’il ne reste plus qu’à mettre en forme pour raconter une histoire intéressante.

Pour voir le résultat de cette analyse, vous pouvez retrouver l’étude complète en ligne en cliquant sur l’image ci-dessous. Pour des projets similaires, découvrez nos offres dans le domaine des études, de la connaissance client et de la market intelligence.

cover