Proxem Studio
Figure 1 : Thématiques en réponse à « Que faites-vous ou pourriez-vous faire pour l’environnement ? »

Principe clé : passer des mots aux concepts

La langue est une matière complexe à manipuler pour les ordinateurs. Nous parlons comme nous respirons, au point d’avoir oublié qu’avant de savoir communiquer avec nos semblables, nous avons d’abord mis quelques années à apprendre à parler puis à écrire, et avons encore étudié longuement avant de savoir faire un résumé de texte (qui reste même pour des humains un exercice difficile). Alors brisons immédiatement un mythe : la machine ne comprend pas, elle simule. Elle ne fait pas de l’analyse de sentiment : elle trie, range, classe l’information en fonction des symboles que sont les lettres, les mots, les phrases. Pour réussir à trouver des insights intéressants, il va falloir guider la machine ; seule, elle ne saura que restituer des « statistiques » sur le langage utilisé dans un corpus. Mais cette aide est déjà extrêmement précieuse lorsque l’on dispose des bons outils, comme nous allons le voir.

Le Grand Débat National : un cas d’école utile à tous

Le Grand Débat National, engagé par le Gouvernement à l’initiative du Président de la République, s’appuie sur une plateforme numérique (granddebat.fr) permettant à chaque citoyen de s’exprimer sur 4 thèmes : la transition écologique ; la fiscalité et les dépenses publiques ; la démocratie et la citoyenneté ; l’organisation de l’Etat et des services publics. Autour de ces thèmes, un certain nombre de questions ouvertes ont été posées, comme par exemple : « que faites-vous aujourd’hui pour protéger l’environnement et/ou que pourriez-vous faire ? ». Des centaines de milliers de contributions ont été produites : sur la thématique de la transition écologique, cela représente plus de 700 000 réponses (au moment d’écrire ces lignes) aux 12 questions ouvertes.

Analyser cette matière est une tache inhumaine. La quantité d’informations représente plus que ce qu’un humain peut lire et synthétiser : ce volume de texte représente une vingtaine de millions de mots, soit 40 fois la taille du livre Guerre et Paix. Mais assisté par un système d’intelligence artificielle cela devient tout à fait accessible, sans forcément requérir des compétences techniques pointues.

Que sait schtroumpfer la machine ?

En traitement du langage, il existe grosso-modo deux écoles. L’approche symbolique cherche à « coder » les règles du langage (la grammaire, la syntaxe, la lexicographie) et produit des systèmes experts à base de règles linguistiques. L’approche statistique a récemment connu des percées spectaculaires avec le retour des réseaux de neurones artificiels, plus connus sous le terme de machine learning et de deep learning.

Si ces deux méthodes sont souvent opposées, en pratique, une approche hybride entre les deux est à privilégier de façon à profiter des incroyables capacités qu’apporte l’Intelligence Artificielle. En combinant intelligemment ces deux approches, nous offrons à l’humain une « intelligence augmentée » par ce que peut produire la machine : la machine propose, l’humain dispose (il valide, corrige, et oriente la machine).

Lorsque l’on charge son corpus de texte, Proxem Studio va automatiquement trier, ranger, classer l’ensemble du vocabulaire et proposer des milliers de concepts qui émergent naturellement. Cette méthode a un double avantage par rapport aux approches old school. D’une part, elle permet de ne pas partir d’un a priori : l’utilisateur n’a plus besoin de passer des jours à créer un dictionnaire de mots correspondant aux thématiques attendues, il se laisse guider par ce qui est réellement présent dans les données. D’autre part, il n’est plus nécessaire de « stabiloter » des milliers d’exemples de verbatims pour apprendre à la machine les concepts pertinents : elle est désormais capable de les identifier toute seule. Cela évite aussi le phénomène de page blanche quand on démarre un projet.

L’exemple ci-dessous montre le résultat obtenu sur les données de la thématique « transition écologique » après la découverte de 700 000 verbatims. La machine a déjà regroupé automatiquement des termes (mots et expressions) qui « vont ensemble ». Pour cela, elle opère un peu comme quand nous lisons la BD des Schtroumpfs. Avec notre vieux cerveau d’humain, nous comprenons sans problème chaque occurrence de « schtroumpf » grâce au contexte des mots dans lesquels ce terme apparaît. C’est exactement ce que fait la machine en regroupant automatiquement les expressions en thématiques et sous-thématiques.

Proxem Studio
Figure 2 : Quelques clusters de vocabulaire fournis par la machine

Par exemple, dans notre cas, Proxem Studio a notamment choisi de regrouper :

  • Le vocabulaire ayant trait à la fiscalité et aux aides d’état.
  • Tout ce qui a trait au déplacement dans les villes (parkings, transports en communs…) en distinguant ce qui concerne les transports « long » et transports routiers d’une part, et les trajets sur des petites distances d’autre part.
  • Les sujets autour des modes de chauffages et des économies d’énergie.
  • Tout ce qui concerne les évolutions des modes de consommation.
  • Les effets du réchauffement climatique.
  • Les produits industriels, les emballages, les déchets…

Comme elle s’appuie sur une analyse statistique des termes qui apparaissent conjointement, la machine nous guide également dans notre interprétation au-delà des mots. Par exemple, sont regroupés dans une même thématique :

  • Les mots ayant trait aux emballages (contenant en plastique, bouteille, emballages jetables…).
  • Les termes autour du tri des déchets, distinct du vocabulaire sur le tri du verre qui contient des suggestions diverses comme le retour des systèmes de consignes.
  • Le vocabulaire sur les grands magasins et les produits industriels, jugés pourvoyeurs de produits préjudiciables à l’environnement.

Nous voyons donc que ces sujets sont liés, sans avoir besoin de connaissances préalables ni avoir dû prédéfinir un dictionnaire. Il est aussi intéressant de noter la thématique de l’obsolescence programmée qui apparaît dans ce même regroupement, que nous pouvons interpréter comme une « cause » ou une « source » aux problèmes de déchets.

Proxem Studio
Figure 3 : Regroupement du vocabulaire concernant les emballages et déchets

Que faire des suggestions automatiques ? Mettre l’humain dans la boucle !

A partir des suggestions proposées automatiquement par Proxem Studio, l’analyste en charge de l’étude va pouvoir sélectionner les thématiques qui l’intéressent et mettre en place son propre plan de classement, pour produire in-fine des statistiques. Par exemple, elle va décider de regrouper ensemble tout ce qui touche à la consommation, en distinguant les évolutions de modes de consommation (consommation responsable, diminuer sa consommation…), le développement de l’agriculture bio, la consommation locale ou les circuits courts.

Pour notre cas d’école, nous avons décidé de classer suivant une dizaine de thématiques « Energie », « Transport », « Consommation », « Gestion des déchets », « Fiscalité », etc. et autant de sous-thématiques pour chaque thématique principale. Un même texte peut bien sûr être multi-classé s’il évoque plusieurs sujets.

Proxem Studio
Figure 4 : Exemple de verbatim analysé dans lequel la machine surligne les expressions clés.

Dans l’exemple ci-dessus, les concepts détectés sont classés suivant les thématiques « Energie » (sous-thématiques « isolation » et « économie d’énergie »), « Consommation » (« consommation responsable » et « limiter la consommation »), « Gestion des déchets » (« réduction des déchets ») et « Causes » (« obsolescence programmée »).

Proxem Studio
Figure 5 : Expressions proches de « local »
Proxem Studio
Figure 6 : Séparation des sens de « Hollande »

Pour bien capturer le sens et éviter les erreurs d’interprétation, l’analyste pourra également s’appuyer sur un moteur de règles linguistiques. Là aussi, la machine va l’aider, en fournissant des synonymes, paraphrases ou expressions proches, ou aidant à lever les ambiguïtés en présence de termes polysémiques.

Pour compléter une thématique, nous allons également nous appuyer sur l’IA de Proxem Studio. A partir de quelques exemples, elle fournit des suggestions pour compléter notre classement comme sur l’exemple ci-dessous sur le concept de « Compostage ».

Proxem Studio
Exemple de suggestions automatiques d’enrichissement du concept “compostage”

Une fois le plan de classement effectué, l’ensemble des textes est alors trié, rangé, classé et on passe alors à une approche plus traditionnelle de statistiques exploratoires et visuelles.

Quelques résultats issus de l’analyse effectuée grâce à Proxem Studio

Proxem Studio permet d’avoir une vision globale de ce qui est exprimé mais aussi de descendre dans les détails pour mieux comprendre des « signaux faibles ».

A partir des données analysées, notre étude permet de faire ressortir quatre thèmes importants aux yeux des citoyens, concernant leur contribution à la protection de l’environnement.

Proxem Studio
Figure 7 : Thématiques importantes pour la protection de l’environnement

Les résultats obtenus sur ce sous-corpus permettent de déduire que la majorité (54%) des participants au Grand Débat National se préoccupent de la gestion des déchets. On compte en effet de nombreuses références au recyclage, au compostage, au réemploi, à la volonté d’aller vers un meilleur traitement des déchets et aussi vers une meilleure réutilisation, des produits et/ou des contenants, afin de réduire leur nombre.

48% analysent leur mode de consommation, et tentent de mettre des solutions en place pour adopter un comportement plus responsable.

Ils sont aussi nombreux (44,7%) à être attentifs au moyen de transport choisi, à tenter de diminuer le nombre de trajets, à souhaiter privilégier les transports en commun et/ou les transports qui utilisent les énergies vertes, plutôt que les énergies fossiles.

D’ailleurs, on note que 32,5% des répondants pensent qu’il est urgent de se tourner vers des énergies vertes, plus respectueuses de l’environnement, et de diminuer la consommation d’énergies fossiles, en privilégiant les constructions mieux isolées, et en diminuant la consommation domestique d’énergie.

On peut ensuite chercher, par exemple, à savoir plus précisément quelles sont les idées apportées par ces citoyens, au sujet de la consommation :

Proxem Studio
Figure 8 : Actions locales possibles pour la protection de l’environnement

A la question sur les contributions citoyennes visant à protéger l’environnement, si l’on s’intéresse aux réponses obtenues, qui abordent le thème de la consommation, les citoyens expriment principalement la volonté de :

  • Consommer local (17%) ;
  • Se tourner vers le bio (15%) ;
  • Limiter leur consommation (11%) ;
  • Faire des économies d’eau (10%) ;
  • Limiter la consommation de viande (6%).

Les citoyens communiquent sur les gestes quotidiens qu’ils mettent en place pour lutter contre le réchauffement climatique. On remarque aussi que :

  • Le thème de la consommation responsable est abordé ;
  • Les consommateurs sont attentifs aux produits chimiques utilisés pour la production alimentaire, et également dans la composition des produits d’entretiens ;
  • D’autres vont plutôt chercher à bannir les produits alimentaires qui contiennent des substances controversées, comme l’huile de palme.

On peut relever une tendance de boycott des OGM. On compte aussi quelques contributions qui vont promouvoir l’agriculture raisonnée et responsable, l’utilisation de sacs réutilisables.

Le dernier thème marqué au sein de ces réponses concerne la traçabilité, les normes européennes et nationales sur les pesticides.

Conclusion

Le paramétrage de l’analyseur sémantique a pu être réalisé en moins de deux jours grâce à Proxem Studio. Ce matériau brut nécessiterait un temps d’étude plus long pour en tirer toute la substantifique moelle.

L’intelligence artificielle rend possible ce type d’analyse et la facilite grandement. De même qu’Excel est devenu le logiciel de référence pour traiter les nombres au quotidien, gageons que Proxem Studio s’imposera pour analyser les textes.

Nota bene : toutes les captures d’écran proviennent directement du logiciel Proxem Studio

Article rédigée par François-Régis Chaumartin, CEO de Proxem, et Thomas Cohu, Directeur Marketing et Produit.

Retrouvez cette tribune sur le compte LinkedIn de François-Régis Chaumartin.


Découvrez également en intégralité la vidéo de l’atelier présenté par François-Régis Chaumartin, reprenant la méthode expliquée dans cet article, le 12 mars au Big Data Paris 2019.

Vous souhaitez en savoir plus sur nos solutions ?