Lorsque l’on est enfant, nos parents nous apprennent à reconnaître les choses qui nous entourent. On sait rapidement reconnaître, sans trop se tromper, un chat d’un chien, un cheval d’un zèbre, une cuillère d’une fourchette, ses parents des autres humains, les humains des autres choses… Lorsque l’on grandit, on apprend des catégories beaucoup plus compliquées, comme le vrai et le faux, le bien et le mal, le beau et le laid, sur lesquels nos semblables sont loin d’êtres toujours d’accord. Faire rentrer les gens et les choses dans des cases peut être une activité dangereuse et injuste, notamment lorsqu’elle implique un traitement défavorable à certaines catégories de personnes ou de choses sur des critères injustifiés.

Boxes 1

Pourtant, faire rentrer des choses dans des cases est une activité fondamentale de la vie humaine ; nous en avons besoin pour comprendre et interagir dans le monde qui nous entoure. Pour nous humains, ce n’est pas forcément simple :

  • les catégories ne sont pas forcément bien définies ;
  • il n’y a pas forcément de consensus sur ce qu’il faut classer dans quoi ;
  • certaines catégories sont subjectives ;
  • on ne connaît pas toujours bien la chose qu’on cherche à catégoriser.

Bref, la catégorisation est une activité à la fois centrale et difficile pour les humains. Pour les machines, c’est à peu près pareil : on peut apprend à une machine à catégoriser des objets, mais elle restera tributaire des difficultés humaines, et a ses difficultés propres. Elle a cependant des avantages considérables : sa puissance de calcul et sa capacité à effectuer des tâches répétitives sans le moindre signe de lassitude.

Que vient faire Proxem dans tout ça ? C’est tout simplement que la catégorisation était le sujet présenté par notre fondateur il y a quelques semaines à l’occasion de la conférence scientifique TALN 2013.

Lorsque l’on analyse des documents, il y a de nombreuses raisons de vouloir organiser des documents en fonction de catégories pré-définies. On peut vouloir savoir quels sont les mails importants que l’on a reçus, les alertes les plus graves, les tweets qui critiquent sévèrement une marque, les publications scientifiques sur le sujet très précis qui nous intéresse… Tous ces problèmes reviennent au final à définir des critères et à y faire rentrer des documents. Or ces critères, en analyse sémantique, se répartissent, en gros, en deux grandes familles : de quoi on parle (thématique) et ce qu’on en dit (polarité). Pour le dire très simplement, je veux pouvoir savoir si l’on parle du sujet qui m’intéresse, et si on en parle en bien ou en mal.

En content analytics, l’une des difficultés liées à la catégorisation est que le monde est vaste et qu’il est très difficile de prédéfinir tous les critères et catégories qui peuvent se présenter, étape indispensable avant d’aller puiser dans les catégories qui nous intéressent. En effet que la catégorisation générique est un problème théorique encore irrésolu aujourd’hui, ou de façon non satisfaisante. C’est précisément ce problème de catégorisation générique que Proxem est aujourd’hui en mesure de traiter : en utilisant l’organisation des connaissances (les ontologies) de Wikipédia, nous sommes désormais en mesure de déterminer automatiquement de quoi parle un document, c’est-à-dire de rattacher automatiquement un document (un tweet, un mail, un article…) à un ensemble de catégories connectées entre elles.

Ainsi, bien que vous n’ayez pas lu les 226 pages de la thèse de notre fondateur, vous pouvez, grâce à ce graphe généré par nos outils, savoir de quoi elle parle et quelles sont les relations entre les différents sujets abordés.

Graphe

Là où il faut habituellement indiquer manuellement à la machine les catégories thématiques que l’on souhaite suivre, par exemple dans le cadre d’une veille sur un sujet spécifique, notre démarche permet d’automatiser la configuration des catégories et l’identification des documents pertinents. Une fois les documents classés, l’utilisateur n’a plus qu’à y apporter son regard d’expert du sujet, débarrassé de toute la phase de tri et de suppression des documents inintéressants.

Cette technologie est une exclusivité de Proxem et a fait l’objet d’un dépôt de brevet.

 

Références :

Chaumartin, F.-R. (2013). Apprentissage d’une classification thématique générique et cross-langue à partir des catégories de la Wikipédia. Actes de la 20e conférence sur le Traitement Automatique des Langues Naturelles (TALN’2013) (Vol. 8, pp. 659–666). Les Sables d’Olonne.