Dans le cadre de nos travaux sur la catégorisation à partir de Wikipédia, nous menons des expérimentations d’analyse sémantique sur cette vaste source de savoir qu’est l’encyclopédie en ligne. En ligne avec ce que nous avons pu faire avec notre client l’APEC, nous avons analysé plus spécifiquement les personnalités et les différents métiers ou occupations qu’elles ont pu pratiquer.

Ainsi, si l’on prend l’exemple de la notice de Namık Kemal, personnalité turc, nous relevons qu’il aura été tout à la fois romancier, poète, journaliste, traducteur, dramaturge et réformateur social.

ExempleDefinition

L’exercice a donc consisté à extraire de Wikipédia les personnes et identifier les expressions de la forme « [personne] est/était un(e) [métier], [métier] et [métier] » : rassurez-vous, tous n’avaient pas autant de vocations que Namık Kemal. Ces expressions sont ce que l’on appelle en linguistique une « expression définitoire copulative » : définitoire parce qu’elle définit, « copulative » parce qu’il y a le verbe être, appelé « copule » parce qu’il relie le sujet à ses attributs. Nous espérons que cette petite parenthèse vous permettra de briller en soirée.

Ensuite une phase laborieuse et compliquée s’impose durant laquelle on s’assure que l’on a bien affaire à une personne, que le métier existe et qu’on peut le rattacher à une catégorie Wikipédia. On extrait également les nationalités, les parenthèses, et tout un ensemble de menus détails qui ne nous intéressent pas dans cet exercice mais qui additionnés, créent beaucoup de bruit dans les données que l’on veut obtenir (si vous êtes très pointilleux vous remarquerez qu’il en reste un peu dans ce que nous vous présentons). A la fin, on obtient une très grande liste de paires de métiers, comme « acteur et musicien », « poète et enseignant », « peintre et cinéaste » que l’on va pouvoir représenter.

Voici donc le résultat sans plus tarder auquel nous sommes parvenus en représentant ces paires sous la forme d’un graphe où une paire est représentée par un lien. Plus il y a de liens, plus la co-occurrence est fréquente.

Cliquer sur l’image pour agrandir

Pour notre plus grand plaisir, ce graphe est remarquablement lisible, avec des clusters (regroupements) sensés :

  • La sphère artistique, avec la musique, les arts graphiques, et les gens de lettres ;
  • Ces derniers font le pont d’un côté avec la sphère politique, de l’autre avec l’enseignement ;
  • Les enseignants sont également des scientifiques de leur discipline ;
  • Certains scientifiques sont ingénieurs ;
  • Du scientifique à l’ingénieur, on va vers quelque chose de plus institutionnel, qui nous mène aux grands corps d’Etat : l’armée, la politique, l’administration ;
  • La religion se trouve prise entre la politique, l’enseignement et les lettres.

On voit également apparaître les métiers qui se prêtent le plus fréquemment à des associations :

  • homme politique ;
  • écrivain, poète ou auteur ;
  • acteur ;
  • professeur.

Naturellement, ce graphe est à l’image de ce qui est visible sur Wikipédia, où n’apparaissent que les personnes célèbres d’une façon ou d’une autre. Il ne faut pas oublier non plus que la taille des éléments est liée au nombre de paires que va avoir un métier et pas au nombre de personnes qui occupent ce métier, et en même temps, certains métiers, qui poussent à la célébrité, sont sur-représentés par rapport à ce qu’il se passe en réalité. Néanmoins, le résultat est remarquablement parlant, et de notre point de vue, complètement hypnotisant. N’oubliez pas de cliquer sur l’image pour vous promener à votre tour !