Sommaire

NLP

Le NLP, Natural Language Processing ou Traitement Automatique du Langage en français,  désigne l’ensemble des tâches permettant à un ordinateur de traiter des données en langage humain. Il s’agit donc d’une discipline informatique à part entière qui recouvre de nombreux sujets et méthodes, qui sont à l’origine notamment des moteurs de recherche. Certains auteurs distinguent des tâches dites de “bas-niveau” permettant une représentation informatique du texte par un ordinateur, des tâches dites de “haut-niveau” permettant à la machine de “comprendre” le texte.

TAL ou TALN

Traitement Automatique du Langage (Naturel) : c’est l’acronyme français utilisé pour NLP.

NLU

Un module Natural Language Understanding (NLU) extrait une représentation sémantique simplifiée à partir d’un énoncé textuel.

Prenons l’exemple d’un chatbot qui reçoit la demande suivante :

“Bonjour, je cherche à réserver un resto chinois à Paris 11 pour demain 20h, pour 4 personnes, c’est possible ?”

Le NLU va permettre au bot  d’identifier l’intention de l’utilisateur (trouver un restaurant) et de la qualifier par une liste d’entités (le type de restaurant, le nombre de personnes, le lieu etc…).

Analyse sémantique

L’analyse sémantique est la branche du traitement automatique des langues qui vise à « comprendre » le sens d’un texte.

Les guillemets sont de rigueur ici, car la représentation du sens qu’une machine est actuellement capable de produire est bien moins riche que celle qu’un humain aura en lisant un texte.

NLG

La génération automatique de textes (Natural Language Generation ou NLG), est le pendant de l’analyse sémantique : son objectif est de transformer des données en texte, avec un rendu d’une qualité indiscernable d’une production humaine. Rien n’est plus agaçant, quand on reçoit un courrier ou un mail, que de se rendre compte que c’est une machine qui l’a écrit… et que ça se voie.

Analyse de sentiment

L’analyse de sentiment, parfois appelée “fouille d’opinion”, en traitement automatique du langage consiste à identifier si un énoncé (une phrase, un verbatim…) est positif, neutre ou négatif selon un certain prisme.

Les humains expriment leur avis spontanément (par exemple en écrivant sur les réseaux sociaux ou en envoyant des mails de réclamation) ou en réponse à une sollicitation (notamment à la suite d’une enquête de satisfaction). Quelles opinions sont exprimées par celui ou celle qui s’exprime ? S’agit-il d’un sentiment positif, négatif, neutre ou mitigé ? Sur quoi porte précisément cet avis ? Quelles émotions se dégagent entre joie, colère, peur, surprise, tristesse, dégoût, confiance… ? Un consommateur qui écrit « je suis surpris de ne toujours pas avoir reçu de réponse » est-il d’ailleurs surpris, déçu ou en colère, ou ressent-il plusieurs de ces émotions simultanément ?

D’un point de vue technique, l’analyse d’opinions peut être vue comme un cas particulier d’extraction de relations. En effet, une opinion relie un locuteur qui s’exprime et l’objet du monde concerné (produit marchand, service proposé, action d’un politique…).

Fouille d’opinion

C’est un autre nom, plus académique, donné à l’analyse de sentiment.

Polarité

La polarité, en analyse de sentiment, désigne un score ou une classification d’un extrait de texte suivant la tonalité de l’opinion (positif / neutre / négatif).

Fouille de textes

L’objectif de la fouille de texte est d’extraire de la connaissance d’un corpus de documents donné.

La fouille de textes (text mining) revient ainsi à effectuer l’analyse sémantique des documents d’un corpus pour alimenter un système de fouille de données (data mining). Ce dernier interprétera les résultats de l’analyse textuelle de façon à mettre en évidence des corrélations intéressantes, effectuer une analyse de séries temporelles, détecter des corrélations…

La fouille de textes fonctionne mieux sur un corpus suffisamment homogène pour que le même analyseur puisse traiter tous les documents.

Speech to text

Il s’agit d’une tâche permettant d’extraire le texte d’un document audio, comme par exemple la retranscription vocale lorsque l’on dicte un message via un assistant virtuel comme Siri.

Une fois l’audio transformé en texte, il est alors possible d’en faire une analyse sémantique.

Classification

La classification automatique d’un document (ou d’une partie de ce document) revient à effectuer une compréhension globale de son contenu pour le ranger dans une ou plusieurs cases.

En quelle langue est-il écrit ?

De quel type de documents s’agit-il ?

Faut-il le traiter en urgence ?

Quelles sont ses principales thématiques ?

Un mail est-il un spam ou non ?

Extraction terminologique

L’extraction terminologique, aussi appelée “chunking” en anglais, est la tâche permettant d’identifier des groupes de mots qui forment des expressions utiles, comme par exemple “pomme de terre” qui ne porte pas le même sens que les mots séparés “pomme”, “de” et “terre”.

On parle aussi d’expression multi-mots ou n-grammes de mots.

Les linguistes appellent aussi collocation une expression multi-mots fréquente, apparaissant dans le langage courant (« faim de loup ») ou dans un vocabulaire de spécialité (« anorexie mentale »).

Reconnaître des expressions multi-mots n’est pas aussi simple qu’il y paraît : en fonction du contexte, une phrase comme « je couvre la pomme de terre » pourrait vouloir dire « avec de la terre, je couvre la pomme » et non « je recouvre la patate ».

Reconnaissance d’entités nommées

La compréhension locale d’un texte consiste à « stabiloter » des mots ou groupes de mots pour reconnaître des concepts. En jargon de linguiste, cette tâche s’appelle la reconnaissance d’entités nommées (named entity recognition ou NER).

Le cas le plus simple revient à identifier dans un texte une information unitaire comme une date, un montant financier, un pourcentage, un numéro de téléphone, une adresse de mail, une URL, un numéro de plaque d’immatriculation, un numéro de sécurité sociale…

Analyse lexicale

L’analyse lexicale, généralement appelé tokenisation en anglais, est la tâche qui permet de séparer les symboles dans le texte en “mots”, créant ainsi le lexique d’un corpus donné. C’est donc une tâche préalable à l’extraction terminologique.

Vous voulez en savoir plus sur nos solutions ?