Une approche paresseuse de l’analyse sémantique ou comment construire une interface syntaxe-sémantique à partir d’exemples
TALN 2010, Montréal
Cet article montre comment extraire une interface syntaxe-sémantique à partir d’un analyseur en dépendance quelconque et interchangeable, de ressources lexicales variées et d’une base d’exemples associés aux représentations sémantiques que l’on souhaite calculer. Nos représentations sémantiques sont des graphes hiérarchisés de relations prédicat-argument entre des acceptions lexicales et notre interface syntaxe-sémantique est une grammaire de correspondance polarisée. Nous montrons en particulier comment obtenir un système très modulaire en calculant certaines règles par « soustraction » de règles moins modulaires.
This article shows how to extract a syntax-semantics interface starting from an interchangeable dependency parser, many lexical resources and from samples associated with the semantic representations which one wishes to compute. Our semantic representations are hierarchical graphs of predicate-argument relations between lexical meanings and our syntax-semantics interface is a polarized unification grammar. We show in particular how to obtain a very modular system by computing some rules by “subtraction” of less modular rules.
Extraction d'informations multilingues utilisant des paraphrases
TALN 2009 (démonstration), Senlis
Cette démonstration présente un composant d’extraction d’informations multilingues qui permet (1) d’associer un ensemble de paraphrases à un prédicat, puis (2) de rechercher sur le Web des instances de ce prédicat. La méthode d’extraction d’informations utilisée s’appuie sur une traduction des paraphrases en patrons syntaxiques ; les phrases susceptibles de contenir l’information recherchée font l’objet d’une analyse syntaxique en dépendances, puis d’un appariement de formes avec les graphes syntaxiques des patrons. Cette méthode fournit des résultats précis, au prix d’un temps de calcul élevé.
This demonstration introduces a multilingual Information Extraction component. This component makes it possible (1) to associate a set of paraphrases with a predicate, then (2) to search on the Web instances of this predicate. The method used during the Information Extraction stage relies on a translation of the paraphrases as syntactic patterns; the sentences likely to contain the right information are parsed and produce a dependency output; a pattern matching is then achieved against the dependency graph of the paraphrases. This method provides precise results, at the price of high CPU usage.
Bridging Mono/.NET and Java in the SCRIBO Project: The Way to UIMA.NET
RMLL 2009 (UIMA track), Nantes
In this paper we introduce the project SCRIBO (Semi-automatic and Collaborative Retrieval of Information Based on Ontologies) and we describe how we have leveraged the UIMA framework in order to integrate existing tools in a general architecture. The paper focuses
on how we have bridged the Java and .Net platforms (using the Mono framework), describing the problems and an effective solution to make UIMA interoperability possible.
Dans cette présentation nous introduisons le projet SCRIBO (Semi-automatic and Collaborative Retrieval of Information Based on Ontologies) et nous décrivons comment nous avons adapté le framework UIMA dans le but d’intégrer des outils existant. La présentation se concentre sur comment nous avons interfacé les plateformes Java et .Net (à l’aide du framework Mono), en décrivant les problèmes et les solutions efficaces pour rendre l’intéropérabilité possible avec UIMA.
Regular polysemy in WordNet (full paper)
GSCL, Lexical-Semantic and Ontological Resources, 2008
The importance of describing regular polysemy in a lexicon has often been outlined, especially in the field of natural language processing (for a good overview of this issue, see (Ravin and Leacock, 2000)). Unfortunately, no existing broad-coverage semantic lexicon has been built following this relatively recent advice. And since producing a broad coverage semantic lexicon is a very time-consuming task, one has to put this idea into practice on existing lexicons. WordNet is an appropriate lexical semantic resource for running this experiment as it is machine readable and has a wide coverage (Fellbaum, 1998). In this paper, we introduce a method to create regular polysemy patterns from WordNet data and to automatically detect their occurrences in the lexicon.
Regular Polysemy in WordNet
Konvens 2008 (Berlin) 9th Conference on NLP
This paper presents an analysis and modeling of polysemy in the WordNet English lexical database. It exploits the concepts hierarchy (constituted by synsets), and the gloss defining each of these concepts. The result consists of rules set which enabled us to identify in a largely automated way, with a precision close to 91%, more than 2100 synsets pairs, connected by a regular polysemy relation. Our method also allows a partial word sense disambiguation of the definition associated with these synsets.
La polysémie régulière dans WordNet
TALN 2008, Avignon
Cette étude propose une analyse et une modélisation des relations de polysémie dans le lexique électronique anglais WordNet. Elle exploite pour cela la hiérarchie des concepts (représentés par des synsets), et la définition associée à chacun de ces concepts. Le résultat est constitué d'un ensemble de règles qui nous ont permis d'identifier d’une façon largement automatisée, avec une précision voisine de 91%, plus de 2100 paires de synsets liés par une relation de polysémie régulière. Notre méthode permet aussi une désambiguïsation lexicale partielle des mots de la définition associée à ces synsets.
ANTELOPE - Une plateforme industrielle de traitement linguistique
Revue TAL 49.2 (2008)
La plate-forme de traitement linguistique Antelope, en partie basée sur la Théorie Sens-Texte (TST), permet l’analyse syntaxique et sémantique de textes sur des corpus de volume important. Antelope intègre plusieurs composants préexistants (pour l’analyse syntaxique) ainsi que des données linguistiques à large couverture provenant de différentes sources. Un effort d’intégration permet néanmoins d’offrir une plate-forme homogène. Notre contribution directe concerne l’ajout de composants d’analyse sémantique et la formalisation d’un modèle linguistique unifié. Cet article présente la plate-forme et la compare à d’autres projets de référence. Il propose un retour d’expérience d’un éditeur de logiciel vers la communauté du TAL, en soulignant les précautions architecturales à prendre pour qu’un tel ensemble complexe reste maintenable.
The Antelope linguistic platform, inspired by Meaning-Text Theory, targets the syntactic and semantic analysis of texts, and can handle large corpora. Antelope integrates several pre-existing (parsing) components as well as broad-coverage linguistic data originating from various sources. Efforts towards integration of all components nonetheless make for a homogeneous platform. Our direct contribution deals with components for semantic analysis, and the formalization of a unified text analysis model. This paper introduces the platform and compares it with state-of-the-art projects. It offers to the NLP community a feedback from a software company, by underlining the architectural measures that should be taken to ensure that such complex software remains maintainable.
A knowledge-based system for headline sentiment tagging
SemEval-2007 (ACL Workshop, Prague) 24/06/2007

For the Affective Text task at SemEval-2007, University Paris 7’s system first evaluates emotion and valence on all words of a news headline (using enriched versions of SentiWordNet and a subset of WordNet-Affect). We use a parser to find the head word, considering that it has a major importance. We also detect contrasts (between positive and negative words) that shift valence. Our knowledge-based system achieves high accuracy on emotion and valence annotation. These results show that working with linguistic techniques and a broad-coverage lexicon is a viable approach to sentiment analysis of headlines.
Pour traiter la tâche « Affective Text » de SemEval-2007, notre système évalue d'abord les émotions et la valence (positive ou négative) portées par chaque mot d'un titre de new. Nous utilisons un analyseur syntaxique pour trouver le mot principal du titre, en faisant l’hypothèse qu'il joue un rôle majeur ; nous détectons aussi des contrastes (entre mots positifs et négatifs) qui font basculer la valence. Au final, notre système détecte avec une grande précision la valence du titre. Ces résultats montrent que l’utilisation simultanée de techniques linguistiques et de lexiques à large couverture est une approche viable pour l'analyse de sentiments sur des titres de news.
Résolution d’anaphores dans une encyclopédie en langue anglaise : conception, implémentation et évaluation des performances
Journée ATALA sur les anaphores (Paris) 16/06/2007
La résolution d’anaphores est un problème ouvert en TAL. Sa complexité provient du fait qu’elle nécessite des connaissances de plusieurs niveaux, ainsi qu’une « compréhension » du contexte. Dans le cadre d’un projet d’extraction de connaissances encyclopédiques, nous avons mis en oeuvre un système complet de résolution d’anaphores et d’identification de chaînes de coréférence. Nous utilisons simultanément des techniques classiques, pauvres en connaissances, et des outils linguistiques évolués (analyse syntaxique en profondeur et lexique sémantique). L’ensemble offre des performances prometteuses dans le cadre d’articles encyclopédiques ; l’ajout prochain d’une heuristique statistique supplémentaire, basée sur la disponibilité récente d’une ressource de large couverture, devrait permettre de les améliorer encore.
Anaphora resolution is an open problem in NLP. Its complexity stems from the fact that it requires several levels of knowledge, and "understanding" of the context. As part of an encyclopedia mining project, we implemented a comprehensive anaphora resolution system and identification of coreference chains. We simultaneously use conventional (poor knowledge) techniques, and advanced NLP tools (parsing and semantic lexicon). This offers promising performance in encyclopedic articles; the upcoming addition of additional statistical heuristics, based on the recent availability of broad coverage resource, should allow further improvements.
Extraction de paraphrases désambiguïsées à partir d’un corpus d’articles encyclopédiques alignés automatiquement
Récital 2007 (TALN 2007, Toulouse) - Prix de la meilleure communication
Nous décrivons ici comment enrichir automatiquement WordNet en y important des articles encyclopédiques. Ce processus permet de créer des nouvelles entrées, en les rattachant au bon hyperonyme. Par ailleurs, les entrées préexistantes de WordNet peuvent être enrichies de descriptions complémentaires. La répétition de ce processus sur plusieurs encyclopédies permet de constituer un corpus d’articles comparables. On peut ensuite extraire automatiquement des paraphrases à partir des couples d’articles ainsi créés. Grâce à l’application d’une mesure de similarité, utilisant la hiérarchie de verbes de WordNet, les constituants de ces paraphrases peuvent être désambiguïsés.
We describe here how to automatically import encyclopedic articles into WordNet. This process makes it possible to create new entries, attached to their appropriate hypernym. In addition, the preexisting entries of WordNet can get enriched with complementary descriptions. Reiterating this process on several encyclopedias makes it possible to constitute a corpus of comparable articles; we can then automatically extract paraphrases from the couples of articles that have been created. The paraphrases components can finally be disambiguated, by means of a similarity measure (using the verbs WordNet hierarchy).
WordNet et son écosystème : un ensemble de ressources linguistiques de large couverture
Colloque BD lexicales (Univ. Montréal) 23/04/2007
Vous connaissez tous WordNet, mais en connaissez-vous tout ? Nous vous proposons ici, d’une part de redécouvrir WordNet (notamment en présentant les spécificités des versions les plus récentes) et d’autre part de découvrir d’autres ressources (lexicales, syntaxiques et sémantiques) qui s’y rattachent. Nous présentons également des techniques d’enrichissement automatique de WordNet, et des applications de TALN l’utilisant.
Everybody knows WordNet, but do you know everything inside it? We propose here to rediscover WordNet (especially with the latest versions) and other linked (lexical, syntactic and semantic) resources. We also present techniques for automatically extend WordNet, and NLP applications using it.
Construction automatique d’une interface syntaxe / sémantique utilisant des ressources de large couverture en langue anglaise
Récital 2006 (TALN 2006, Leuven)
Nous décrivons ici une approche pour passer d’une représentation syntaxique (issue d’une analyse grammaticale) à une représentation sémantique (sous forme de prédicats). Nous montrons ensuite que la construction de cette interface est automatisable. Nous nous appuyons sur l’interopérabilité de plusieurs ressources couvrant des aspects d’ordre syntaxique (Link Grammar Parser), lexical (WordNet) et syntaxico-sémantique (VerbNet) de la langue anglaise. L’utilisation conjointe de ces ressources de large couverture permet d’obtenir une désambiguïsation syntaxique et lexicale au moins partielle.
We describe here a manner to transform a syntactic structure (generated by a syntactic parser of English) into a semantic form (in the form of predicates). We then show that the construction of such an interface can be automated. Our approach is based on the interoperability between several resources, covering syntactical (Link Grammar Parser), lexical (WordNet) and semantic (VerbNet) aspects of English. The joint use of these broad-coverage resources leads to a lexical and syntactical disambiguation (at least partially).
Recherche de chemins optimaux dans les graphes
Revue Pascalissime n°50 pp. 64 à 93 (1991)
Cet article présente les algorithmes de recherche des chemins de "coût" minimal dans un graphe (Dijkstra, Bellman, Faure-Bellman). Une implémentation met en oeuvre ces algorithmes, en proposant notamment une représentation machine compacte des graphes en mémoire.
This paper presents some shortest-path algorithms (Dijkstra, Bellman, Faure-Bellman), with an efficient implementation, including a compact graph representation in memory.