Notre R&D

Depuis 20 ans, Proxem investit massivement dans la R&D en traitement du langage (natural language processing) et en intelligence artificielle (deep learning et machine-learning).

Les solutions de Proxem s'appuient sur une équipe R&D dédiée qui associe le meilleur des approches linguistiques et statistiques au service d'une compréhension fine du langage.

4 Ingénieur-e-s dédié-e-s à la R&D

Une équipe dédiée

Spécialiste des mathématiques et de l’intelligence artificielle, l’équipe R&D travaille sur des technologies à l’état de l’art en traitement du langage : deep learning, word embeddings, active learning.

Des investissements constants

Chaque année, Proxem investit une part importante de ses revenus pour faire bénéficier ses solutions des dernières avancées technologiques de son domaine.

30 % du chiffre d'affaires annuel
5 Projets de R&D

Des projets de partenariats

Proxem a mené plusieurs projets de recherche en association avec des laboratoires et d’autres entreprises du domaine.

Une reconnaissance scientifique

Reconnu par la communuauté scientifique, Proxem publie régulièrement dans des conférences et des revues internationales de recherche.

30 Publications scientifiques

Publications scientifiques

  • 2016

    Des humains dans la machine : la conception d’un algorithme de classification sémantique au prisme du concept d’objectivité

    Un algorithme est le résultat de la formalisation d’une procédure qui, une fois implémentée dans un programme informatique, peut alors être rejouée indéfiniment sans intervention. La matérialité sociotechnique des programmes les inscrit dans des systèmes de contingences, de normes et d’habitudes, qui laissent la capacité d’action humaine au coeur du processus. Ni le caractère mécanique des programmes, ni la cohérence structurale de leurs fondements mathématiques, ne leur permettent de produire de l’objectivité par eux-mêmes. Elle provient de l’expertise de leurs concepteurs qui travaillent, soit par échange direct, soit par le biais d’outils d’évaluation, en interaction avec les utilisateurs bénéficiaires dont l’appréciation valide pragmatiquement les produits des algorithmes. C’est, en somme, le design
    des programmes par succession de choix humains qui fait d’eux des machines à produire des connaissances.

  • 2016

    Trans-gram, Fast Cross-lingual Word-embeddings

    We introduce Trans-gram, a simple and computationally-efficient method to simultaneously learn and align wordembeddings for a variety of languages, using only monolingual data and a smaller set of sentence-aligned data. We use our new method to compute aligned wordembeddings for twenty-one languages using English as a pivot language. We show that some linguistic features are aligned across languages for which we do not have aligned data, even though those properties do not exist in the pivot language. We also achieve state of the art results on standard cross-lingual text classification and word translation tasks.

  • 2015

    Analyse d’opinions de tweets par réseaux de neurones convolutionnel

    La tâche d’analyse d’opinions consiste à détecter la polarité d’un texte (du plus négatif au plus positif). Nous présentons dans cet article un réseau de neurones permettant de trier de manière faiblement supervisée un ensemble de tweets en trois catégories : négatif, neutre ou positif. L’architecture du modèle est celle d’un réseau convolutionnel à trois couches mises en parallèles où chaque couche détecte des caractéristiques différentes. Le réseau est alimenté par des vecteurs-mots appris sur un ensemble de corpus dont la Wikipédia française, sans nécessiter d’informations linguistiques. En comparant cette approche avec un ensemble de techniques classiques alimentées par des sacs de mots, nous obtenons des résultats en moyenne 25% supérieurs en macro-précision.

  • 2015

    Elements for an epistemology of instrumentation and collaboration in Twitter data research

    Twitter has become the most studied online social network in academia, in social sciences as well as in other fields. It is commonly grasped through a collection and analysis of its own data. In this paper, I show through a bibliometric analysisthat scholarly publications on this matter come equally from social and computer sciences, and from natural sciences to a lesser extent. Social scientists rely mostly on classical quantitative methods while computer scientists try to improve algorithmsand techniques. Twitter data can take several epistemic values, from representing nothing to representing real-world social phenomena. Having observed the infrequence of interdisciplinary works, I make a few suggestions based on the history of science for future collaborative projects based on Twitter data.

  • 2015

    L'ambiguïté épistémologique des big data : le cas de la donnée web en sciences sociales

    Le mythe des big data annonce l’avènement de nouvelles connaissances d’ordre quantitatif en sciences sociales. Considérant les big data comme les conséquences de l’informatisation du fait humain, nous explorons l’exemple des données construites à partir du web en montrant qu’elles ne relèvent ni de l’épistémologie des sciences expérimentales, ni du paradigme indiciaire propre aux sciences humaines et sociales. Leur utilisation les inscrit ainsi dans plusieurs statuts épistémologiques possibles (corpus, objet autonome, miroir du réel) dominés par un ancrage disciplinaire en informatique plutôt qu’en sciences sociales. Un flottement et une circulation conceptuelle entre ces différents statuts s’accompagne d’une succession de ruptures épistémiques dans l’exploitation de la donnée, de sa construction à la signification qui lui sera conférée, avec pour conséquence une ambiguïté sur la signification des savoirs nouveaux ainsi produits.

  • 2015

    La structuration disciplinaire et thématique des humanités numériques

    Ce travail se propose d’aborder en largeur la question de la structuration disciplinaire et thématique des humanités numériques. Pour cela, il présente la relation aux technologies numériques d’un certain nombre de disciplines « humanistes » d’un point de vue épistémologique et historique. Je pose ensuite la question de l’interdisciplinarité et notamment du dialogue avec l’informatique, du point de vue des sciences humaines et sociales d’une part, et du point de vue des producteurs de technologies d’autre part. Je propose ensuite de suivre une démarche qui pourrait être caractéristique d’une « épistémologie appliquée » modifiée par le numérique pour étudier la structuration en thématiques et en disciplines de la production scientifique caractéristique des humanités numériques.

Afficher plus

R&D

  • 2008 2010

    SCRIBO

    SCRIBO (Semi-automatic and Collaborative Retrieval of Information Based on Ontologies) a pour objectif la mise au point d’algorithmes et d’outils collaboratifs pour l’extraction de connaissances à partir de textes et d’images et pour l’annotation semi-automatique de documents numériques. Le budget total du projet est de 4.3 Meuros, pour une aide publique de 2 Meuros répartie entre les 9 acteurs du projet : l’AFP, le CEA LIST, l’INRIA, le LRDE (EPITA), Mandriva, Nuxeo, Proxem, Tagmatica et XWiki (coordinateur). Proxem y développe la reconnaissance d’entités nommées et d’événements (en architecture UIMA). SCRIBO est labellisé par System@tic.

  • 2010 2011

    SIRE

    Labellisé par le pôle de compétitivité Cap Digital et soutenu par la région Ile de France dans le cadre du programme FEDER, le projet SIRE (Sémantique, Internet et Recrutement) regroupe Lingway, Proxem et le laboratoire MoDyCo. Il a notamment pour objectif le développement d’outils sémantiques : de construction d’ontologies spécialisées sur l’emploi, de référentiels de compétences et de « matching » (rapprochement automatique) entre l’offre et la demande en matière d’emploi.

  • 2009 2010

    Extended Brain

    Le projet Extended Brain (AAP Web 2.0), labellisé par Cap Digital, est réalisé avec PlasmaSoft et l’ENSCI. Extended Brain est une application grand public de traitement participatif de la documentation numérique. Extended Brain apporte une palette de widgets grâce auxquels chacun prélève rapidement dans le browser ou dans Office des citations, pages, ou fragments de page. Le moteur sémantique développé par Proxem les qualifie en 5 secondes (titre, libellés, « thème » ou « projet ») puis les organise, quels que soient leur source et leurs formats.

  • 2010 2013

    SOLEN

    Le projet SOLEN (Systèmes interOpérables de Lecture Electronique Nomade, programme FUI-AAP9) regroupe au sein d’un consortium plusieurs acteurs français dans le domaine du livre électronique (constructeurs de tablettes, éditeurs, réseaux sociaux…). La contribution de Proxem est l’analyse d’opinion des lecteurs (« J’ai aimé tel livre, tel auteur… ») au sein d’un réseau social, et des recommandations de nouvelles lectures (« Vous avez aimé X ? Vous aimerez Y ! »).

  • 2013 2016

    Tourinflux

    Tourinflux vise à apporter aux acteurs du tourisme (d’abord les institutionnels mais aussi les acteurs privés) un ensemble d’outils leur permettant de gérer à la fois leurs données internes et les informations disponibles sur le web afin de mieux comprendre comment un territoire est perçu et de mieux agir sur cette perception.

Afficher plus

Proxem Studio

Proxem Studio est un logiciel de collecte,
d'analyse et de visualisation des données textuelles pour l'entreprise.

Découvrir le logiciel

Vous avez une question, un besoin ?

Nous sommes à votre écoute

Nous contacter