Interview Thomas Perrais

Pouvez-vous nous présenter votre rôle et vos principales missions au sein de Proxem ?

Je m’appelle Thomas Perrais et je suis Text Scientist au sein du département de recherche et développement de Proxem. Je m’occupe principalement de développer et d’intégrer des algorithmes de Machine Learning au sein de notre solution afin de faciliter l’acquisition de connaissances sur de nouveaux domaines.

Pourquoi on a besoin de ses librairies en traitement du langage ?

Chez Proxem, nous réalisons nos projets avec une approche hybride mêlant algorithmes d’intelligence artificielle et règles sémantiques fines. Nous utilisons les dernières avancées en traitement du langage naturel (représentations vectorielles de mots et de phrases, réseaux récurrents, modèles d’attention) pour suggérer de nouveaux concepts et guider l’utilisateur dans son exploration des données.

Ces modèles font intervenir des calculs matriciels et des expressions mathématiques complexes que nous avons voulu regrouper dans des bibliothèques optimisées. Le projet est né de ce besoin d’être capable d’ajouter rapidement de nouvelles briques d’intelligence artificielle à notre produit.

Pourquoi avoir développé ces librairies qui sont proches de certaines qui existent en C# et en Python ?

Notre produit est principalement développé en C# et nous avons rapidement fait face à des limitations lorsqu’il s’agissait d’intégrer des modèles de Machine Learning en production. En Python, les bibliothèques comme numpy, tensorflow ou theano ont grandement facilité l’utilisation et le développement de modèles d’apprentissage automatique et ont fédéré une grande communauté d’experts du Machine Learning mais aucun équivalent n’existe pour l’instant dans le monde .Net. Partant de ce constat nous nous sommes inspirés de ces librairies pour développer NumNet et TheaNet en espérant rassembler une communauté de développeurs C# autour du Machine Learning.

Pourquoi avoir rendu ça en Open Source ?

Notre objectif en rendant nos bibliothèques open-source est double : en premier lieu nous souhaitions partager avec la communauté C# le fruit de plusieurs mois de développement et de recherche afin que chacun puisse intégrer facilement des composants de Machine Learning dans ses projets. Avec TheaNet, développer et entraîner un classifieur se fait en quelques lignes de code et nous mettons à disposition de nombreux modèles sur étagère qui n’attendent qu’à être entraînés.

Le deuxième objectif est d’améliorer nos bibliothèques grâce aux retours et aux suggestions des utilisateurs. L’Intelligence Artificielle est un domaine en évolution constante et nous espérons rassembler une communauté de développeurs autour du projet pour le faire évoluer et progresser.

Quelle est la suite de l’Open Source ? Est-ce que Proxem envisage de mettre autre chose en Open Source ?

L’ADN de la société est tourné vers la recherche et nous souhaitons continuer à contribuer par la publication d’articles scientifiques mais aussi en mettant à disposition de tous certains de nos outils. Nous travaillons par exemple sur un projet de plateforme collaborative PCU pour lequel nous allons open-sourcer des API d’analyse d’opinion et de détection de thèmes.

Découvrez toutes nos interviews : ici.