2015-2016 : un outil pour normaliser et structurer des mails

Il s’agit de travailler sur le traitement de courriels dans différents formats (EML, MBOX, …) en vue de les préparer à l’extraction d’informations à partir du texte.
Les étapes préalables, pour lesquelles nous cherchons (de préférence) un groupe de deux personnes, requièrent de normaliser les mails en les convertissant vers une représentation en XML, puis d’en faire une structuration avec des relations comme réponse, élaboration, correction, complétion, etc.
Il s’agira de concevoir une représentation XML et de développer un outil permettant la normalisation et l’annotation de ces mails.
Vous aurez besoin de Java, XML, HTML et de l’outil de segmentation textuelle SegDoc, que nous vous fournirons.

Contacts : ruslan.kalitvianski@imag.fr, christian.boitet@imag.fr

Ce contenu a été publié dans Projet M1 WIC, Projet M1 WIC 2015-2016. Vous pouvez le mettre en favoris avec ce permalien.