Fouille de texte

Responsable : Salah Ait-Mokhtar (Xerox Research Center Europe)

Programme détaillé

  1. Les différents niveaux d’analyse en traitement automatique des langues (TAL): la segmentation en mots, l’analyse morphologique, l’étiquetage morphosyntaxique, l’analyse syntaxique et les traitements sémantiques (reconnaissance d’entités nommées, coréférence, relations sémantiques).
  2. Applications industrielles faisant appel à ces traitements: l’extraction d’information, la fouille/analyse d’opinions, le résumé automatique, les mémoires de traduction, etc. + démonstration.
  3. Techniques et méthodes utilisées dans les différents niveaux d’analyse: les machines à états finis pour la segmentation et l’analyse morphologique, les modèles de Markov cachés pour l’étiquetage morphosyntaxique, etc.

Un TP d’implémentation d’un composant TAL est prévu.

Pré-requis

Algorithmique et structures de données, programmation en Java, maitrise d’un EDI (Netbeans ou Eclipse)

Ce contenu a été publié dans Master Double Compétence Informatique et Sciences Sociales, Master Web, Informatique et Connaissance, UE, avec comme mot(s)-clé(s) , , , . Vous pouvez le mettre en favoris avec ce permalien.