dbnary: une ressource lexicale pour le web des données

Le projet dbnary vise à extraire des données lexicales structurées en rdf, à partir des différentes éditions de wiktionnaires (www.wiktionary.org). Ces données sont disponibles pour la communauté à http://kaiko.getalp.org/dbnary/.

L’une des difficultés de l’extraction de ces données est le caractère non homogène et parfois erroné des données wiktionary originales. De plus, parfois, l’extracteur ne produit pas une structure fidèle à la donnée originale.

Le but de ce projet de master est de définir et implémenter une interface de validation des données extraites. L’interface doit permettre la comparaison entre les pages originales et les données extraites et contenir des fonctionnalités permettant l’évaluation a posteriori de la qualité des données extraites.

Les données sont en rdf, les données originales sont soit du code mediawiki, soit du html. Le projet se fera en java.

Si vous êtes intéressés, prendre contact avec Gilles Serasset à gilles.serasset@imag.fr pour de plus amples informations.

Ce contenu a été publié dans Master Web, Informatique et Connaissance, Projet M1 WIC. Vous pouvez le mettre en favoris avec ce permalien.