Ce site est le support du projet BAO effectué dans le cours
"Programmation & Projet Encadré 2" dans le cadre du master
Plurital. Il s'agit de mettre en oeuvre une chaîne de traitement
textuel automatique, depuis la récupération des données jusqu'à
leur présentation. Notre corpus de travail est constitué de fils
RSS du journal Le Monde
de l'année 2019 au format
xml
. Les différentes rubriques sont
à la une
, international
,
culture
etc. et ont chacune un identifiant, ce qui
permet d'identifier aisément les différents fichiers de flux
RSS.
Découvrez ci-dessous les grandes étapes du traitement sous forme
de boite à outils.
Boîte à outils 1 : extraction de contenu textuel. Le but
est d'arriver à parcourir l'arborescence pour extraire les
données textuelles qui nous intéressent.
Boîte à outils 2 :
étiquetage. Une fois les données textuelles obtenues, il faut
les étiquetter (forme, POS, lemme) pour pouvoir les traiter de
manière syntaxique.
Boîte à outils 3 : extraction de patrons
syntaxiques. Grâce à l'étiquetage réalisé à l'étape précédente,
on va pouvoir extraire des schémas pertinents pour trouver la
terminologie spécifique à une rubrique.
Boîte à outils 3bis :
représentation graphique. La dernière étape consiste à
représenter de manière plus visuelle les résultats obtenus grâce
à la BàO3.