BàO3

- Extraction de patrons morphosyntaxiques

Introduction

La BàO4 établira une méthode nous permettant d'extraire des patrons morphosyntaxiques. Par exemple, nous voulons pouvoir extraire tous les syntagmes qui respectent le patron : Nom + Adjectif. Nous présentons ici plusieurs méthodes pour procéder avec différents fromats. La première utilisera le langage Python sur le fichier talismane.txt, la seconde utilisera le langage Xquery sur les fichiers XML. Et la troisième utilisera une feuille de style XSLT sur les fichiers XML.

Scripts

Ce programme Python prend en entrée : 1. le nom du fichier de sortie Talismane issu de BAO2, 2. le patron cible Le programme.
construit en sortie : 1. un fichier texte brut avec des formes classees et triees

Si l'on veut extraire des patrons morphosyntaxiques sur les titres uniquement puis sur les descriptions uniquement, la méthode appliquée sur ces deux entrées suivantes sera différente.

Pour l'entrée Treetagger, il s'agit tout simplement de chercher les balises et . Alors que pour l'entrée Talismane, il faut tracer le symbole § ajouté dans la BàO2 pour localiser la position de description. Vous trouverez plus de détails dans le tableau ci-dessous.

Entrée Méthode_XSLT Méthode_XQuery
treetagger.xml bao3_tt.xsl bao3_tt.xq
talismane.txt.xml bao3_talis.xsl bao3_talis.xq


Résultats

Nous vous présentons l'affichage du résultat d'extraction au format HTML avec l'application de feuille de style XSLT. Ce qui peut rendre les patrons plus visuels.

Vous verrez égalament des sorties de patron dans le tableau ci-dessous. La sortie non triée servira à la génération des graphes dans la BàO suivante.

Sortie Nom_Adj Verb_Det_Nom TOUT(4p)
Triée et Comptée 3208/3210/3476 3208/3210/3476 3208/3210/3476
Non Triée 3208/3210/3476 3208/3210/3476 3208/3210/3476