La BàO4 établira une méthode nous permettant d'extraire des patrons morphosyntaxiques. Par exemple, nous voulons pouvoir extraire tous les syntagmes qui respectent le patron : Nom + Adjectif. Nous présentons ici plusieurs méthodes pour procéder avec différents fromats. La première utilisera le langage Python sur le fichier talismane.txt, la seconde utilisera le langage Xquery sur les fichiers XML. Et la troisième utilisera une feuille de style XSLT sur les fichiers XML.
Ce programme Python prend en entrée : 1. le nom du fichier de
sortie Talismane issu de BAO2, 2. le patron cible Le programme.
construit en sortie : 1. un fichier texte brut avec des formes
classees et triees
Si l'on veut extraire des patrons morphosyntaxiques sur les titres uniquement puis sur les descriptions uniquement, la méthode appliquée sur ces deux entrées suivantes sera différente.
Pour l'entrée Treetagger, il s'agit tout simplement de chercher les balises
Entrée | Méthode_XSLT | Méthode_XQuery |
---|---|---|
treetagger.xml | bao3_tt.xsl | bao3_tt.xq |
talismane.txt.xml | bao3_talis.xsl | bao3_talis.xq |
Nous vous présentons l'affichage du résultat d'extraction au format HTML avec l'application de feuille de style XSLT. Ce qui peut rendre les patrons plus visuels.
Vous verrez égalament des sorties de patron dans le tableau ci-dessous. La sortie non triée servira à la génération des graphes dans la BàO suivante.
Sortie | Nom_Adj | Verb_Det_Nom | TOUT(4p) |
---|---|---|---|
Triée et Comptée | 3208/3210/3476 | 3208/3210/3476 | 3208/3210/3476 |
Non Triée | 3208/3210/3476 | 3208/3210/3476 | 3208/3210/3476 |