Les 3 tableaux présentés ci-dessous récapitulent les résultats en 3 langues (anglais, français, chinois) obtenus à partir des fichiers d’URL.
Les colonnes sont les suivantes :
Numéro de ligne
- URL
(lien initial)
Code http
(code retour de la commande curl pour vérifier si la page est bien ouverte)
encodage
(encodage de la page aspirée, comme nous avons converti tous les encodage en utf-8, nous n’affichons ici que l’encodage initial)
Pages aspirées
(lien vers la page associée à l’URL visée et aspirée via curl) - Dump
(le DUMP de la page en UTF-8 obtenu soit directement soit par conversion)
Contexte txt
(extraction des contextes) - Contexte html
(extraction des contextes au format HTML via le programme minigrep en perl)
Index
(un fichier “dictionnaire” du DUMP i.e tous les mots du fichier DUMP associés à leur fréquence)
Bitexte
(bigrammes avec leurs fréquences) - Fq motif
(la fréquence de notre terme ciblé dans chaque page).