1. Choix du terme
La guerre commerciale
est susceptible de causer une récession générale.
Les Etats-Unis semblent considérer que la montée de la Chine menace déjà son hégémonie, alors que la Chine, aspirant à des progrès économiques toujours plus importants, prend la défense de ses propres intérêts.
2. Les hypothèses
Nous avons choisi l’anglais, le chinois et le français. Chaque région linguistique prend sa propre position face à cette guerre.
Sur la toile des pays anglophones, la guerre commerciale serait liée à des notions comme menace.
En Chine cela serait plutôt lié à l’impérialisme.
En France, la conceptualisation de cette guerre serait plus neutre et moins assujettie à des conflits idéologiques.
3. Construction de nos scripts
Nous avons créé nos scripts en langage Bash, ce qui nous a permis :
de télécharger le contenu de nos sites en format .html et .txt
de réaliser d’autres tâches telles que la détermination de l’encodage de chaque site qui n’est pas forcément l’UTF-8
de créer des bigrammes permettant de visualiser les occurrences les plus fréquentes dans chaque texte.
Nous avons, en outre, utilisé le logiciel minigrep qui, en faisant appel à Perl, est capable d’afficher sur le navigateur une visualisation plus intuitive des contextes où un mot apparaît.
Quant au corpus chinois, puisque nous n’avons pas pu le segmenter avec des expressions régulières simples, nous avons eu recours au module JIEBA, spécialisé en segmentation du texte chinois.
Vous verrez notre script Python ici.
Après avoir fini le script bash dont le but est d’afficher toutes les informations dans des tableaux, nous avons trouvé le code quelque peu illisible. Nous avons donc reconstruit notre script en deux fichiers : main_script.sh et funcitons.sh, à savoir ‘refactor the codebase’ en anglais.
Si vous souhaitez consulter les tableaux, consultez la page tableaux de notre site.
4. Analyse textométrique sous iTrameur
Une fois que nous avons obtenu nos dump textes, nous les avons concaténés avec un script bash en rajoutant les balises
Nous nous sommes plongés ensuite dans iTrameur pour interpréter ces dump textes. iTrameur (version en ligne du logiciel Trameur) constitue un outil d’analyse textométrique élaboré par Serge Fleury. Pour que iTrameur puisse reconnaître les mots chinois, nous avons segmenté le corpus chinois à l’aide de JIEBA et spécifié le délimiteur espace
avant l’importation dans iTrameur car les mots chinois ont étés séparés avec l’espace.
Vous trouverez l’analyse en détail sur la page iTrameur.
5. Nuages de mots
Pour générer des nuages de mots, nous avons utilisé l’outil en ligne WordArt. La raison pour laquelle nous avons choisi cet outil réside dans le fait qu’il est possible de choisir des masques de nuages avec la forme souhaitée par l’utilisateur.
Pourtant, pour des raisons de police, certains caractères chinois ne peuvent s’afficher. Nous avons par la suite utilisé les scripts Python suivants pour générer le nuage chinois :
Les trois derniers scripts ont utilisé le module JIEBA WORDCLOUD
Pour voir les nuages de mots générés, cliquez sur la page Nuage de mots.