Collaborateurs | Florence Le Cam (ULB), Manon Libert (UMons), Alexia Vidalenche (ULB), Brecht Deseure (ULB / KBR), Sébastien de Valeriola |
Ce projet s’inscrit dans le cadre des activités du Centre d’archives sur les médias et l’information (CAMIlle), qui se consacre à l’étude de l’histoire du journalisme en Belgique.
Son objectif global du projet est d’exploiter une très importante collection de journaux belges des 19e et 20e siècles numérisés par la KBR. Le corpus est constitué des éditions quotidiennes de douze journaux, soit un total de 1 391 802 pages.
Différentes pistes de recherche sont explorées.
L’une d’entre elles est consacrée à la figure d’Alice Bron (1850-1904), journaliste belge, socialiste et féministe. Il s’agit de reconstituer et de désinvisibiliser son parcours médiatique, à partir des mentions de son nom (ou d’un de ses pseudonymes, etc.) dans le corpus de presse.
Les résultats ont été compilés dans un article intitulé « Retracer (massivement) et analyser une carrière médiatique. Désinvisibiliser Alice Bron, journaliste, socialiste et féministe belge (1850-1904) » et publié dans Le Temps des médias.
Dans un autre volet du projet, en cours de réalisation, nous tentons de reconstituer les salles de rédaction des principaux journaux francophones de Belgique.
Pour ce faire, nous récupérons les signatures des articles de presse qui apparaissent dans le corpus. Cette tâche n’est pas aisée, notamment en raison de la mauvaise qualité des sources textuelles utilisées, qui sont le résultat d’une procédure d’OCR appliquée à des scans de pages de journaux, eux-mêmes de mauvaise qualité. Par conséquent, de nombreux noms propres apparaissent avec des erreurs d’un ou plusieurs caractères.
D’autres problèmes se posent, comme la segmentation des articles à l’intérieur des pages du journal, ce qui rend la manipulation du contenu du journal beaucoup plus complexe.
Des modèles d’apprentissage automatique ont été formés dans le but de catégoriser automatiquement les lignes de texte en « signature » et « non-signature ».
Une fois les signatures extraites des pages, nous prévoyons d’utiliser la boîte à outils de l’analyse des réseaux pour étudier l’évolution des salles de rédaction.