Ouvrons les archives des journaux

Quelle est la couverture que les journaux donnent à tel ou tel évènement? Un outil 'made in OWNI' vous permet de répondre à ces questions.

par Nicolas Kayser-Bril Le 21 juin 2011

2 Réactions
facebook share mail email A+ A-

À propos de l'auteur

En charge du pôle datajournalisme chez OWNI, je travaille avec les designers, les developpeurs et les journalistes pour produire des applications de journalisme augmenté de données et de code, mettre en place des actions de crowdsourcing et des serious games.


Sur le même sujet

Quelle est la couverture que les journaux donnent à tel ou tel évènement ? Existe-t-il des règles quant à la quantité de couverture donnée à un lieu ou une personne ?

En 2008, j’avais fait l’expérience en montrant ‘le monde dans les yeux d’un rédac chef’, en comptant le nombre de fois où un pays était mentionné dans la presse. Résultat : Plus un pays est riche et plus il est peuplé, plus les médias en parlent. Rien de très surprenant, si ce n’est les exceptions à la règle (surreprésentation de l’Espagne et de l’Italie, sous-représentation du Japon et de l’Allemagne).

Pour rendre ce genre de recherche accessible à tous, j’ai codé un programme, dans le cadre d’un projet OWNI, permettant d’extraire le nombre d’occurrences d’un mot dans 3 médias (Libération, Le Monde et Le Figaro) en fonction de la date.

Il permet par exemple de vérifier si Le Monde s’est plié à la volonté du gouvernement, votée par le parlement en 2010, de parler de ‘vidéoprotection’ et non plus de ‘vidéosurveillance’.

Conclusion: Le Monde privilégie toujours la vidéosurveillance mais la propagande gouvernementale s’est introduite dans la quotidien de référence en force. Il faudrait maintenant vérifier si la dizaine d’article repérée ne parle pas uniquement du débat autour de la loi en question.

L’outil n’est pas en ligne à ce jour. Même si les conditions d’utilisation des médias en question n’interdisent pas d’aller fouiller programmatiquement dans leurs archives, le programme envoie de nombreuses requêtes au serveur. Malgré les garde-fous insérés dans le code, si de nombreux internautes l’utilisent en même temps, les serveurs seront inondés de requêtes, comme lors d’une attaque par déni de service en règle.

Pour l’utiliser, il faut avoir un serveur PHP. Si vous ne disposez pas d’un site avec hébergement, vous pouvez l’installer sur votre machine en installant WAMP server.

Un export CSV des résultats est possible, il faut ensuite copier/coller le texte dans votre logiciel tableur puis convertir les résultats

Le code est largement améliorable, n’hésitez pas à contribuer et à ajouter des médias à scraper !

Téléchargez le code sur GitHub.

Suivez nous sur Twitter