Quelle est la couverture que les journaux donnent à tel ou tel évènement? Un outil 'made in OWNI' vous permet de répondre à ces questions.
En charge du pôle datajournalisme chez OWNI, je travaille avec les designers, les developpeurs et les journalistes pour produire des applications de journalisme augmenté de données et de code, mettre en place des actions de crowdsourcing et des serious games.
Quelle est la couverture que les journaux donnent à tel ou tel évènement ? Existe-t-il des règles quant à la quantité de couverture donnée à un lieu ou une personne ?
En 2008, j’avais fait l’expérience en montrant ‘le monde dans les yeux d’un rédac chef’, en comptant le nombre de fois où un pays était mentionné dans la presse. Résultat : Plus un pays est riche et plus il est peuplé, plus les médias en parlent. Rien de très surprenant, si ce n’est les exceptions à la règle (surreprésentation de l’Espagne et de l’Italie, sous-représentation du Japon et de l’Allemagne).
Pour rendre ce genre de recherche accessible à tous, j’ai codé un programme, dans le cadre d’un projet OWNI, permettant d’extraire le nombre d’occurrences d’un mot dans 3 médias (Libération, Le Monde et Le Figaro) en fonction de la date.
Il permet par exemple de vérifier si Le Monde s’est plié à la volonté du gouvernement, votée par le parlement en 2010, de parler de ‘vidéoprotection’ et non plus de ‘vidéosurveillance’.
Conclusion: Le Monde privilégie toujours la vidéosurveillance mais la propagande gouvernementale s’est introduite dans la quotidien de référence en force. Il faudrait maintenant vérifier si la dizaine d’article repérée ne parle pas uniquement du débat autour de la loi en question.
L’outil n’est pas en ligne à ce jour. Même si les conditions d’utilisation des médias en question n’interdisent pas d’aller fouiller programmatiquement dans leurs archives, le programme envoie de nombreuses requêtes au serveur. Malgré les garde-fous insérés dans le code, si de nombreux internautes l’utilisent en même temps, les serveurs seront inondés de requêtes, comme lors d’une attaque par déni de service en règle.
Pour l’utiliser, il faut avoir un serveur PHP. Si vous ne disposez pas d’un site avec hébergement, vous pouvez l’installer sur votre machine en installant WAMP server.
Un export CSV des résultats est possible, il faut ensuite copier/coller le texte dans votre logiciel tableur puis convertir les résultats
Le code est largement améliorable, n’hésitez pas à contribuer et à ajouter des médias à scraper !
Téléchargez le code sur GitHub.
Suivez nous sur Twitter
Excellent ! Le plus drôle c’est que je suis en train de faire exactement la même chose : compter le nbre d’occurences de certains mots dans ces même média (bon, le Figaro j’ai pas encore fait, j’ai pas trouvé/cherché la syntaxe de la requête pour faire une requête sur un mois entier)
nkb: génial! partageons le code!
(reponse) Pas de pb pour partager le code et les données. Envoyez moi un mail perso que je vous envoie ça.
Je voulais voir comment évolue le champ lexical des médias en fonction des élections. Pour finir rien de flagrant, mais plus intéressant, la corrélation de certains termes pourtant pas forcément en rapport, si ce n’est d’être anxiogènes.
Le code c’est à grand coup Bash, de wget et de gawk, ça tourne sur Linux ou avec Cygwin sur Windows