Algorithmes contre le baratin : “C’est aussi une démarche citoyenne”


Pinocchio CC BY-NC-ND Bryan Murphy
Pinocchio CC BY-NC-ND Bryan Murphy

A partir de janvier 2016, deux équipes lyonnaises travailleront avec Le Monde.fr à une suite d’outils anti-bobards pour faciliter le travail des journalistes.

Info ou intox ? Chaque jour, nous avons en moyenne près de 45 contacts avec des médias (réseaux sociaux, télévision, journaux en ligne, radio…). Nous sommes exposés à de telles quantités d’information que le mot-valise “infobésité” a été inventé pour désigner une consommation qui serait excessive (au risque de ne plus avoir le temps de réfléchir) ou de mauvaise qualité (les “bonnes” informations sont perdues au milieu des informations approximatives ou fausses).

Le travail des journalistes consiste justement à trier, vérifier et mettre en perspective ces chiffres et déclarations qui nous engloutissent. Beaucoup de journaux ont désormais des équipes consacrées au fact-checking, ou vérification de déclarations. Elles confrontent les rumeurs qui circulent ou les discours des politiques aux faits : info, intox ou approximation ? Au journal Le Monde, ce sont les Décodeurs qui s’en chargent.

Comment aider ces journalistes à travailler mieux, plus confortablement et plus efficacement ? Sylvie Cazalens et Philippe Lamarre sont chercheurs en informatique au LIRIS (UMR CNRS 5205 : Université Claude Bernard Lyon 1 / INSA de Lyon  / CNRS / Université Lumière Lyon 2 / École Centrale de Lyon).

A partir de janvier 2016, ils participent au projet ContentCheck : avec une autre équipe lyonnaise et trois centres de recherche en France, ils travailleront main dans la main avec les Décodeurs du journal Le Monde.fr. Objectif : lancer des algorithmes à la chasse aux bobards, en combinant gestion de données et de connaissances, traitement du langage naturel, raisonnement et fouille de données.

En quoi consiste le projet ContentCheck ?

Philippe Lamarre (PL) : C’est un projet financé pour quatre ans par l’Agence Nationale de la Recherche. On démarre en janvier 2016, et  à Lyon il y a deux équipes du LIRIS impliquées : notre équipe Bases de Données, et l’équipe DM2L qui est spécialisée en data mining.

Le data mining

PL : L’objectif est de permettre aux journalistes de confronter plus facilement une affirmation aux faits, c’est-à-dire aux données brutes disponibles. Ils le font déjà tous les jours de manière artisanale, en croisant leurs sources. Nous proposons de leur apporter une suite d’outils qui rassemble le plus grand nombre possible de sources de données et qui permette de les exploiter, pour offrir différentes mises en perspectives de l’affirmation à examiner. Nous allons aussi modéliser la manière dont ces journalistes et leurs informaticiens travaillent, pour en garder une mémoire qui soit exploitable. Nous aimerions par exemple pouvoir proposer des recommandations sur la démarche à adopter par le journaliste en se basant sur la manière dont des études d’affirmations similaires ont été menées.

L’outil ne remplacera pas le journaliste, mais il lui permettra de gagner en efficacité.

Sylvie Cazalens (SC) : Ce serait aussi intéressant de pouvoir revenir sur une vérification ancienne : reprendre le travail fait il y a six mois ou un an pour le regarder à la lumière des nouvelles données disponibles. C’est vraiment la mise en perspective d’une affirmation qui nous intéresse, le fait de la regarder dans son contexte, et des contextes proches, par exemple sur une période ou des entités géographiquement différentes. On vise au delà de l’évaluation « vrai ou faux ». En effet, on sait déjà évaluer la véracité de certains faits en utilisant des bases de connaissances. On peut par exemple utiliser la base de connaissances DBpedia, extraite de Wikipedia. Dans cet esprit, Google utilise sa propre base de connaissances (Google Knowledge Graph, dont l’évolution prévue est Knowledge Vault) pour répondre à des questions factuelles du type « Obama est-il le président des Etats-Unis d’Amérique ? »

Le machine learning

Quelle est votre motivation principale dans ce projet : la difficulté technique ou l’objectif ?

SC : C’est d’abord l’objectif, car il s’inscrit parfaitement dans une démarche citoyenne ! Les problèmes scientifiques soulevés sont aussi très intéressants, ce qui ne gâche rien.

PL : Doter les journalistes de moyens avancés d’analyse des données et des affirmations, c’est aussi un moyen de lutter contre l’écart qui se creuse entre les organismes qui disposent des moyens d’analyse des données (Big Data) et le grand public ou les contre-pouvoirs traditionnels.

Vous allez travailler avec trois autres centres de recherche : comment le projet s’est-il monté ?

PL : Ioana Manolescu, qui est directrice de recherche à l’INRIA de Saclay, travaille depuis 2012 sur le fact-checking. Nous l’avions invitée à nous présenter son travail au LIRIS lors d’un séminaire. Quand nous avons décidé de nous lancer sur cette thématique, nous l’avons naturellement contactée. C’est d’ailleurs elle qui coordonnera le projet auquel participent le LIRIS (INSA et Université Claude Bernard Lyon 1) à Lyon, l’ IRISA (Université de Rennes-1), le LIMSI (Université de Paris-Sud), l’INRIA-Saclay et les Décodeurs du journal LeMonde.fr.

SC : Nous ne sommes pas spécialistes du langage naturel (c’est-à-dire le langage humain). C’est le LIMSI (Xavier Tannier) qui va travailler sur cette partie du projet en collaboration avec l’INRIA-Saclay. Et en parallèle de ContentCheck, ils ont obtenu un financement d’un an de Google dans le cadre de la Digital News Initiative pour explorer justement l’analyse du langage naturel. ContentCheck pourra s’appuyer sur ses résultats. Il est plus large et plus scientifique, tandis que le projet soutenu par Google est plus applicatif.

Quelle est la différence entre Web et Internet ? Les deux mots sont utilisés comme des synonymes, mais ils ne le sont pas ! Internet est un réseau par lequel circulent des informations. On utilise ce réseau à travers différents applications : le courrier électronique, la messagerie instantanée, l’échange de fichiers… Le Web est une de ces applications, qui permet de publier et consulter des documents. Le Web est donc une manière parmi d’autres d’utiliser Internet !

Quelles sont les étapes prévues ?

PLTout au long du projet, nous allons travailler avec les journalistes et il nous faudra nous imprégner de leurs usages des données et leurs procédures. C’est en identifiant leurs besoins que nous pourrons dans un premier temps modéliser leurs pratiques et celles de leurs informaticiens.

SC : Une première étape consistera à catégoriser les problématiques liées à la vérification des affirmations. Par exemple, il faudra caractériser les sources pour pouvoir les relier à des affirmations. Cela peut se faire en utilisant des méta-données que l’on normalisera grâce à l’usage d’ontologies.

Le choix des sources à interroger est au cœur du travail de journaliste : comment peut-on automatiser ce choix ?

PLOn ne peut pas ! Même si dans certains cas, une source unique suffit et peut être identifiée facilement. Les données brutes sont des masses énormes, très difficiles à fouiller pour en ressortir une information qui fasse sens : c’est là qu’on intervient. Mais si l’information n’existe pas ou est incomplète, on ne va pas l’inventer. L’outil ne remplacera pas le journaliste, il lui permettra juste de gagner en efficacité.

SC : Le rêve de Ioana Manolescu serait que, si on regarde un discours politique à la télévision, les informations issues d’une source de confiance comme l’INSEE s’affichent en temps réel en bas de l’écran… On en est encore loin !

En France, les données disponibles ne sont pas toujours très pertinentes et exploitables

 

Les données disponibles sont-elles suffisamment de bonne qualité ?

PL La qualité des données est une problématique en soi pour laquelle nous utiliserons des outils existants. Nous dépendons effectivement des sources existantes. L’Open Data fournit de plus plus de données. L’accès à ces sources ou à d’autres, ainsi que l’évaluation de la confiance que l’on peut leur accorder relève de la compétence des journalistes.

SC : Même si les progrès sont remarquables, je trouve pour ma part qu’en France les données disponibles ne sont pas toujours très pertinentes et exploitables, car rendre les données publiques récupérables par tous est une notion assez récente. Mais je faisais déjà il y a huit ou dix ans des cours où l’on arrivait à récupérer des données européennes sur les polluants par exemple. Quelle que soit la « qualité » des données, il y a toujours une étape qu’on appelle le travail d’intégration : nettoyer les données et les harmoniser pour pouvoir les traiter. Dans certains cas on peut automatiser ce processus (par exemple si on sait que le code TLS signifie Toulouse), d’autres fois on fait appel à des spécialistes pour nous accompagner dans l’intégration afin de ne pas faire d’erreurs d’interprétation.

C’est donc pour vous aussi un travail assez artisanal finalement ?

SC : D’une certaine manière oui, et cela ne date pas d’hier ! Ce travail d’extraction et la nécessité de nettoyer les données n’est pas apparu avec l’open data. Pour ce projet, comme nous travaillerons à plusieurs équipes, nous allons devoir commencer par mettre au point un modèle de données commun, et résoudre un certain nombre de questions comme les problèmes de stockage, d’accès à l’information…

Chris Anderson affirme que nous vivons la fin de la théorie scientifique : plus besoin de construire des modèles, il suffirait de récolter de données suffisamment nombreuses et variées, et de regarder ce qu’il en ressort. On éviterait ainsi les biais produits par l’esprit humain… Qu’en pensez-vous ?

SC : Dans la mesure où les données elles-mêmes sont construites, je ne vois pas comment elles échapperaient aux biais ! Le problème de l’interprétation n’est pas réglé par la masse de données, au contraire. On le voit avec un autre projet auquel participe notre équipe, PetaSky qui cherche à offrir aux astrophysiciens des outils pour interroger les quantités colossales de données qui leur viennent de l’exploration spatiale. Pour l’instant, cela reste très difficile ! Même si c’est vrai que de nouvelles données peuvent conduire à réviser une théorie, on ne peut pas mettre les deux sur le même plan.

PL : Les données donnent une vision du passé, tandis que les hypothèses s’adressent à l’avenir : je ne vois pas comment les éléments de rupture peuvent venir du passé ! Ce serait comme si l’astronomie du XIXe siècle avait pu fournir les données qui permettent de mettre au point la physique quantique. Ça parait improbable.  C’est une vision de l’humain un peu machiniste et une croyance en l’avenir qu’il est difficile de réfuter ou de confirmer scientifiquement !

Pour aller plus loin
Le LIRIS (Laboratoire d’InfoRmatique en Image et Systèmes d’information), regroupant 320 membres, est une unité mixte de recherche (UMR 5205) dont les tutelles sont le CNRS, l’INSA de Lyon, l’Université Claude Bernard Lyon 1, l’Université Lumière Lyon 2 et l’Ecole Centrale de Lyon.   Le champ scientifique de l’unité est l’Informatique et plus généralement les Sciences et Technologies de l’Information.  Les activités scientifiques de ses 12 équipes de recherche sont structurées en 6 pôles de compétences, de 15 à 30 permanents, reconnues au niveau international : Vision intelligente et reconnaissance visuelle ; Géométrie et modélisation ; Data science ; Services, systèmes distribués et sécurité ; Simulation, virtualité et sciences computationnelles ; Interactions et cognition.

 Illustration : Pinocchio CC BY-NC-ND  Bryan Murphy


Un contenu proposé par

Cléo Schweyer

dans le cadre de



Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *