Quand le cerveau relativise les punitions


Le système récompense/punition CC Mikael Häggström and Andrew Gillies

Pour survivre, il faut (aussi) apprendre. Et pour retenir une leçon, qu’est-ce qui marche le mieux : la récompense ou la punition ? La réponse est inattendue.

Apprendre quelque chose par l’expérience, c’est garder en mémoire qu’une certaine action entraîne un certain résultat. Si je sais peler une banane, je me régale ; si j’achète un ticket de bus, j’évite de prendre une amende. Laquelle de ces deux situations d’apprentissage est la plus efficace : être récompensé ou ne pas être puni ? Étrangement, les deux se valent.

Quand on y réfléchit formellement, c’est étonnant que l’apprentissage par la punition soit aussi efficace que l’apprentissage par la récompense”, relève Stefano Palminteri, chercheur au Groupe d’analyse et de théorie économique Lyon Saint-Étienne (GATE, CNRS/Université Lumière Lyon 2/Université Jean Monnet St-Etienne/Université Claude Bernard Lyon 1/ENS-Lyon). “Dans le cas de la récompense, le résultat a une valeur positive. Dans le cas de la punition, le résultat a une valeur nulle si on l’évite, négatif si on est puni. L’association entre “faire le bon choix” et “obtenir un résultat agréable” n’est pas directe. Comment expliquer que l’on retienne ce choix même quand la menace de punition n’est pas immédiatement présente ?”

C’est quoi une décision positive ?

Voici une autre manière de présenter la question : quel calcul fait le cerveau quand il prend une décision dont le résultat n’est ni positif (puisqu’il n’y a pas de récompense) ni négatif (puisqu’il n’y a pas de punition) ? En d’autres termes, comment notre cerveau calcule-t-il la valeur d’une action avant de prendre une décision?  L’équipe à laquelle appartient Stefano Palminteri, dirigée par Giorgio Coricelli au Laboratoire de neurosciences cognitives, a donc cherché à représenter sous forme mathématique ce que notre cerveau fait quand nous faisons un choix à valeur nulle ou négative.

Les neurosciences computationnelles

“La solution est de calculer les résultats des actions de manière relative au contexte dans lequel le résultat est obtenu”, résume Stefano Palminteri. L’algorithme mis au point par son équipe, baptisé justement RELATIVE, permet de montrer que nous pouvons accorder une valeur positive à un choix par comparaison avec le contexte dans lequel nous avons eu à le prendre. Est-ce que le cerveau interprète ensuite cette décision comme “absolument” positive ? L’imagerie cérébrale a montré que oui !

Pas de bâton = une carotte

La punition et la récompense ne sont pas traités de la même manière par le cerveau :

  • le striatum ventral est un peu le centre de la motivation (plus la motivation est forte, plus il s’active) : c’est une structure composée de deux éléments situés sous le cortex ;
  • l’insula (ou cortex insulaire) serait impliquée dans des processus comme le dégoût, ou la représentation de l’effort et du risque : c’est une partie du cortex cérébral.

Les chercheurs ont faire suivre des tests à 28 sujets : couchés dans un scanner, ils devaient choisir entre des symboles abstraits plus ou moins “récompensants” ou “punissants”. L’imagerie à résonance magnétique fonctionnelle a montré que les deux zones du cerveau (motivation / punition) sont activées tant que nous n’avons pas encore appris la valeur du contexte. Au fur et à mesure que la “valeur relative” des choix se précise, les apprentissages dans le contexte de punition sont “redirigés” vers la zone de la motivation. En d’autres termes, le cerveau a transformé le bâton (risque de punition) en carotte (récompense) !

Cette évaluation de la non-punition comme une récompense était le modèle proposé par l’algorithme RELATIVE. Validé du point de vue neurobiologique, il a également produit de meilleures prévisions que les algorithmes standards. “Il offrira des applications en robotique”, précise Stefano Palminteri. RELATIVE devrait aussi permettre des analyses quantitatives : en aidant à caractériser le “profil cognitif” de personnes atteintes de pathologies cérébrales, il permettra de faire des liens entre ces maladies et certains processus cognitifs.

Pour aller plus loin
Publication : Contextual modulation of value signals in reward and punishment learning. Stefano Palminteri, Mehdi Khamassi, Mateus Joffily & Giorgio Coricelli. Nature Communications, 25 août 2015.

Les travaux conduits au GATE Lyon Saint-Étienne (Groupe d’analyse et de théorie économique) relèvent de l’économie théorique et de l’économie appliquée. Ils s’appuient sur des modélisations fondées principalement sur la théorie des jeux, la théorie de la décision et la théorie des contrats. Le laboratoire s’est constitué une réputation internationale en économie expérimentale et comportementale et en théorie des jeux.


Un contenu proposé par

Cléo Schweyer

dans le cadre de



Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *