Dilemme du prisonnier

Illustration célèbre de la théorie des jeux, le problème dit Dilemme du prisonnier est le plus souvent énoncé comme suit :

Deux suspects sont arrêtés par la police mais les agents n'ont pas assez de preuves pour inculper les prévenus. Les deux individus sont alors placés dans des pièces séparés et se voient tous deux proposer la même chose. Trois cas peuvent se présenter :

On résume souvent les utilités de chacun dans ce tableau.

1\\2         Avoue   Tait
Avoue   (-5;-5)   (0;-10)
Tait       (-10;0)   (-1;-1)

Chacun des prisonniers réfléchit de son coté en considérant les deux cas possibles de réaction de son complice. << S'il avoue et que je me tais, je ferai 10 ans de prison alors que si j'avoue, je ne ferai que 5 ans. S'il se tait et que j'avoue, je serai libre alors que si je me tais, je ferai 6 mois de prison. >> Quelque soit la solution choisie par le complice, il vaut mieux choisir d'avouer : les deux vont probablement choisir d'avouer. Bien que les deux aient choisi la solution qui semblait la plus rationnelle, s'ils étaient tous deux restés silencieux, ils n'auraient écopé que de 6 mois.

Ce jeu est à somme jeu à somme non-nulle, c'est-à-dire que la somme des gains pour les participants n'est pas toujours la même : il soulève une question de coopération.

Table of contents
1 Le dilemme répété
2 Variantes
3 Ami ou ennemi
4 Références

Le dilemme répété

Dans son livre The Evolution of Cooperation (L'évolution de la coopération, 1984), Robert Axelrod étudie une extension classique de ce dilemme : le jeu se répète, et les participants gardent en mémoire les précédentes rencontres. Il donne une autre illustration à partir d'une situation équivalente : deux personnes échangent des sacs, censés contenir respectivement de l'argent et un bien. Chacun a un intérêt immédiat à passer un sac vide, mais il est plus avantageux pour les deux que la transaction ait lieu.

Quand on répète ce jeu durablement dans une population, les joueurs qui adoptent une stratégie intéressée y perdent au long terme, alors que les joueurs apparemment plus désintéressés voient leur "altruisme" finalement récompensé. Axelrod y a vu une explication de l'apparition d'un comportement altruiste dans un contexte d'évolution darwinnienne par sélection naturelle.

La meilleure stratégie dans un contexte déterministe "Œil pour Œil" ("Tit for Tat"), conçue par Anatol Rapoport pour un concours informatisé. Son exceptionnelle simplicité a eu raison des autres propositions. Elle consiste à coopérer au premier coup, puis à reproduire à chaque fois le comportement de l'adversaire du coup précédent. Une variante, "Œil pour Œil avec pardon", s'est révélée un peu plus efficace : en cas de défection de l'adversaire, on coopère parfois (de 1 à 5 %) au coup suivant. Cela permet d'éviter de rester bloquer dans un cycle négatif. Le meilleur réglage dépend des autres participants. En particulier, "Œil pour Œil avec pardon" est plus efficace si la communication est brouillée, c'est-à-dire s'il arrive qu'un autre participant interprète à tord un coup.

Pour le dilemme du prisonnier, il n'existe pas réelle de stratégie toujours optimale. Si, par exemple, toute la population fait systématiquement défaut sauf un individu qui respecte "Œil pour Œil", alors ce dernier à un désavantage au premier coup. Face à une unanimité de défaut, la meilleure stratégie est de toujours trahir aussi. S'il y une part de traître systématique et d'"Œil pour Œil", la stratégie optimale dépend de la proportion et de la durée du jeu. En faisant disparaître les individus qui n'obtiennent pas de bons totaux et en faisant se dupliquer ceux qui mènent, on peut étudier des dynamiques intéressantes. La répartition finale dépend de la population initiale.

Si le nombre N d'itération est fini et connu, l'équilibre de Nash est de systématiquement faire défaut, comme pour N=1. Cela se montre simplement par induction :

Pour que la coopération reste intéressante, le futur doit donc rester incertain pour tous les participants -- une solution possible est de tirant un N aléatoire.

La situation est aussi étonnante si l'on joue indéfiniment au dilemme du prisonnier, le score étant la moyenne des scores obtenus (calculé de manière appropriée).

Le dilemme du prisonnier est la base de certaines théories de la coopération humaine et de la confiance. Si l'on assimile les situations de transactions qui réclament de la confiance à un dilemme du prisonnier, un comportement de coopération dans une population peut être modélisé comme un jeu entre plusieurs joueurs, répété - d'où la fascination de nombreux universitaire depuis longtemps : Grofman et Pool estimaient en 1975 à plus de 2000 les articles scientifiques sur le sujet.

Variantes

Il existe des variantes de ce jeu qui, en modifiant légèrement les gains aboutissent à des conclusions très différentes :

Le jeu de la Poule-mouillée

La poule-mouillée est un autre jeu à somme non-nulle, où la coopération est récompensée. La défection double est la pire des solutions -- donc un équilibre instable -- alors que dans le dilemme du prisonnier, c'était de coopérer alors que l'autre trahissait -- ce qui rendait l'équilibre de double défection stable. La double coopération est dans les deux jeux un équilibre instable.

Une matrice de gains ressemble à :

1\\2 Coopère Trahit

Coopère (+5;+5) (+1;+10)

Trahi (+10;+1) (-20;-20)

L'appellation "Poule-mouillée" est tirée du jeu automobile : deux voitures se lancent l'une vers l'autre, prêtes à se rentrer dedans. Chaque joueur peut dévier et éviter la catastrophe (coopération) ou garder le cap (défection). On peut aussi y voir la relation entre deux fermiers qui partagent un système d'irrigation. Chacun pourrait l'entretenir seul, mais ils en profitent tous les deux autant. Si l'un d'entre eux n'assure pas sa part d'entretien, l'autre a toujours intérêt à le faire à sa place, pour continuer à arroser. Par conséquent, si un des fermiers parvient à établir une réputation d'indélicat dominant -- c'est-à-dire si l'habitude est prise que ce soit toujours l'autre qui s'occupe de l'entretien -- il sera susceptible de maintenir cette situation.

Le jeu de l'assurance

Un jeu de l'assurance a la même structure qu'un dilemme du prisonnier, à ceci près que les récompenses en cas de coopération mutuelle sont plus importantes que si le partenaire fait défaut. Une matrice de gain ressemblera à :

1\\2 Coopère Trahit

Coopère (+10;+10) (+1;+5)

Trahit (+1;+5) (+3;+3)

Le jeu de l'assurance peut aboutir à un équilibre très stable, puisque l'équilibre le plus profitable est stable au sens de Nash : aucun n'a intérêt à dévier. Il est néanmoins possible qu'un joueur dévie par erreur, la confiance ou l'habitude sont alors remis en cause.

Ami ou ennemi

"Ami ou ennemi" ("Friend or Foe") est un jeu actuellement diffusé sur une chaîne câblée aux États-unis (Game Show Network). C'est un exemple de dilemme du prisonnier testé sur des particuliers dans un cadre artificiel. Sur le plateau, trois paires de participants s'affrontent. Quand une paire est éliminée, ses deux membres se répartissent leurs gains selon un dilemme du prisonnier. Si les deux coopèrent ("Friend"), ils partagent équitablement la somme accumulée au cours du jeu. Si aucun ne coopère ("Foe"), ils se quittent sans rien. S'il l'un coopère et que l'autre fait défaut, le premier part les mains vides et l'autre remporte le tout. La situation est un peu différente de la matrice canonique plus haut : le gain est le même pour qui voit sa confiance trahie ou qui emporte l'autre dans sa perte. Si un joueur sait que l'autre le trahira, sa réponse lui est indifférente. L'équilibre non-coopératif est donc neutre, alors qu'il est stable dans le cas habituel. La matrice à considérer est donc :

1\\2 Coopère Trahit

Coopère (+5;+5) (0;+10)

Trahit (+10;0) (0;0)

Ce jeu serait très utile pour qui souhaiterait analyser le dilemme du prisonnier sur un cas réel. Comme on ne peut participer qu'une fois au jeu, toutes les considérations concernant les jeux répétés ne sont pas applicables, la stratégie "Œil pour Œil" n'intervient pas.

Références

Voyez aussi

Lien extérieur

Ouvrages en anglais