|
|
Illustration célèbre de la théorie des jeux, le problème dit Dilemme du prisonnier est le plus souvent énoncé comme suit :
Deux suspects sont arrêtés par la police mais les agents n'ont pas assez de preuves pour inculper les prévenus. Les deux individus sont alors placés dans des pièces séparés et se voient tous deux proposer la même chose. Trois cas peuvent se présenter :
Ce jeu est à somme jeu à somme non-nulle, c'est-à-dire que la somme des gains pour les participants n'est pas toujours la même : il soulève une question de coopération.
| Table of contents |
|
2 Variantes 3 Ami ou ennemi 4 Références |
Dans son livre The Evolution of Cooperation (L'évolution de la coopération, 1984), Robert Axelrod étudie une extension classique de ce dilemme : le jeu se répète, et les participants gardent en mémoire les précédentes rencontres. Il donne une autre illustration à partir d'une situation équivalente : deux personnes échangent des sacs, censés contenir respectivement de l'argent et un bien. Chacun a un intérêt immédiat à passer un sac vide, mais il est plus avantageux pour les deux que la transaction ait lieu.
Quand on répète ce jeu durablement dans une population, les joueurs qui adoptent une stratégie intéressée y perdent au long terme, alors que les joueurs apparemment plus désintéressés voient leur "altruisme" finalement récompensé. Axelrod y a vu une explication de l'apparition d'un comportement altruiste dans un contexte d'évolution darwinnienne par sélection naturelle.
La meilleure stratégie dans un contexte déterministe "Œil pour Œil" ("Tit for Tat"), conçue par Anatol Rapoport pour un concours informatisé. Son exceptionnelle simplicité a eu raison des autres propositions. Elle consiste à coopérer au premier coup, puis à reproduire à chaque fois le comportement de l'adversaire du coup précédent. Une variante, "Œil pour Œil avec pardon", s'est révélée un peu plus efficace : en cas de défection de l'adversaire, on coopère parfois (de 1 à 5 %) au coup suivant. Cela permet d'éviter de rester bloquer dans un cycle négatif. Le meilleur réglage dépend des autres participants. En particulier, "Œil pour Œil avec pardon" est plus efficace si la communication est brouillée, c'est-à-dire s'il arrive qu'un autre participant interprète à tord un coup.
Pour le dilemme du prisonnier, il n'existe pas réelle de stratégie toujours optimale. Si, par exemple, toute la population fait systématiquement défaut sauf un individu qui respecte "Œil pour Œil", alors ce dernier à un désavantage au premier coup. Face à une unanimité de défaut, la meilleure stratégie est de toujours trahir aussi. S'il y une part de traître systématique et d'"Œil pour Œil", la stratégie optimale dépend de la proportion et de la durée du jeu. En faisant disparaître les individus qui n'obtiennent pas de bons totaux et en faisant se dupliquer ceux qui mènent, on peut étudier des dynamiques intéressantes. La répartition finale dépend de la population initiale.
Si le nombre N d'itération est fini et connu, l'équilibre de Nash est de systématiquement faire défaut, comme pour N=1. Cela se montre simplement par induction :
La situation est aussi étonnante si l'on joue indéfiniment au dilemme du prisonnier, le score étant la moyenne des scores obtenus (calculé de manière appropriée).
Le dilemme du prisonnier est la base de certaines théories de la coopération humaine et de la confiance. Si l'on assimile les situations de transactions qui réclament de la confiance à un dilemme du prisonnier, un comportement de coopération dans une population peut être modélisé comme un jeu entre plusieurs joueurs, répété - d'où la fascination de nombreux universitaire depuis longtemps : Grofman et Pool estimaient en 1975 à plus de 2000 les articles scientifiques sur le sujet.
Il existe des variantes de ce jeu qui, en modifiant légèrement les gains aboutissent à des conclusions très différentes :
La poule-mouillée est un autre jeu à somme non-nulle, où la coopération est récompensée. La défection double est la pire des solutions -- donc un équilibre instable -- alors que dans le dilemme du prisonnier, c'était de coopérer alors que l'autre trahissait -- ce qui rendait l'équilibre de double défection stable. La double coopération est dans les deux jeux un équilibre instable.
Une matrice de gains ressemble à :
Coopère (+5;+5) (+1;+10)
Trahi (+10;+1) (-20;-20)
L'appellation "Poule-mouillée" est tirée du jeu automobile : deux voitures se lancent l'une vers l'autre, prêtes à se rentrer dedans. Chaque joueur peut dévier et éviter la catastrophe (coopération) ou garder le cap (défection). On peut aussi y voir la relation entre deux fermiers qui partagent un système d'irrigation. Chacun pourrait l'entretenir seul, mais ils en profitent tous les deux autant. Si l'un d'entre eux n'assure pas sa part d'entretien, l'autre a toujours intérêt à le faire à sa place, pour continuer à arroser. Par conséquent, si un des fermiers parvient à établir une réputation d'indélicat dominant -- c'est-à-dire si l'habitude est prise que ce soit toujours l'autre qui s'occupe de l'entretien -- il sera susceptible de maintenir cette situation.
Un jeu de l'assurance a la même structure qu'un dilemme du prisonnier, à ceci près que les récompenses en cas de coopération mutuelle sont plus importantes que si le partenaire fait défaut. Une matrice de gain ressemblera à :
Coopère (+10;+10) (+1;+5)
Trahit (+1;+5) (+3;+3)
Le jeu de l'assurance peut aboutir à un équilibre très stable, puisque l'équilibre le plus profitable est stable au sens de Nash : aucun n'a intérêt à dévier.
Il est néanmoins possible qu'un joueur dévie par erreur, la confiance ou l'habitude sont alors remis en cause.
"Ami ou ennemi" ("Friend or Foe") est un jeu actuellement diffusé sur une chaîne câblée aux États-unis (Game Show Network). C'est un exemple de dilemme du prisonnier testé sur des particuliers dans un cadre artificiel. Sur le plateau, trois paires de participants s'affrontent. Quand une paire est éliminée, ses deux membres se répartissent leurs gains selon un dilemme du prisonnier. Si les deux coopèrent ("Friend"), ils partagent équitablement la somme accumulée au cours du jeu. Si aucun ne coopère ("Foe"), ils se quittent sans rien. S'il l'un coopère et que l'autre fait défaut, le premier part les mains vides et l'autre remporte le tout. La situation est un peu différente de la matrice canonique plus haut : le gain est le même pour qui voit sa confiance trahie ou qui emporte l'autre dans sa perte. Si un joueur sait que l'autre le trahira, sa réponse lui est indifférente. L'équilibre non-coopératif est donc neutre, alors qu'il est stable dans le cas habituel.
La matrice à considérer est donc :
Coopère (+5;+5) (0;+10)
Trahit (+10;0) (0;0)
Ce jeu serait très utile pour qui souhaiterait analyser le dilemme du prisonnier sur un cas réel. Comme on ne peut participer qu'une fois au jeu, toutes les considérations concernant les jeux répétés ne sont pas applicables, la stratégie "Œil pour Œil" n'intervient pas.
Le dilemme répété
Pour que la coopération reste intéressante, le futur doit donc rester incertain pour tous les participants -- une solution possible est de tirant un N aléatoire.Variantes
Le jeu de la Poule-mouillée
1\\2 Coopère TrahitLe jeu de l'assurance
1\\2 Coopère TrahitAmi ou ennemi
1\\2 Coopère TrahitRéférences
Voyez aussi
Lien extérieur
Ouvrages en anglais