~rom1v/blog { un blog libre }

Paradoxes probabilistes

Ce sont des cas d’école, mais j’adore ces quelques paradoxes. La simplicité de leurs énoncés et l’évidence de leur solution nous permettent de répondre en quelques secondes, sans aucune hésitation. Mais en nous trompant.

Deux enfants

Un couple a deux enfants dont l’un d’eux (au moins) est une fille. Quelle est la probabilité que l’autre soit (aussi) une fille ?

Par hypothèse, la probabilité à chaque naissance d’avoir un garçon est égale à celle d’avoir une fille (50%), et les naissances sont indépendantes.

La réponse 1/2 est évidente. Mais fausse. La bonne réponse est 1/3.

En effet, un couple ayant deux enfants a 4 possiblités équiprobables :

  1. garçon-garçon
  2. garçon-fille
  3. fille-garçon
  4. fille-fille

Sachant que l’un des deux est une fille, le cas 1 est exclu : il reste trois possibilités équiprobables, dont une seule correspond au cas fille-fille. Il y a donc une chance sur trois que les deux enfants soient des filles. CQFD.

Pour vous en convaincre, considérez les deux phrases équivalentes suivantes :

  • Un couple a deux enfants, dont l’un d’eux (au moins) est une fille.
  • Un couple a deux enfants qui ne sont pas deux garçons.

Pour chacune d’elles, demandez-vous quelle est la probabilité que les deux enfants soient des filles.

Attendez d’être convaincus de ce résultat avant de passer à la suite.

Fausse implication

Une fois ce résultat compris, considérons l’énoncé suivant :

Un couple a deux enfants. Je le croise dans la rue avec l’un de ses enfants, qui est une fille. Quelle est la probabilité que l’autre enfant (celui qui est absent) soit (aussi) une fille.

Il est possible de répondre avec certitude : s’il est absent, c’est un garçon, si elle est absente, c’est une fille. (Ça, c’est fait !)

Alors vous appliquez le même raisonnement, et répondez 1/3. Après tout, nous sommes exactement dans le cas de l’énoncé précédent : un couple a deux enfants et je sais que l’un d’eux (au moins) est une fille.

Mais non, c’est faux. Ici, la réponse est 1/2.

Pour le comprendre, il faut voir que le raisonnement menant à la réponse 1/3 n’est en fait tout-à-fait valide qu’en levant une légère ambiguïté de l’énoncé, celle de l’acquisition de l’information : comment savons-nous que le couple ayant deux enfants a au moins une fille (pour déterminer la probabilité qu’il en ait deux) ?

Si nous avons demandé à l’un des parents “avez-vous (au moins) une fille ?” et qu’il a répondu “oui”, alors la probabilité que les deux soient des filles est bien 1/3.

Par contre, si nous lui avons demandé “indiquez-moi le sexe de l’un de vos enfants” et qu’il a répondu “j’ai (au moins) une fille”, alors la probabilité que les deux soient des filles est 1/2. En effet, le fait que le parent puisse répondre garçon à cette question lorsqu’il a deux enfants de sexes différents fait baisser la probabilité conditionnelle des cas 2 et 3, et une fois le cas 1 exclu, l’union des 2 et 3 et le cas 4 sont équiprobables. Relisez la phrase précédente plusieurs fois. Comme elle n’est pas claire, consultez le calcul sur Wikipedia.

Le fait de rencontrer un enfant de ce couple (ici, une fille) s’apparente à ce dernier cas (car pour deux enfants de sexes différents, nous aurions pu rencontrer le garçon). Ainsi, la probabilité que l’autre soit une fille est 1/2.

Si ce n’est pas clair, continuez, j’en reparle un peu plus loin lorsque j’évoque la particularisation.

Deux enfants, un jour

Un couple a deux enfants dont l’un d’eux (au moins) est une fille née un mardi. Quelle est la probabilité que l’autre soit (aussi) une fille ?

La réponse n’est ni 1/2, ni 1/3, mais 13/27.

Un bash vaut mieux qu’un long discours :

printf '%s\n' {G,F}{0..6}-{G,F}{0..6} | grep F1 | wc -l
printf '%s\n' {G,F}{0..6}-{G,F}{0..6} | grep F1 | grep F.-F. | wc -l

(Nous supposons avoir obtenu l’information en demandant à l’un des parents “avez-vous une fille née un mardi ?”. Comme dans le premier exemple, si nous lui avions demandé “indiquez-moi le sexe d’un de vos enfants ainsi que son jour de naissance”, la probabilité que l’autre soit une fille serait 1/2.)

Il est également possible de différencier par autre chose qu’un jour de la semaine, par exemple faire la différence entre matin (entre minuit et midi) et après-midi (entre midi et minuit) :

Un couple a deux enfants dont l’un d’eux (au moins) est une fille née un matin. Quelle est la probabilité que l’autre soit (aussi) une fille ?

La réponse est 3/7 :

printf '%s\n' {G,F}{M,A}-{G,F}{M,A} | grep FM | wc -l
printf '%s\n' {G,F}{M,A}-{G,F}{M,A} | grep FM | grep F.-F. | wc -l

Deux enfants, un prénom

Supposons maintenant qu’aucun couple n’appelle deux de ses enfants par le même prénom, et considérons l’énoncé suivant :

Un couple a deux enfants dont l’un d’eux (au moins) est une fille prénommée Sophie. Quelle est la probabilité que l’autre soit (aussi) une fille ?

La réponse ici est 1/2.

Si vous avez compris le résultat du script bash précédent, cela revient à supposer que les enfants ne peuvent pas être nés le même jour de la semaine (ce qui est absurde pour un jour de la semaine, mais pas pour un prénom) :

printf '%s\n' {G,F}{0..6}-{G,F}{0..6} | grep -v '^.\(.\)-.\1' | grep F1 | wc -l
printf '%s\n' {G,F}{0..6}-{G,F}{0..6} | grep -v '^.\(.\)-.\1' | grep F1 |
    grep F.-F. | wc -l

Synthèse et particularisation

Résumons. Sachant que l’un des deux enfants est une fille, la probabilité que les deux soient des filles dépend de la capacité à particulariser l’enfant dont on connaît le sexe. Sans aucune information supplémentaire, la probabilité est 1/3.

Mais si nous savons par exemple que l’enfant en question est l’aîné, nous le particularisons complètement : nous sommes sûrs que l’autre n’est pas l’aîné, et donc la probabilité devient 1/2 (évidemment, puisque par hypothèse, les naissances sont indépendantes). De même, si nous supposons qu’un couple ne donne pas le même prénom à plusieurs de ses enfants, alors préciser le prénom particularise complètement l’enfant dont on parle. Il en va de même si nous rencontrons l’un des enfants dans la rue : c’est de celui qui est présent dont on parle, pas n’importe lequel.

Et il existe des cas intermédiaires, où nous ne particularisons que partiellement. Par exemple, en précisant que l’enfant est né un mardi, dans certains cas l’information est différenciante (l’autre enfant n’est pas né un mardi), dans certains cas non (les deux enfants sont nés un mardi). Le résultat n’est donc ni 1/3, ni 1/2, mais entre les deux (13/27 ici).

Si vous avez du mal à vous convaincre que rencontrer l’un des enfants dans la rue le particularise (et donc donne une probabilité de 1/2 que l’autre soit une fille ou un garçon), je vous propose l’expérience de pensée suivante (par l’absurde).

Vous rencontrez le couple avec l’un de ses enfants, qui est une fille. D’après le tout premier raisonnement, vous en concluez que la probabilité que l’autre soit une fille est 1/3. Vous lui parlez, et vous lui demandez quel jour de la semaine elle est née, elle vous répond mardi. Vous savez maintenant que c’est une fille née un mardi. D’après ce que nous venons de voir, vous en concluez que la probabilité que l’autre soit une fille est 13/27. Mais le résultat aurait été le même si elle avait répondu n’importe quel autre jour de la semaine. Le fait d’avoir posé la question a donc changé la probabilité, et ceci, indépendemment de sa réponse. Comment pourrait-elle dépendre du simple fait de poser la question ? C’est incohérent.

Cette particularisation me fait d’ailleurs beaucoup penser au phénomène de décohérence quantique.

Monty Hall

Il s’agit jeu télévisé avec trois portes, dont voici les règles :

  • Derrière chacune des trois portes se trouve soit une chèvre, soit une voiture, mais une seule porte donne sur une voiture alors que deux portes donnent sur une chèvre. La porte cachant la voiture a été choisie par tirage au sort.
  • Le joueur choisit une des portes, sans que toutefois ce qui se cache derrière (chèvre ou voiture) ne soit révélé à ce stade.
  • Le présentateur sait ce qu’il y a derrière chaque porte.
  • Le présentateur doit ouvrir l’une des deux portes restantes et doit proposer au candidat la possibilité de changer de choix quant à la porte à ouvrir définitivement.
  • Le présentateur ouvrira toujours une porte derrière laquelle se cache une chèvre, en effet :
    • Si le joueur choisit une porte derrière laquelle se trouve une chèvre, le présentateur ouvrira l’autre porte où il sait que se trouve également une chèvre.
    • Si le joueur choisit la porte cachant la voiture, le présentateur choisit au hasard parmi les deux portes cachant une chèvre. (on peut supposer qu’un tirage au sort avant l’émission a décidé si ce serait la plus à droite ou à gauche)
  • Le présentateur doit offrir la possibilité au candidat de rester sur son choix initial ou bien de revenir dessus et d’ouvrir la porte qui n’a été choisie ni par lui-même, ni par le candidat.

La question qui se pose alors est :

Le joueur augmente-t-il ses chances de gagner la voiture en changeant son choix initial ?

Vu qu’il reste deux portes, nous pourrions nous dire que garder son choix initial ou le changer n’a pas d’incidence sur les probabilités. Ce qui évidemment est faux (sinon nous n’en parlerions pas). En réalité, il a une probabilité de 1/3 de gagner s’il conserve son choix initial et 2/3 s’il en change.

Lors de son choix initial, le joueur a une chance sur trois de sélectionner la porte gagnante. S’il décide de toujours garder sa porte, il a donc une chance sur trois de gagner. Comme à la fin il n’a que deux choix (garder ou changer), il aurait eu deux chances sur trois de gagner en changeant de porte.

Pour mieux comprendre, généralisons le principe du jeu :

  • Il y a 1 million de portes, avec une seule porte gagnante.
  • Le joueur sélectionne une porte.
  • Le présentateur retire 999 998 portes perdantes parmi les portes restantes.
  • Le joueur doit-il changer de porte ?

La réponse devient évidente, non ?

Si vous n’êtes pas convaincus, développeur et que vous connaissez la loi des grands nombres, ce programme devrait vous aider :

#include <stdio.h>
#include <stdlib.h>
#include <time.h>

int main()
{
  int i, winning, choice, elim, change;
  int keepwin = 0, changewin = 0;

  /* Initialise le seed pour la génération aléatoire */
  srand(time(NULL));

  for (i = 0; i < 10000; i++) {
    /* Tire au sort une porte gagnante et un choix du joueur */
    winning = rand() % 3;
    choice = rand() % 3;

    /* Présentateur */
    if (choice == winning)
      /* Choisit aléatoirement d'éliminer l'une des deux autres portes */
      elim = ~winning & (rand() % 2 + 1);
    else
      /* Désigne la porte restante perdante */
      elim = 3 - choice - winning;

    /* Compte les choix vainqueurs */
    change = 3 - choice - elim;
    keepwin += choice == winning;
    changewin += change == winning;
  }

  printf("Victoires en gardant son choix   : %d\n", keepwin);
  printf("Victoires en changeant son choix : %d\n", changewin);
  return 0;
}

Notez que rand() % 3 ne fournira pas une distribution strictement uniforme (3 n’étant pas une puissance de 2), mais la précision nous suffira ici.

Ce problème est similaire au paradoxe des prisonniers.

Variante

Changeons un peu les règles : maintenant, le présentateur ne sait pas où se trouve la porte gagnante.

Du coup, une fois que le joueur a choisi sa porte, le présentateur indique une porte au hasard parmi les deux restantes. Si malheureusement il tombe sur la porte gagnante, la partie est annulée et on recommence.

Ainsi nous retirons toutes les parties où le présentateur a ouvert la porte gagnante. Il ne reste donc plus que les parties où il désigne une porte perdante, et nous nous retrouvons dans le même cas que précédement.

Eh bien, en fait, non. Ce n’est pas le même cas que précédemment, car maintenant le joueur va gagner avec un probabilité est de 1/2 qu’il garde sa porte ou qu’il en change. La preuve :

#include <stdio.h>
#include <stdlib.h>
#include <time.h>

int main()
{
  int i = 0, winning, choice, elim, change;
  int keepwin = 0, changewin = 0;

  /* Initialise le seed pour la génération aléatoire */
  srand(time(NULL));

  while (i < 10000) {
    /* Tire au sort une porte gagnante et un choix du joueur */
    winning = rand() % 3;
    choice = rand() % 3;

    /* Présentateur */
    elim = ~choice & (rand() % 2 + 1);
    if (elim == winning)
      continue;

    /* Compte les choix vainqueurs */
    change = 3 - choice - elim;
    keepwin += choice == winning;
    changewin += change == winning;
    i++;
  }

  printf("Victoires en gardant son choix   : %d\n", keepwin);
  printf("Victoires en changeant son choix : %d\n", changewin);
  return 0;
}

Intuitivement, si c’est le hasard qui détermine à la fois la porte choisie par le joueur et la porte laissée par le présentateur, et que nous supprimons toutes les parties où le présentateur a éliminé la porte gagnante (en moyenne 1 partie sur 3), tout se passe comme s’il n’y avait que 2 portes dès le début du jeu.

Dissonance

– “sonance”

Nous disposons de pastilles de 3 couleurs (disons rouge, bleu et vert).

Nous proposons à un singe de choisir parmi 2 de ces couleurs (par exemple rouge et bleu) celle qu’il préfère (par une méthode quelconque). Il répondrouge”.

Nous lui demandons alors laquelle il préfère parmi la couleur qu’il n’a pas choisie la première fois (bleu) et celle qui reste (vert). Et le plus souvent (environ 2 fois sur 3), les chercheurs ont observé qu’il rejetait encore la couleur qu’il n’avait pas choisie la première fois (bleu).

Cela montre qu’une fois que nous rejetons quelque chose, nous le dévaluons, ce qui nous amène à le rejeter de nouveau lors d’un second choix.

Ou pas. En réalité, ce raisonnement souffre de la même erreur de raisonnement qui nous induit en erreur dans le problème de Monty Hall.

Supposons que le singe sache trier les trois couleurs par ordre de préférence. Nous lui en montrons deux. Cela revient à choisir au premier tour celle que nous ne lui montrons pas.

Cette couleur non choisie peut être :

  1. celle que le singe préfère ;
  2. la deuxième ;
  3. celle qu’il aime le moins.

Parmi ces 3 possibilités équiprobables, seule la position 3 lui fera la rejeter lors du second choix (c’est la seule moins bonne que la moins bonne du premier choix).

Test positif

Une maladie X touche 1 personne sur 100 000 dans une population. Un test de la maladie X est fiable à 99%. Il se révèle positif pour vous. Quelle est la probabilité que vous soyez infecté ?

Aussi surprenant que cela puisse paraître, la réponse est 0,1%.

Faisons le calcul sur une population de 10 millions de personnes. La maladie touche 1 personne sur 100 000, donc 100 personnes en moyenne.

Le test est fiable à 99%, donc il provoque 1% d’erreur. Sur les 9 999 900 personnes non malades, il y a donc 99 999 erreurs (faux-positifs). Sur les 100 malades, il y a 1 erreur (faux-négatif).

En tout, en moyenne 99 999 + 99 = 100 098 personnes seront testées positives, alors que seules 99 seront malades. Donc si votre test est positif, vous avez 99 chances sur 100 098 d’être malade, soit moins de 0,1%.

Le fait que ce résultat soit surprenant pour notre cerveau provient d’un biais cognitif appelé l’oubli de la fréquence de base.

Conclusion

Méfiez-vous de vos intuitions en probabilités.

Commentaires

Bien marrant, mais là j’en ai mal à la tête :/

Lors de son choix initial, le joueur a une chance sur trois de sélectionner la porte gagnante. S’il décide de toujours garder sa porte, il a donc une chance sur trois de gagner. Comme à la fin il n’a que deux choix (garder ou changer), il aurait eu deux chances sur trois de gagner en changeant de porte.

Juste là : le fait d’avoir la possibilité de changer, lui donnerait-il pas dés le départ 1 chance sur 2 ? Vu qu’il sait que quoi qu’il arrive, une porte perdante sera éliminée ?

kleim

Très intéressant !

Pour ceux qui veulent une explication plus poussée sur le dernier cas, celui-ci est développé dans cet excellent article (en anglais) : http://adnausi.ca/post/12640080262

Très bon article, vraiment surprenant.

J’ajouterai le paradoxe des anniversaires, qui va vraiment à l’encontre de nos intuitions, lui aussi :)

®om

@le hollandais volant

Juste là : le fait d’avoir la possibilité de changer, lui donnerait-il pas dés le départ 1 chance sur 2 ? Vu qu’il sait que quoi qu’il arrive, une porte perdante sera éliminée ?

Au départ, il choisit 1 porte parmi 3 dont une seule est gagnante. Il n’en change jamais. Comment pourrait-il avoir 1 chance sur 2 de gagner ?

®om

@kleim

Pour ceux qui veulent une explication plus poussée sur le dernier cas, celui-ci est développé dans cet excellent article (en anglais) : http://adnausi.ca/post/12640080262

Merci pour le lien, très complet et intéressant.

tada

dans « Deux enfants »

La réponse 1/2 est évidente. Mais juste …

il n’y a pas 4, mais 3 possibilités équiprobables, car dans la liste :

  1. garçon-garçon
  2. garçon-fille
  3. fille-garçon
  4. fille-fille

les cas 2 et 3 représentent la même situation; on a donc

  1. garçon-garçon
  2. garçon-fille
  3. fille-fille

on supprime le cas 1. restent les cas 2 et 3 donc probabilité = 1/2

®om

@tada

il n’y a pas 4, mais 3 possibilités équiprobables […]

les cas 2 et 3 représentent la même situation;

Nous aurions donc 2 chances sur 3 d’avoir deux enfants du même genre et 1 chance sur 3 d’avoir des enfants de genres différents ? FAUX

C’est bien parce que les deux cas représentent la même situation que dans le calcul de probabilité que tu évoques, @tada, ils sont cumulés.

Pour les “deux enfants, un jour”, pourrais-tu reprendre une explication succincte car je ne trouve pas 13/27 mais 13/26. En effet, si l’enfant peut être né un mardi, il y a 14 possibilités (lundi, mardi, mercredi, jeudi, vendredi, samedi, dimanche X 2) mais juste 7 que ce soit une fille.

Si l’enfant, ne peut pas être né le mardi, cela laisse 12 possibilités mais 6 que ce soit une fille. Donc au total (7+6)/(14+12) = 13/26.

Je dois oublier un cas, mais je ne vois pas lequel…

®om

@jerrywham

Pour les « deux enfants, un jour », pourrais-tu reprendre une explication succincte car je ne trouve pas 13/27 mais 13/26.

Voici tous les cas où il y a au moins une fille (F) née un mardi (1) (en rouge le F1 qui a matché).

En gras, ceux parmi ceux-là où il y a deux filles.

  • G0-F1
  • G1-F1
  • G2-F1
  • G3-F1
  • G4-F1
  • G5-F1
  • G6-F1
  • F0-F1
  • F1-G0
  • F1-G1
  • F1-G2
  • F1-G3
  • F1-G4
  • F1-G5
  • F1-G6
  • F1-F0
  • F1-F1
  • F1-F2
  • F1-F3
  • F1-F4
  • F1-F5
  • F1-F6
  • F2-F1
  • F3-F1
  • F4-F1
  • F5-F1
  • F6-F1

C’est à cause du F1-F1, dans lequel on ne peut discerner les deux enfants (il n’y a pas deux cas F1-F1 comme il y a F0-F1 et F1-F0) qu’on obtient 13/27 et non 14/28 (1/2).

Très sympa ces probabilités.

Mais c’est vraiment dommage d’y parler de “genre” et non de “sexe”.

Il n’y a qu’un genre : le genre humain. Et le genre humain est sexué.

®om

@Jacques Pyrat

Mais c’est vraiment dommage d’y parler de “genre” et non de “sexe”.

Au départ, j’utilisais “sexe”, mais certaines phrases pourraient prêter à confusion (pour les esprits mal placés), notamment avec le double-sens du verbe connaître (“vous connaissez le sexe de la fille de votre ami”).

Mais tu as raison, je viens de remplacer, car le genre ne désigne pas tout à fait la même chose (et ce dont nous parlons pour les probabilités, c’est bien le sexe physiologique).

dacrovinunghi

Super intéressant, surtout que parfois on trouve le problème mal posé par exemple pour le 1er, on me l’avait posé plutot comme ca : Sachant qu’un couple a une fille quelle est la probabilité que l’autre enfant soit (aussi) une fille. du coup je me suis demandé longtemps pour quoi ca faisait 1/3, en fait parce que c’est 1/2 dans ce cas là, merci pour la nuance (idem pour la porte).

dacrovinunghi

Mince je voulais dire le contraire….

lekant

Super article. Tes liens wikipedia m’ont redonné envie de m’intéresser aux probas avec lesquelles j’ai toujours été un peu faché ;)

arsenikstiger

Bonjour.

L’article est intéressant.

Je ne suis cependant pas d’accord avec le premier exemple des enfants. En effet, tu oublies la notion de tirage, qui définit un ordre aux sorties probables.

Il y a donc bien quatre possibilités (garçon-garçon, garçon-fille, fille-garçon, fille-fille) avant le premier tirage.

Si le premier enfant, issu du premier tirage, est une fille, alors il ne reste bien que deux possibilités, et donc une chance sur deux, d’avoir une deuxième fille, au deuxième tirage.

Cette notion est importante à ne pas oublier en probabilité, sinon on va inévitablement à l’encontre de paradoxes insolubles.

Pour finir, bonne année et bonne santé à tous, même si la probabilité que tous les voeux de tous les lecteurs se réalisent est assez faible (hélas).

®om

@arsenikstiger

En effet, tu oublies la notion de tirage, qui définit un ordre aux sorties probables.

Oui, si tu “particularises” par un ordre de tirage. Mais :

Si nous avons demandé à l’un des parents « avez-vous (au moins) une fille ? » et qu’il a répondu « oui », alors la probabilité que les deux soient des filles est bien 1/3.

Bonjour,

Tous ces “paradoxes” n’ont rien de mathématiques. En particulier celui des deux enfants, en effet toutes les “démonstrations” sont basées sur un “sachant que”. Alors, je pose la question “qui sait quoi ?”, le second enfant de la famille, ou l’ainé aurait-il des dons de voyance ?

Concernant Monty-Hall, le calcul informatique est un attrape-nigaud. Si le développeur du code a testé la porte que va ouvrir le présentateur, qui lui a donné l’info ? Certainement pas le candidat, ou alors c’est qu’ils sont de mèche, lui et le présentateur.

Le fameux “paradoxe” de Bertrand (corde et cercle) est beaucoup plus sérieux et grave, puisque cela permet à des matheux de répondre “c’est comme tu veux”.

Les commentaires sont fermés.