Le paradoxe des anniversaires à l’Euro 2016

Vous avez sans doute déjà entendu parlé du paradoxe des anniversaires qui dit que dans un groupe de 23 personnes, il y a 50% de chances pour que deux d’entre elles soient nées le même jour de l’année (mais pas forcément la même année). Ça tombe bien, 23 c’est aussi le nombre de joueurs qui composent chaque équipe lors de l’Euro 2016 !

Dimitri Payet (à gauche) et N'Golo Kante (à droite) sont tous les deux nés le 29 Mars.

Dimitri Payet (à gauche) et N’Golo Kanté (à droite) sont tous les deux nés le 29 Mars.

Démonstration du paradoxe

Avant de parler des joueurs de l’Euro, j’aimerais tout de même qu’on revienne un peu sur le paradoxe des anniversaires et qu’on le démontre car, après tout, il n’a rien du tout d’intuitif.

Commençons par traduire le paradoxe de manière un peu plus mathématique: dire que dans un groupe de 23 personnes au moins deux sont nées le même jour revient à dire que si on choisit 23 nombres au hasard entre 1 et 365, au moins deux sont égaux. Précision: les nombres seront choisis de manière équiprobable entre 1 et 365 (même si, en pratique, ce n’est pas tout à fait exact qu’il y ait autant de gens nés chaque jour de l’année, mais nous en reparlerons).

Quant à la valeur 23, elle est a priori arbitraire, donc au lieu de choisir 23 nombres au hasard entre 1 et 365, nous allons en choisir k et nous allons calculer la probabilité de l’événement « Au moins deux des k nombres choisis sont égaux ». On va même plutôt calculer la probabilité de l’événement contraire — à savoir « Tous les nombres choisis sont distincts » — car cela sera plus facile. Plus précisément:

Propriété: Si on choisit k nombres a_1, a_2, \cdots, a_k au hasard entre 1 et 365, la probabilité qu’ils soient tous distincts est:

\dfrac{365\times 364 \times 363 \times \cdots \times (365 -k +1)}{365^k}

Pour démontrer cette propriété, il faut commencer par déterminer l’univers associé à cette expérience aléatoire. Autrement dit, il faut dire combien il y a de façons de choisir k nombres au hasard entre 1 et 365. Pour cela, remarquons que choisir k nombres revient à choisir une liste (a_1, a_2, \cdots, a_k).  Pour le premier nombre a_1, il y a 365 possibilités; pour le deuxième nombre a_2, il y a aussi 365 possibilités; et ainsi de suite. Au total, cela donne 365 \times 365 \times \cdots \times 365 = 365^k listes possibles.

A présent, dénombrons les listes pour lesquels tous les nombres a_i sont distincts:

  • On commence par choisir un premier nombre a_1: puisque c’est le premier nombre à être choisi, il peut prendre n’importe quelle valeur, ce qui donne 365 possibilités.
  • Choisissons ensuite un deuxième nombre a_2: comme il doit être différent du premier nombre déjà choisi, il y a 364 possibilités de le choisir.
  • Puis, on choisit un troisième nombre a_3: comme il doit être différent de a_1 et a_2, il y a 363 possibilités seulement pour ce nombre.
  • On procède ainsi jusqu’au dernier nombre a_k à choisir. Ce dernier devant être différent des k-1 nombres déjà choisis précédemment, cela donnera 365 – (k-1) = 365 – k +1 possibilités.

En résumé, il y a donc 365\times 364 \times 363 \times \cdots \times (365 -k +1) listes de k nombres qui sont tous distincts. Pour obtenir la probabilité voulue, il faut diviser par le nombre total de listes possibles, ce qui donne une probabilité de

\dfrac{365\times 364 \times 363 \times \cdots \times (365 -k +1)}{365^k}

En passant à l’événement contraire, on a donc:

Propriété: Si on choisit k nombres a_1, a_2, \cdots, a_k au hasard entre 1 et 365, la probabilité p_k qu’au moins deux soient égaux est:

p_k = 1- \dfrac{365\times 364 \times 363 \times \cdots \times (365 -k +1)}{365^k}

En calculant cette probabilité pour différentes valeurs de k, on obtient le graphe suivant:

Anniversaires_Euro_Graphe_des_probabilitesEn particulier, si on prend la valeur k=23, on trouve une probabilité égale à 0,507. Ainsi, dans un groupe de 23 personnes, il y a un tout petit peu plus de 50% de chances que deux d’entre elles soient nées le même jour. Voilà donc qui démontre le paradoxe des anniversaires ! On pourrait alors s’arrêter là, mais tout n’est pas si simple dans la vie…

Non uniformité des naissances

Comme nous l’avons dit, dans la réalité il n’est pas vrai qu’une personne ait la même probabilité de naître chaque jour de l’année. Il y a des jours avec plus de naissances et d’autres avec moins. Par exemple, en France le nombre de naissances par jour est plus élevé au mois de Juillet qu’au mois de Novembre (à croire que les gens font plus l’amour en Octobre qu’en Février !). Est-ce que pour autant notre probabilité de 0,507 est très éloignée de la réalité ? Est-ce que le paradoxe des anniversaires est encore valable en pratique ?

Dans un article intitulé The Uniformity Assumption in the Birthday Problem (voir lien en fin d’article), l’auteur Geoffrey C. Berresford a pris en compte le fait que les naissances ne sont pas exactement uniformément réparties sur une année et a estimé, en se basant sur les statistiques des naissances de l’État de New York, que la probabilité que deux personnes soient nées le même jour dans un groupe de 23 personnes est de 0,5101. Nous pouvons donc dire qu’en pratique, même avec le fait que les naissances ne sont pas tout à fait uniformes, le paradoxe des anniversaires tient toujours !

Anniversaires_Euro_graphe_des_naissances_Etat_de_New_York_1977

Fréquences des naissances par jour de l’année relevées dans l’État de New-York en 1977 (image extraite de l’article de Berresford)

On considérera dans la suite que la probabilité que deux personnes soient nées le même jour dans un groupe de 23 personnes choisies au hasard est de 51%.

Les joueurs de l’Euro 2016

Lors de l’Euro 2016, 24 équipes nationales sont en compétition, chacune étant formée d’un groupe de 23 joueurs. Et si dans chacune d’entre elle on regardait si au moins deux joueurs sont nés le même jour ? C’est ce que j’ai fait à partir des informations données sur cette page Wikipédia qui recense les joueurs de chaque équipe. Voici ce qu’il en ressort:

Pays Joueurs nés le même jour
Albanie Orges Shehi et Arlind Ajeti (25 Septembre)
Allemagne Aucun
Angleterre Kyle Walker et John Stones (25 Mai)
Autriche Aucun
Belgique Kevin De Bruyne et Jason Denayer (28 Juin)
Croatie Mateo Kovačić et Marko Pjaca (6 Mai)
Espagne Koke et David Silva (8 Janvier)
France Dimitri Payet et N’golo Kanté (29 Mars)
Anthony Martial et André-Pierre Gignac (5 Décembre)
Hongrie Barnabás Bese et Péter Gulácsi (6 Mai)
Irlande du Nord Michael McGovern et Shane Ferguson (12 Juillet)
Islande Ragnar Sigurðsson et Ögmundur Kristinsson (19 Juin)
Italie Aucun
Pays de Galles James Chester et Joe Ledley (23 Janvier)
Ashley Williams et James Collins (23 Aout)
Pologne Wojciech Szczęsny et Łukasz Fabiański (18 Avril)
Portugal Anthony Lopes et Eliseu (1er Octobre)
José Fonte, Raphaël Guerreiro et Éder (22 Décembre)
République d’Irlande Aiden McGeady et Stephen Quinn (4 Avril)
République Tchèque Tomáš Vaclík et Marek Suchý (29 Mars)
Roumanie Aucun
Russie Roman Shishkin et Denis Glushakov (27 Janvier)
Aleksei Berezutski et Vasili Berezutski (20 Juin… Ce sont des jumeaux !)
Slovaquie Ján Mucha et Ondrej Duda (5 Décembre)
Suède Robin Olsen et Patrik Carlgren (8 Janvier)
Andreas Isaksson et Zlatan Ibrahimović (3 Octobre. Désolé M. Ibrahimović, mais vous n’avez rien de spécial !)
Suisse Aucun
Turquie Semih Kaya et Yunus Malli (24 Février)
Hakan Balta et Ozan Tufan (23 Mars)
Ukraine Aucun

Comme vous pouvez le constater, il y a 18 équipes sur 24 qui possèdent au moins deux joueurs nés le même jour, ce qui représente 75% des équipes. Le paradoxe des anniversaires prédisait, quant à lui, qu’environ 50% des équipes auraient au moins deux joueurs nés le même jour. Y a pas quelque chose de louche ? Le nombre d’équipes avec des joueurs nés le même jour n’est-il pas un peu élevé ? Ou bien, cette valeur de 75% est-elle normale et n’est que le fruit du hasard ?

« Tu peux pas test »

Pour le savoir, nous allons faire ce qu’on appelle un test d’hypothèse.

1ère étape: Pour faire un test d’hypothèse, on commence par faire une hypothèse (j’écris vraiment des trucs très cons sur ce blog…) dont on veut tester la validité. Cette hypothèse que l’on veut étudier s’appelle l’hypothèse nulle et dans notre cas nous ferons l’hypothèse nulle suivante:

Dans un groupe de 23 joueurs de l’Euro, la probabilité p que deux soient nés le même jour vaut p = 0,51.

Autrement dit, nous allons tester si les joueurs de l’Euro ont des naissances qui ressemblent à celles du reste de la population. Dans un test d’hypothèse, on se donne aussi une hypothèse alternative. Ici, ce sera:

La probabilité précédente est telle que p>0,51.

2ème étape: On se donne, de manière arbitraire, une certaine probabilité de se tromper lors de notre test, qu’on appelle seuil. Le choix le plus courant est un seuil de 5%: cela signifie que si on arrive à la conclusion que l’hypothèse nulle n’est pas valable, cela sera avec une probabilité de 5% de se tromper (et donc 95% de dire vrai).

3ème étape: On reprend les résultats de notre échantillon de 24 équipes de l’Euro qui disait que 18 équipes avaient au moins deux joueurs nés le même jour et nous allons déterminer quelle était la probabilité d’avoir au moins 18 équipes qui ont au moins deux joueurs nés le même jour, dans le cas où on considère que l’hypothèse nulle est vraie. Cette probabilité qu’on souhaite calculer est la fameuse valeur p ou p-value en Anglais.

Pour calculer cette probabilité, on considérera en première approximation que lorsque nous avons étudié les équipes de l’Euro, nous avons fait 24 tirages indépendants de groupes de 23 personnes, chaque tirage ayant une probabilité p=0,51 de donner un groupe où deux personnes au moins sont nées le même jour. Vous l’avez compris, il s’agit ici d’une loi binomiale de paramètres n=24 et p=0,51. Si on note X le nombre d’équipes qui ont au moins deux joueurs nés le même jour, le calcul de la valeur p revient donc à calculer P(X \geqslant 18) (en rouge sur le schéma suivant).Anniversaires_Euro_loi_binomialeCe qui est bien avec la loi binomiale, c’est qu’on sait parfaitement la calculer. Avec une calculatrice, on trouve P(X \geqslant 18) \simeq 0,015.

4ème étape: Pour finir un test d’hypothèse, on confronte la valeur p avec notre seuil:

  • si la valeur p est plus grande que le seuil, alors on ne peut pas rejeter notre hypothèse nulle;
  • si elle est plus petite, c’est que notre hypothèse nulle est fausse et on peut donc la rejeter.

Ici, il est clair que la valeur p de 0,015 est plus petite que notre seuil de 5\% = 0,05. Autrement dit, il y avait moins de 5% de chances d’avoir au moins 18 équipes qui possèdent au moins deux joueurs nés le même jour (ça fait beaucoup d’ « au moins » !). On peut donc affirmer, avec 5% de chances de se tromper, que la probabilité que, dans un groupe de 23 joueurs de l’Euro, deux soient nés le même jour est strictement plus grande que p=0,51. Il y a donc bien quelque chose qui cloche dans les dates de naissance des joueurs de l’Euro !

Enquête en profondeur

Nous venons de voir que la proportion de 75% d’équipes possédant deux joueurs nés le même jour est anormale et elle suppose que la répartition des naissances des joueurs de l’Euro n’est pas conforme à celle de l’ensemble de la population. Pour comprendre pourquoi, il faut se plonger plus précisément dans les statistiques des dates de naissance des 552 joueurs qui participent à cet Euro. Je m’y suis collé et les voici représentées sous forme de graphique:

Anniversaires_Euro_naissances_par_jourJe précise que les jours de l’année vont jusque 366 car il y a un joueur à cet Euro qui est né le 29 Février (il s’agit de Benedikt Höwedes de l’équipe d’Allemagne). On voit qu’il y a quand même plus de naissances dans la première partie de l’année que dans la deuxième. Pour préciser cela, regroupons les dates de naissance par mois de naissance:

Anniversaires_Euro_naissances_par_moisOn voit maintenant clairement que les cinq premiers mois de l’année sont quand même prédominants (même le mois de Février, qui compte pourtant le moins de jours dans l’année, est le 3ème mois avec le plus de naissances). Si on compare avec les mois de naissance dans la population globale en Europe (voir schéma ci-dessous), on remarque qu’il y a une vraie différence.

Anniversaires_Euro_naissances_par_mois_population_globale source: Wikipédia

Tout est relatif

Pourquoi donc la répartition des naissances chez les joueurs de l’Euro n’est pas la même que dans le reste de la population ? Cette question possède une réponse dans un phénomène appelé Relative age effect (l’effet de l’âge relatif en Français). Ce phénomène dit que les personnes nées en début d’année ont plus de chance de devenir footballeurs professionnels que celles nées dans la 2ème partie de l’année. Il est dû au fait que les catégories de jeunes joueurs sont déterminées par l’âge (moins de 15 ans, moins de 16 ans, moins de 17 ans…) et qu’il y a une date-limite qui est le 1er Janvier pour chaque catégorie. Ainsi, dans une même catégorie d’âge, un jeune né en Janvier aura un écart de développement physique et de maturité plus important qu’un jeune né en Novembre ou Décembre (puisqu’ils auront entre 11 mois et un an d’écart !) et il aura donc plus de chance d’être repéré par des recruteurs. Si vous doutez encore de ce phénomène, consultez l’effectif actuel de l’équipe de France des moins de 17 ans et vous remarquerez que tous, sauf deux, sont nés dans les 6 premiers mois de l’année !

L’effet de l’âge relatif est très marqué pour les footballeurs des jeunes catégories d’âge mais tend à s’estomper dans les catégories plus âgées, sans toutefois jamais disparaître complètement. L’effet de l’âge relatif ne concerne d’ailleurs pas que le Football puisqu’on le retrouve dans tout un tas de sport dont le Hockey ou encore le Baseball. Là encore, c’est la présence d’une date-limite qui crée ce phénomène.

Pour revenir au paradoxe des anniversaires, puisque les naissances des joueurs de l’Euro sont plus concentrées sur certains mois, il y avait donc plus de chances que plusieurs d’entre eux soient nés le même jour.

Sur ce, je vous laisse, je retourne regarder les matchs…

Références:

Advertisements
Cet article, publié dans Dénombrement, Probabilités, est tagué , , , , , , . Ajoutez ce permalien à vos favoris.

12 commentaires pour Le paradoxe des anniversaires à l’Euro 2016

  1. dit :

    C’est trop génial tout ça ! Excellent article ! Ça explique pourquoi je ne suis pas en équipe de France… 😉

  2. LGr dit :

    Je découvre tout juste le blog. L’article est super ! Félicitations

  3. Super, merci pour cet article à la portée des lycéens. J’ai l’intuition que la répartition uniforme est la pire possible pour le pb des anniversaires.
    Conjecture: Soit une distribution P sur {1…366}, la probabilité que sur 23 nombres tirés au hasard selon P, deux soient identiques est supérieure à 0,5.

    • blogdemaths dit :

      En effet, votre intuition est la bonne 😉 La distribution uniforme est celle pour laquelle la probabilité que deux personnes soient nées le même jour est minimale. Une démonstration est donnée dans l’article que j’ai mis en référence (The Uniformity Assumption in the Birthday Problem)

  4. Madjer dit :

    Très sympa, merci 🙂

  5. Très bien expliqué, bravo 😀

  6. The Dude dit :

    Excellent article (comme d’habitude)! Merci 🙂 Et bon match !

  7. Astrologie et mathématiques un partenariat plein d’avenir !
    Etudier la distribution du jour des naissance des ministres pourrais aussi être sympa.
    On pourra en sortir un programme: brave gens baisez mais pas n’importe quand!

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s