Corrélation n'est pas causation
Par David Monniaux le mardi, juillet 10 2012, 14:50 - (Mal)journalisme - Lien permanent
Voici comment le journal 20 Minutes interprète les travaux de mon médiatique collègue Baptiste Coulmont au sujet du lien entre prénom et mention au bac (Les prénoms qui favorisent les mentions au bac, par Delphine Bancaud, 10 juillet 2012) :
Des prénoms qui favorisent la réussite ... en 2011 « plus de 25 % des Madeleine, Irene, Côme et Ariane qui ont passé le bac ont reçu mention très bien ». ... A l'inverse, aucun des quelque 125 Youssef et 105 Nabil n'ont obtenu de mention très bien. Mais plus de 30 % d'entre eux sont dans la situation de passer l'oral de rattrapage. Seules une ou deux Sandy, Alison ou Sofiane ont décroché la mention très bien. Des informations qui vont peut-être influencer les futurs parents…
20 Minutes semble interpréter ces travaux comme établissant un lien de cause à effet entre le prénom de l'enfant et sa future réussite scolaire. Bien entendu, un tel lien n'est pas exclu, le prénom diffusant une certaine image sociale qui peut entraîner, en quelque sorte, une prophétie auto-réalisatrice (par exemple, le prénom Kevin est connoté auprès de certains milieux comme « fils de beaufs qui regardent trop les séries américaines »). Il me semble toutefois que ce que Baptiste Coulmont voulait mesurer est une corrélation indirecte, le prénom comme le niveau scolaire étant largement conséquences du milieu social des parents.
Comme souvent, corrélation n'est pas causation.
Commentaires
je ne comprends pas bien le contre exemple "Kevin", qui justement évoque, à tort ou à raison, une cause commune non observée dans les PV de bac.
Qu'est-ce qu'une corrélation indirecte ? On a deux variables, qui semble corrélées - la corrélation mesurée ne dit du mécanisme interne liant ces variables, c'est la mécanique causale qui, elle, peut avoir plusieurs niveaux et plusieurs formes d'indirection. - Exemples célèbres des tremblements de terre, l'alarme qui sonne, la pelouse mouillée, la pluie, le voleur......
Enfin, un complément d'information qui serait facile à obtenir : ajouter la variable "série du bac". On pourrait ainsi savoir par exemple si la distribution de probabilité des mentions dépend du directement du prénom, indépendamment de la filière de terminale, ou si on contraire la connaissance de la filière contient toute l'information et que le prénom n'apporte pas d'info supplémentaire.
sans compter qu'une corrélation nulle entre variables aléatoires ne garantit pas une indépendance - même si en pratique ce problème arrive rarement - la corrélation se limite généralement aux stats d'ordre faible, tandis que la dépendance s'appuie sur toute la distribution de probabilité....
Il me semblait que les noms et prénoms étaient cachés sur les copies du bac?
Et sinon, pour le plaisir : http://xkcd.com/552/
DS : je vous rappelle le site français qui publie la traduction de xkcd :
http://www.lirmm.fr/~gambette/xkcd/...
Le monde a aussi repris ce billet, mais en le faisant bien.
http://www.lemonde.fr/ecole-primair...
@Raphael : Pas vraiment. La première phrase de l'article du Monde est "Pour décrocher une mention "très bien" au bac, mieux vaut s'appeler Madeleine, Irène, Côme ou Ariane".
@Yang: Attention, dans les journaux, il est courant que le titre et les sous-titres mis en exergue ne soient pas écrits par le journaliste qui a rédigé et signé l'article, d'où parfois un message différent dans le titre et le corps de l'article.
Comme le dit PR27 tu peux affiner ta corrélation en faisant les probabilités conditionnelles par rapport a des variables (auparavant) cachées, ce qui "intuitivement" te rapproche de la causalité.
En fait j'avais même cru comprendre que Judea Pearl (2000) définissait la cause comme étant la variable qui maximise la probabilité conditionnelle sur l'ensemble de toutes les variables cachées possibles (en gros) légitimant ainsi l’idée qu'une très bonne corrélation n'est pas "très loin" d'une causalité et que l'on peut chercher des "causes communes" par variables cachées.
L'exercice classique étant l’étude sur les condamnes a mort aux Etats Unis
- les assassins blancs sont plus souvent condamnes a mort que les noirs => la justice n'est pas raciste
- quand on tue un blanc on est plus souvent condamne a mort que quand on tue un noir => la justice est raciste
[on arrive a deux conclusions opposées par probabilité conditionnelle en fonction de la variable utilisée pour conditionner - couleur de peau du meurtrier ou de la victime]
Dans tous les cas s'il est vrai que corrélation n’égale pas causalité, ce que je conseille de retenir c'est qu'on ne peut se contenter de cet aphorisme et qu'il y a des notions de causalité affaiblies qui ne sont certes pas tout a fait satisfaisantes encore mais qui sont exploitables et partiellement calculables. Et qu'on travaille a les améliorer.
@Couard: Cher collègue, tu es bien sûr conscient que ce que tu racontes passe à mille lieues aux dessus de la tête des journalistes qui voudraient utiliser des statistiques pour en tirer de la causalité ? J'ai peur qu'à ce niveau de vulgarisation, il faille se tenir à un message simple plutôt que de vouloir le raffiner, car le raffinement sera mal compris et mal utilisé.
je vois que donc...
il est établi que les personnes ayant des taches de rousseur ont moins de sous que celles qui n'en n'ont pas dans une population caucasienne. Est-ce que les roux ont intrinsèquement moins le sens des affaires?
> Cher collègue, tu es bien sûr conscient que ce que
> tu racontes passe à mille lieues aux dessus de la
> tête des journalistes
Oui mais le but de ton blog n'est pas juste de dire du mal des journalistes, même s'ils le méritent bien. Je ne puis que difficilement juger du niveau des lecteurs de ton blog mais par les commentaires qu'ils laissent je suis certain qu'ils sont loin d’être des incompétents.
Et puis en commentaire on peut bien se permettre quelques scholies.
@Couard: Ce que je veux dire, c'est que si tu as un truc qui, en première approche, est scientifiquement faux, mais qui peut tout de même avoir une part de vrai à condition d'utiliser des techniques mathématiques un peu fines et des précautions d'interprétation, alors, pour un public général, il vaut mieux s'en tenir à la première approche, sous peine de susciter la confusion des esprits. :-)
Pour résumer, en zététique on appelle ça un effet cigogne : en matière de vulgarisation, ça peut parler aux journalistes.
Dans le Monde Maryline Baumard a ajouté la phrase : " Dans un système éducatif où 90,6 % des enfants de professeurs ont un bac contre 38 % des enfants d'employés (selon le suivi des enfants entrés au collège en 2005) ", statistique qui est une pure invention de sa part (le taux réel pour la cohorte entrée au collège en 1995, seul disponible aujourd'hui dans les documents diffusés par la DEPP (RERS 2011) était déjà de 57% des enfants d'employés; il n'a pu qu'augmenter depuis).
D'autre part comment pourrait-elle connaître les chiffres relatifs à la cohorte entrée en 6ème en 2005, dont seuls les non redoublants ont passé le bac en 2012 ?
Cette diffusion de faux chiffres destinés donner de l'enseignement français une image pire que la réalité est habituelle sous sa plume (autres exemples disponibles).
Ceci étant, en tant que francophone, je suis ravi qu'en 2012 la fait de donner en France à ses enfants un prénom anglophone soit la signe de l'appartenance à une catégorie sociale défavorisée plutôt que l'inverse.