Mais je ne suis jamais sondé !
Par David Monniaux le mercredi, mai 23 2012, 22:19 - Société - Lien permanent
Un récent article du site Acrimed met en doute la pertinence et la sincérité d'un récent sondage québécois, dont les résultats indiqueraient que la population québécoise soutient largement la politique de fermeté du gouvernement à l'encontre des étudiants grévistes et manifestants. Je ne m'exprimerai pas ici sur la situation politique québécoise (que je ne connais pas suffisamment pour avoir un avis non schématique), et me concentrerai sur un argument de cet article mettant en cause la légitimité de ce sondage :
Tout d’abord, le taux de sondage est très faible, soit 1 / 10 000. Un biais inévitable mais jamais rappelé par les médias qui utilisent sans vergogne les résultats d’enquête pour vendre du papier. En effet, peut-on sereinement affirmer que la« population appuie massivement » lorsque 1 personne sur 10 000 a été sollicitée ?
Si le reste de cet article formule des arguments pertinents, il se trouve que l'argument ci-dessus, s'il reflète un certain « bon sens », est incorrect ; on peut même démontrer qu'il est mathématiquement faux.
La théorie des probabilités et des statistiques est une branche des mathématiques, et on dispose en la matière de résultats aussi solides que, pour prendre des résultats familiers, le fait que l'aire d'un disque de rayon r est πr². Je vais donc expliquer de quoi il s'agit, sans technicité excessive ; toutefois, avant d'aborder le vif du sujet, je veux rappeler que la grande difficulté des mathématiques, c'est de savoir quand on a le droit d'appliquer tel ou tel concept mathématique à des problèmes du monde réel. Ainsi, si votre disque est tracé non pas sur un plan, mais sur la surface d'une sphère, le théorème ci-dessus devient faux... Il sera toutefois raisonnable de considérer que sur une surface presque plane, la surface du disque sera presque πr² ; mais encore faut-il vérifier si nous sommes bien dans ce cas ! Les erreurs d'usage des mathématique sont le plus souvent des erreurs de modélisation, c'est-à-dire que l'on applique des résultats de mathématiques valables sous certaines conditions à une réalité physique ou sociale qui ne vérifient pas ces conditions.
Ces remarques liminaires passées, voyons pourquoi le « taux de sondage » de 1 / 10000 ne pose aucun problème. Il s'agit d'une objection courante envers les sondages : « comment peut-on prétendre connaître l'opinion de la population d'un pays de 60 millions d'habitants avec seulement 1000 personnes » ou encore « moi, je ne suis jamais sondé ». Pourtant, elle n'est pas pertinente ; voyons pourquoi.
Imaginons que vous avez devant vous un conteneur contenant 60000 billes roses et 40000 billes bleues, très bien mélangées. Vous en tirez 100 à l'aveuglette. Est-il possible d'en tirer 100 toutes de la même couleur ? Bien sûr, c'est possible mais très improbable (je vous passe le calcul mathématique donnant la probabilité de pareil résultat, mais elle est très faible). Est-il possible d'en tirer 95 d'une couleur et 5 d'une autre ? On sent que c'est un peu plus probable qu'un tirage uniforme d'une couleur, mais que c'est tout de même très peu probable. Intuitivement, on devrait en tirer « environ » 60 roses et 40 bleues, et plus on s'écarte de ce résultat « idéal », moins cela devient probable. En revanche, il est très probable que l'on n'obtienne pas exactement 60/40, mais plutôt des résultats à plus ou moins 10 billes, par exemple 67/33 ou 55/45.
Ces intuitions que nous avant devant ce problème simple peuvent se démontrer mathématiquement (on analyse une loi de Bernoulli puis une loi binomiale, on applique la loi des grands nombres ou le théorème de la limite centrale, ou encore la borne de Chernoff — et chacune de ces lois ou théorèmes peut se démontrer à partir de principes plus simples...).
Supposons maintenant qu'au lieu de 100000 billes, nous ayons dix millions de personnes votant « rose » à 60% ou « bleu » à 40%, et que nous en tirions 100 au hasard (au vrai hasard). Le résultat serait le même, les résultats mathématiques utilisés restent valables indépendamment de ce « taux de sondage » qui fait s'indigner l'auteur de l'article cité : nous devrions « environ » tirer 60 roses et 40 bleues, et en tout état de cause il serait très improbable (mais pas impossible) de tirer 100 roses, ou même 95 roses. Cependant, cet « environ » n'est pas précis : il est assez probable d'avoir un résultat du type 67/33 ou 55/45.
En résumé, quand nous tirons des billes (ou des personnes) au sort parfait dans une population et que nous observons leur couleur (réelle ou politique), nous devons tomber « environ » sur la proportion qu'elles ont dans la population dans son ensemble... mais cet « environ » donne une certaine marge d'erreur probabiliste : il est très improbable que si nous tirons, disons, 1000 billes ou 1000 personnes, notre sondage nous donne 80/20 alors que la proportion dans l'ensemble de la population est 60/40. On sait même calculer les fameuses « marges d'erreur », appelées plus proprement « intervalles de confiance ». On parle parfois d'intervalles à 95% de probabilité : cela veut dire que si l'on faisait de nombreux tirages, ou sondages, dans les mêmes conditions, seul un sondage sur 20 environ (soit 5% des cas, le complémentaire de 95%) donnerait un résultat sortant de cet intervalle.
Première limitation des sondages politiques : pour diviser par deux la taille d'un intervalle de confiance (par exemple le fameux intervalle à 95%), il faut multiplier par quatre le nombre de sondés. Cela devient vite prohibitif. Ceci explique que les sondages politiques courants, même s'ils étaient réalisés dans des conditions idéales (électeurs tirés parfaitement au sort, ayant décidé de leur vote et répondant sincèrement aux questions), auraient des marges d'erreur de plusieurs pourcents. Autant dire que toute personne qui a fait un tant soit peu de probabilités-statistiques s'esclaffe en entendant politiciens et journalistes s'esbaudir de variations de +0,2% ou -0,4% ou s'écharper sur pourquoi un sondage dit 51% et l'autre 53%.
Deuxième limitation des sondages : si on en fait beaucoup (et en période électorale, on en fait beaucoup), dans la masse, certains peuvent donner des résultats s'écartant significativement des proportions effectives dans la population. Si un sondage sur 20 en moyenne donne un résultat sortant des « marges d'erreur » (probablement appelées intervalle de confiance à 95%... si toutefois ils ne prennent pas une mesure plus laxiste, du type intervalle à 67% !), cela veut dire qu'en période électorale il est à peu près certain qu'un sondage donnera un résultat s'écartant sensiblement de la réalité du vote. Là encore, celui qui a étudié les mathématiques est atterré par le commentaire qui en est fait. (La BD en ligne XKCD a publié une planche humoristique sur le même thème, appliquée à la recherche médicale...)
Troisième limitation, et là nous en revenons aux limites d'application des mathématiques au monde physique ou social, évoquées au début de ce billet. Les résultats ci-dessus supposent que les personnes sondées sont tirées parfaitement au hasard parmi la population visée (billes ou électeurs... non que je prenne les électeurs pour des billes !), qu'elles sont effectivement joignables, qu'elles ont une réponse fixée pour la question posée et la communiquent sincèrement au sondeur. Or, dans la réalité, ce n'est pas cela qui se passe.
Un sondage par téléphone fixe, fait sans précautions, va naturellement produire un échantillon de personnes dont le profil sera différent de celui de la population en général : de nombreux jeunes n'ont pas de téléphone fixe, et ceux qui en ont sont éventuellement sortis au moment de l'appel. On surreprésentera donc les personnes âgées, les personnes au foyer, les chômeurs, etc. Si l'on procède sur Internet, on surreprésentera les population à l'aise avec Internet ou avec du temps libre pour « surfer ». Si l'on sonde dans la rue en fin d'après-midi en centre-ville, on surreprésente les populations qui sortent en ville à ce moment (jeunes urbains?) et on ignore les autres (personnes âgées, vivant à la campagne ou dans des quartiers pauvres des périphéries?). Même si l'on tirait des gens parfaitement aléatoirement parmi la population, on introduirait un bias tout simplement en ignorant ceux que l'on n'arrive pas à joindre. Pour éviter des biais de sondage aussi flagrants, les sondeurs procèdent par quotas : ils essayent d'avoir un échantillon dont les proportions de telle ou telle catégorie de population (ruraux/urbains, riches/pauvres, jeunes/vieux...) sont environ celles de la population visée. Je ne connais pas suffisamment les sondages pour savoir si cette méthode des quotas est réellement efficace pour réduire les biais des sondages politiques.
En tout état de cause, un sondage mené par Internet auprès de personnes rémunérées pour répondre, comme dans l'exemple cité, risque de souffrir d'un biais : quel type de population est prête à passer du temps à répondre à des sondages pour gagner des sommes modiques ? Pire : un sondage sur un site d'actualité, auquel ne répondront peut-être que les personnes ayant un avis très marqué sur la question (voir la prévalence d'opinions très tranchées, voire extrêmes, dans les commentaires de ces sites).
Autres difficulté : si l'on vous demande à brûle-pourpoint votre avis sur une question à laquelle vous n'avez pas réfléchi, vous pouvez répondre sincèrement que nous ne savez pas, mais comme cela semble admettre une certaine indifférence, voire manque d'intelligence, vous serez peut-être tenter de vous former rapidement une opinion, qui ne sera pas forcément celle avec laquelle vous iriez voter. Enfin, il y a le problème des réponses non sincères. Une anecdote : il semble que si l'on demande aux habitants des États-Unis s'ils vont régulièrement à l'Église le dimanche, les résultats obtenus reflètent plutôt la portion de population qui estime que ce serait une bonne chose de le faire que celle qui le fait réellement (voir par exemple cette étude) ! En France, les sondeurs appliquent donc des « correctifs » du type « 10% des personnes qui disent voter Nicolas Sarkozy votent en fait Marine Le Pen ». Les instituts de sondage ne donnent pas ces « matrices de correction » et n'expliquent pas comment ils les ont constituées (ce qui peut laisser craindre qu'elles soient en partie... « au pif ») ; très clairement ce n'est pas simple de les reconstituer à partir des données électorales (voici par exemple ce que cela donne quand un mathématicien plutôt doué mais absolument pas spécialiste des sondages essaye d'y arriver).
Enfin, je n'ai pas abordé le problème de la question posée. Chacun sait que la façon dont l'on tourne une question, ou dont on l'amène après d'autres, peut changer la réponse...
Toujours est-il qu'il y a d'excellentes raisons de se méfier des sondages sans avoir besoin d'en évoquer des mauvaises !
(Mon éminent collègue Gilles Dowek a écrit un petit livre grand public sur les sondages, que je n'ai pas lu mais qui est probablement très bien, vu les qualités didactiques habituelles de l'auteur. Voir aussi cet article.)
Commentaires
de la suite dans les iid....
Très bon article. Cette absence d'influence de la taille de la population m'avait aussi surpris : qu'on sonde mille personne en france ou en Chine, c'est pareil au niveau de la marge d'erreur. Pour la méthode des quotas, je crois qu'on constate empiriquement, c'est à dire après en avoir fait suffisamment, que la marge d'erreur est plus faible, mais je ne crois pas qu'on sache très bien la calculer a priori (en tout cas je n'ai rien lu de très précis sur ce sujet), puisque l'on a du mal à modéliser précisément entre opinion et catégorie socio-professionnelle.
J'ai souvenir également d'un sondage qui disait : Marine le Pen en tête chez les jeunes. Effectivement il s'agissait d'un sondage : 1000 personnes interrogées, mais on avait extrait de ces 1000 les résultats des jeunes, qui devaient être 200 environ. A 25% d'opinion favorable, cela représentait 50 jeunes qui s'étaient dit en faveur de Le Pen, et l'on nous présentait ce résultat comme représentatif de la situation nationale.
Les 200, plus que les 50 étaient le problème pour la marge d'erreur, mais ne vient-il pas s'ajouter des % d'erreurs supplémentaires en raison de petits effectifs ?
Quelque chose qui n'est pas forcément tout le temps pris en compte : on suppose que la personne a forcément un choix définitif. Malheureusement, c'est comme la mécanique quantique, l'observation (ici le vote qui n'est plus anonyme) modifie les résultats de l'expérience.
J'ai un peu mélangé deux notions dans mon post précédent:
-On suppose que la personne a un avis relativement tranché (exemple dans le cas d'élections : elle sait pour qui elle va voter): c'est un point qui n'est pas forcément vrai et ce n'est pas assez pris en compte dans les sondages selon moi.
-L'observation modifie l'expérience : David Monniaux y fait référence dans son post en parlant des fameuses corrections. Ce phénomène est pris en compte mais a priori de façon assez obscure en faisant de la petite cuisine.
En fait, pour améliorer la qualité des résultats, les instituts de sondage n'interrogent pas des gens au hasard dans la rue, ce qui provoquerait des effets de sélections rédhibitoires (les gens qui sont sur le trottoir du boulevard Saint-Michel à midi en semaine ne constituent pas un échantillon représentatif), mais ils utilisent la méthode des quota : les enquêteurs doivent ramener un certain volume de questionnaires, où ils auront telle proportion de jeunes, telle proportion de femmes, telle proportion de telle catégorie socio-professionelle, etc. Sinon les résultats seraient très mauvais.
Le succès des sondages d'opinion a été établi par Gallup lors des élections américaines de 1936, où il prédit la victoire de Roosevelt avec un échantillon très petit, alors que certains journaux, qui avaient sollicité l'opinion de leurs lecteurs, avaient recueilli des échantillons de plusieurs millions d'unités, mais auto-sélectionnés, donc très mauvais, et prédit la victoire de Landon, que tout le monde a oublié.
@Laurent: Je parle de cette méthode des quotas dans mon article, mais elle fait une grosse hypothèse : que les catégories utilisées (âge, CSP, sexe...) suffisamment à absorber entièrement le biais de sondage.