La théorie des probabilités et des statistiques est une branche des mathématiques, et on dispose en la matière de résultats aussi solides que, pour prendre des résultats familiers, le fait que l'aire d'un disque de rayon r est π. Je vais donc expliquer de quoi il s'agit, sans technicité excessive ; toutefois, avant d'aborder le vif du sujet, je veux rappeler que la grande difficulté des mathématiques, c'est de savoir quand on a le droit d'appliquer tel ou tel concept mathématique à des problèmes du monde réel. Ainsi, si votre disque est tracé non pas sur un plan, mais sur la surface d'une sphère, le théorème ci-dessus devient faux... Il sera toutefois raisonnable de considérer que sur une surface presque plane, la surface du disque sera presque π ; mais encore faut-il vérifier si nous sommes bien dans ce cas ! Les erreurs d'usage des mathématique sont le plus souvent des erreurs de modélisation, c'est-à-dire que l'on applique des résultats de mathématiques valables sous certaines conditions à une réalité physique ou sociale qui ne vérifient pas ces conditions.

Ces remarques liminaires passées, voyons pourquoi le « taux de sondage » de 1 / 10000 ne pose aucun problème. Il s'agit d'une objection courante envers les sondages : « comment peut-on prétendre connaître l'opinion de la population d'un pays de 60 millions d'habitants avec seulement 1000 personnes » ou encore « moi, je ne suis jamais sondé ». Pourtant, elle n'est pas pertinente ; voyons pourquoi.

Imaginons que vous avez devant vous un conteneur contenant 60000 billes roses et 40000 billes bleues, très bien mélangées. Vous en tirez 100 à l'aveuglette. Est-il possible d'en tirer 100 toutes de la même couleur ? Bien sûr, c'est possible mais très improbable (je vous passe le calcul mathématique donnant la probabilité de pareil résultat, mais elle est très faible). Est-il possible d'en tirer 95 d'une couleur et 5 d'une autre ? On sent que c'est un peu plus probable qu'un tirage uniforme d'une couleur, mais que c'est tout de même très peu probable. Intuitivement, on devrait en tirer « environ » 60 roses et 40 bleues, et plus on s'écarte de ce résultat « idéal », moins cela devient probable. En revanche, il est très probable que l'on n'obtienne pas exactement 60/40, mais plutôt des résultats à plus ou moins 10 billes, par exemple 67/33 ou 55/45.

Ces intuitions que nous avant devant ce problème simple peuvent se démontrer mathématiquement (on analyse une loi de Bernoulli puis une loi binomiale, on applique la loi des grands nombres ou le théorème de la limite centrale, ou encore la borne de Chernoff — et chacune de ces lois ou théorèmes peut se démontrer à partir de principes plus simples...).

Supposons maintenant qu'au lieu de 100000 billes, nous ayons dix millions de personnes votant « rose » à 60% ou « bleu » à 40%, et que nous en tirions 100 au hasard (au vrai hasard). Le résultat serait le même, les résultats mathématiques utilisés restent valables indépendamment de ce « taux de sondage » qui fait s'indigner l'auteur de l'article cité : nous devrions « environ » tirer 60 roses et 40 bleues, et en tout état de cause il serait très improbable (mais pas impossible) de tirer 100 roses, ou même 95 roses. Cependant, cet « environ » n'est pas précis : il est assez probable d'avoir un résultat du type 67/33 ou 55/45.

En résumé, quand nous tirons des billes (ou des personnes) au sort parfait dans une population et que nous observons leur couleur (réelle ou politique), nous devons tomber « environ » sur la proportion qu'elles ont dans la population dans son ensemble... mais cet « environ » donne une certaine marge d'erreur probabiliste : il est très improbable que si nous tirons, disons, 1000 billes ou 1000 personnes, notre sondage nous donne 80/20 alors que la proportion dans l'ensemble de la population est 60/40. On sait même calculer les fameuses « marges d'erreur », appelées plus proprement « intervalles de confiance ». On parle parfois d'intervalles à 95% de probabilité : cela veut dire que si l'on faisait de nombreux tirages, ou sondages, dans les mêmes conditions, seul un sondage sur 20 environ (soit 5% des cas, le complémentaire de 95%) donnerait un résultat sortant de cet intervalle.

Première limitation des sondages politiques : pour diviser par deux la taille d'un intervalle de confiance (par exemple le fameux intervalle à 95%), il faut multiplier par quatre le nombre de sondés. Cela devient vite prohibitif. Ceci explique que les sondages politiques courants, même s'ils étaient réalisés dans des conditions idéales (électeurs tirés parfaitement au sort, ayant décidé de leur vote et répondant sincèrement aux questions), auraient des marges d'erreur de plusieurs pourcents. Autant dire que toute personne qui a fait un tant soit peu de probabilités-statistiques s'esclaffe en entendant politiciens et journalistes s'esbaudir de variations de +0,2% ou -0,4% ou s'écharper sur pourquoi un sondage dit 51% et l'autre 53%.

Deuxième limitation des sondages : si on en fait beaucoup (et en période électorale, on en fait beaucoup), dans la masse, certains peuvent donner des résultats s'écartant significativement des proportions effectives dans la population. Si un sondage sur 20 en moyenne donne un résultat sortant des « marges d'erreur » (probablement appelées intervalle de confiance à 95%... si toutefois ils ne prennent pas une mesure plus laxiste, du type intervalle à 67% !), cela veut dire qu'en période électorale il est à peu près certain qu'un sondage donnera un résultat s'écartant sensiblement de la réalité du vote. Là encore, celui qui a étudié les mathématiques est atterré par le commentaire qui en est fait. (La BD en ligne XKCD a publié une planche humoristique sur le même thème, appliquée à la recherche médicale...)

Troisième limitation, et là nous en revenons aux limites d'application des mathématiques au monde physique ou social, évoquées au début de ce billet. Les résultats ci-dessus supposent que les personnes sondées sont tirées parfaitement au hasard parmi la population visée (billes ou électeurs... non que je prenne les électeurs pour des billes !), qu'elles sont effectivement joignables, qu'elles ont une réponse fixée pour la question posée et la communiquent sincèrement au sondeur. Or, dans la réalité, ce n'est pas cela qui se passe.

Un sondage par téléphone fixe, fait sans précautions, va naturellement produire un échantillon de personnes dont le profil sera différent de celui de la population en général : de nombreux jeunes n'ont pas de téléphone fixe, et ceux qui en ont sont éventuellement sortis au moment de l'appel. On surreprésentera donc les personnes âgées, les personnes au foyer, les chômeurs, etc. Si l'on procède sur Internet, on surreprésentera les population à l'aise avec Internet ou avec du temps libre pour « surfer ». Si l'on sonde dans la rue en fin d'après-midi en centre-ville, on surreprésente les populations qui sortent en ville à ce moment (jeunes urbains?) et on ignore les autres (personnes âgées, vivant à la campagne ou dans des quartiers pauvres des périphéries?). Même si l'on tirait des gens parfaitement aléatoirement parmi la population, on introduirait un bias tout simplement en ignorant ceux que l'on n'arrive pas à joindre. Pour éviter des biais de sondage aussi flagrants, les sondeurs procèdent par quotas : ils essayent d'avoir un échantillon dont les proportions de telle ou telle catégorie de population (ruraux/urbains, riches/pauvres, jeunes/vieux...) sont environ celles de la population visée. Je ne connais pas suffisamment les sondages pour savoir si cette méthode des quotas est réellement efficace pour réduire les biais des sondages politiques.

En tout état de cause, un sondage mené par Internet auprès de personnes rémunérées pour répondre, comme dans l'exemple cité, risque de souffrir d'un biais : quel type de population est prête à passer du temps à répondre à des sondages pour gagner des sommes modiques ? Pire : un sondage sur un site d'actualité, auquel ne répondront peut-être que les personnes ayant un avis très marqué sur la question (voir la prévalence d'opinions très tranchées, voire extrêmes, dans les commentaires de ces sites).

Autres difficulté : si l'on vous demande à brûle-pourpoint votre avis sur une question à laquelle vous n'avez pas réfléchi, vous pouvez répondre sincèrement que nous ne savez pas, mais comme cela semble admettre une certaine indifférence, voire manque d'intelligence, vous serez peut-être tenter de vous former rapidement une opinion, qui ne sera pas forcément celle avec laquelle vous iriez voter. Enfin, il y a le problème des réponses non sincères. Une anecdote : il semble que si l'on demande aux habitants des États-Unis s'ils vont régulièrement à l'Église le dimanche, les résultats obtenus reflètent plutôt la portion de population qui estime que ce serait une bonne chose de le faire que celle qui le fait réellement (voir par exemple cette étude) ! En France, les sondeurs appliquent donc des « correctifs » du type « 10% des personnes qui disent voter Nicolas Sarkozy votent en fait Marine Le Pen ». Les instituts de sondage ne donnent pas ces « matrices de correction » et n'expliquent pas comment ils les ont constituées (ce qui peut laisser craindre qu'elles soient en partie... « au pif ») ; très clairement ce n'est pas simple de les reconstituer à partir des données électorales (voici par exemple ce que cela donne quand un mathématicien plutôt doué mais absolument pas spécialiste des sondages essaye d'y arriver).

Enfin, je n'ai pas abordé le problème de la question posée. Chacun sait que la façon dont l'on tourne une question, ou dont on l'amène après d'autres, peut changer la réponse...

Toujours est-il qu'il y a d'excellentes raisons de se méfier des sondages sans avoir besoin d'en évoquer des mauvaises !

(Mon éminent collègue Gilles Dowek a écrit un petit livre grand public sur les sondages, que je n'ai pas lu mais qui est probablement très bien, vu les qualités didactiques habituelles de l'auteur. Voir aussi cet article.)