"Fiabilité" des sondages

de **PhB** » Ven 13 Mar 2026 09:47

Je ne sais pas trop où placer cette information.
Dans "The Conversation", un statisticien donne des clefs pour comprendre et évaluer les incertitudes des sondages.
Les fameuses "marges d'erreur" affichées reposent sur l'hypothèse mathématique que l'échantillon est aléatoire alors qu'en pratique il est construit par la méthode des quotas... Cette méthode, censée améliorer la précision, peut aboutir à aggraver les biais et erreurs dans le même sens pour tous les sondeurs...
Et pour les projections en sièges c'est bien pire, puisque les circonstances locales de chaque siège augmentent les incertitudes inhérentes aux sondages sur lesquels s'appuient ces projections...
En résumé :
. Il est essentiel de comprendre et savoir interpréter les limites des sondages... ce que très peu d'entre nous maîtrisent
. Les "marges d'erreur" constatées sont plutôt du double de celles qui sont revendiquées
. Les sondeurs sont vulnérables à une erreur collective homogène dans le même sens, donnant l'illusion d'une tendance inexistante, par le phénomène de la "communauté de biais"
. Quant aux projections en sièges, elles n'ont pas beaucoup plus de précision que le pifomètre ou le jeu de dés...

de **Azertyuiop** » Ven 13 Mar 2026 13:04

La situation que vous décrivez est une conséquence du théorème de Lehmann-Scheffé

Pour faire simple, il stipule que lorsque nous acceptons de considérer un estimateur non biaisé, il y aura toujours une certaine variance qu'il est impossible de réduire, à moins bien sûr d'augmenter la taille de l'échantillon, mais ceci a un coût financier.

Mais cela ne dit rien de la possible réduction de la variance si on considère un estimateur biaisé. Et bien souvent en statistique, il est préférable d'avoir un biais et une faible variance, surtout d'ailleurs si on arrive à connaître le biais. Il vaut mieux pour se repérer une boussole qui indique systématiquement le Sud qu'une boussole qui oscille aléatoirement entre le Nord-Ouest et le Nord-Est !

Le principe est le suivant : grâce à la méthode des quotas dans un premier temps, puis à la pondération des observations dans un second temps, on s'assure que la représentation de la population selon certaines variables est plus proche de la population à représenter que l'échantillon brut. Par exemple, si on se rend compte qu'il y a beaucoup de retraités et peu de jeunes dans un échantillon tiré aléatoirement, on pourra se dire, que tout sans biais notre échantillon soit-il, il y a quand même fort à parier que nous allons, en tenance, tomber à droite de la marge d'erreur pour les candidats centristes et à gauche de la marge d'erreur pour les candidats de gauche. Le redressement permet de rogner cela. Mais Lehmann-Scheff nous rappelle que nous ne pouvons mathématiquement améliorer la variance sans sacrifice sur le biais. Ce dernier s'exprime notamment parce qu'il n'y a pas de manière unique et neutre de redresser un échantillon. Par exemple, si on le redresse selon l'âge, on peut choisir de le redresser selon :

Deux tranche d'âge : moins de 50 ans et plus de 50 ans, par exemple
Trois tranches d'âge : moins de 30, entre 30 et 60 et plus de 60, par exemple
Quatre tranches d'âge : 18-24, 25-34, 34-60, plus de 60 par exemple

Ou même n'importe quoi d'autre en fait. Pour quelque chose comme les tranches d'âge, il y pléthore de possibilités, comme pour les tranches de revenus. Et bien entendu, le choix de la segmentation choisie est totalement arbitraire, chacune aura pour vertu de réduire la variance des résultats, et aucune ne donnera bien entendu les mêmes résultats, notamment en terme de biais.

Et c'est en grande partie pour cette raison que l'on insiste souvent pour comparer deux sondages d'un même institut et non pas deux sondages de deux instituts différents. Car si deux sondeurs ont des méthodes de redressement différentes, les biais seront naturellement différents.

D'ailleurs, petit cas pratique : j'ai remarqué que depuis que l'institut Cluster17 réalise des sondages nationaux, cet institut avait un biais compris entre 0,5 et 1 point en défaveur du RN et une variance nulle ou complètement anecdotique. Du coup, pour faire mes pronostics de résultats électoraux concernant le RN, je prends le dernier sondage de Cluster17 et j'ajoute 0,5 ou 1 point pour obtenir mon pronostic concernant le RN, ce qui ne m'a pas trahi pour les européennes. Autant dire que dans ce cas, que le sondeur soit un peu biaisé n'a aucune importance pour réaliser une prévision :-)

J'ai aussi retrouvé ce message que j'avais rédigé il y a quelques années sur ce même forum pour illustrer avec l'exemple du vote Le Pen en 2002 le phénomène de mécompréhension du sens profond de ce qu'est une marge d'erreur statistique.

C'est un peu pour toutes ces raisons que je parle le moins possible de marge d'erreur quand j'évoque des sondages. De manière générale, les connaissances en statistiques de quelqu'un sont souvent inversement proportionnelles à sa faculté à convoquer la marge d'erreur pour tempérer les résultats d'un sondage.

de **PhB** » Ven 13 Mar 2026 15:47

Merci pour ces précisions.

Sachant aussi que, si j'ai bien compris, la définition de la marge d'erreur est probabiliste et qu'il est (mathématiquement) normal de trouver de temps en temps des erreurs... supérieures à la "marge d'erreur".

Pour illustrer de manière extrême et très caricaturale, si je faisais un sondage en ayant l'insigne malchance de tomber, par hasard, systématiquement sur des partisans du même candidat, je me retrouverais avec un résultat de 100% des intentions de vote pour ce candidat, absolument pas représentatif de la réalité, et j'exploserais la marge d'erreur. Situation certes très improbable mais pas impossible (surtout si l'échantillon est riquiqui).
De même que si on jette un dé de multiples fois la moyenne statistique tournera autour de 3,5 et globalement on s'en rapprochera d'autant plus que le nombre d'essais sera important, avec une "marge d'erreur" qui diminue au fil du temps. Mais on pourra tout à fait avoir dans cette série, de manière inopinée, une longue suite de "2".

Mais vous saurez probablement l'expliquer mieux que moi :-)

de **Azertyuiop** » Ven 13 Mar 2026 23:18

Oui, après ce que vous soulignez a surtout une portée théorique mais qui ne s'observe jamais en pratique. Par exemple, même en sondant le second tour de la présidentielle de 2002, le fait de sonder 100 personnes avec une méthode purement aléatoire et de ne tomber que sur des électeurs de Chirac (en considérant que les abstentionnistes n'existent pas) n'arriverait qu'une fois toutes les 415 millions de fois. Mais cela montre qu'il y a effectivement une marge d'erreur à la marge d'erreur, et cela s'explique parce que ce qui est appelé "marge d'erreur" est en réalité un intervalle de confiance de 95%, ce qui veut dire que 95% des sondages donneront un résultat dans cette marge, mais que 5% des sondages, effectués dans les règles de l'art pourtant, tomberont à côté.

En statistiques, on aime bien souvent choisir arbitrairement le seuil de 95% pour valider les hypothèses, mais là encore, c'est très arbitraire et conventionnel dans le fond, et on pourrait tout autant choisir 90% ou 99%.

Après, la grande majorité des observations qui tomberont à côté de l'intervalle tomberont assez proches de cet intervalle malgré tout.

de **ligerien** » Sam 14 Mar 2026 07:13

Le biais le plus important c'est de ne prendre que les personnes affirment aller voter et affirment leur choix.
Ça semble logique, mais ça crée un biais si l'on veut que le sondage soit prédictif.
Plus on est loin de l'élection, cela crée un biais de célébrité : un candidat est connu, ses challengers pas du tout, gonflant artificiellement le camp de la célébrité. Puis on voit cette célébrité se tasser jusqu'au jour du vote, juste parce les positions de ses adversaires se cristallisent, ses adversaires qui l'ont toujours été...
Ensuite il y a un biais sociodemographique, un camp qu a beaucoup d'électeurs qui s'intéressent au dernier moment, grimpe au dernier moment.

"Fiabilité" des sondages

"Fiabilité" des sondages

Re: "Fiabilité" des sondages

Re: "Fiabilité" des sondages

Re: "Fiabilité" des sondages

Re: "Fiabilité" des sondages

Qui est en ligne