La situation que vous décrivez est une conséquence du
théorème de Lehmann-SchefféPour faire simple, il stipule que lorsque nous acceptons de considérer un estimateur non biaisé, il y aura toujours une certaine variance qu'il est impossible de réduire, à moins bien sûr d'augmenter la taille de l'échantillon, mais ceci a un coût financier.
Mais cela ne dit rien de la possible réduction de la variance si on considère un estimateur biaisé. Et bien souvent en statistique, il est préférable d'avoir un biais et une faible variance, surtout d'ailleurs si on arrive à connaître le biais. Il vaut mieux pour se repérer une boussole qui indique systématiquement le Sud qu'une boussole qui oscille aléatoirement entre le Nord-Ouest et le Nord-Est !
Le principe est le suivant : grâce à la méthode des quotas dans un premier temps, puis à la pondération des observations dans un second temps, on s'assure que la représentation de la population selon certaines variables est plus proche de la population à représenter que l'échantillon brut. Par exemple, si on se rend compte qu'il y a beaucoup de retraités et peu de jeunes dans un échantillon tiré aléatoirement, on pourra se dire, que tout sans biais notre échantillon soit-il, il y a quand même fort à parier que nous allons, en tenance, tomber à droite de la marge d'erreur pour les candidats centristes et à gauche de la marge d'erreur pour les candidats de gauche. Le redressement permet de rogner cela. Mais Lehmann-Scheff nous rappelle que nous ne pouvons mathématiquement améliorer la variance sans sacrifice sur le biais. Ce dernier s'exprime notamment parce qu'il n'y a pas de manière unique et neutre de redresser un échantillon. Par exemple, si on le redresse selon l'âge, on peut choisir de le redresser selon :
Deux tranche d'âge : moins de 50 ans et plus de 50 ans, par exemple
Trois tranches d'âge : moins de 30, entre 30 et 60 et plus de 60, par exemple
Quatre tranches d'âge : 18-24, 25-34, 34-60, plus de 60 par exemple
Ou même n'importe quoi d'autre en fait. Pour quelque chose comme les tranches d'âge, il y pléthore de possibilités, comme pour les tranches de revenus. Et bien entendu, le choix de la segmentation choisie est totalement arbitraire, chacune aura pour vertu de réduire la variance des résultats, et aucune ne donnera bien entendu les mêmes résultats, notamment en terme de biais.
Et c'est en grande partie pour cette raison que l'on insiste souvent pour comparer deux sondages d'un même institut et non pas deux sondages de deux instituts différents. Car si deux sondeurs ont des méthodes de redressement différentes, les biais seront naturellement différents.
D'ailleurs, petit cas pratique : j'ai remarqué que depuis que l'institut Cluster17 réalise des sondages nationaux, cet institut avait un biais compris entre 0,5 et 1 point en défaveur du RN et une variance nulle ou complètement anecdotique. Du coup, pour faire mes pronostics de résultats électoraux concernant le RN, je prends le dernier sondage de Cluster17 et j'ajoute 0,5 ou 1 point pour obtenir mon pronostic concernant le RN, ce qui ne m'a pas trahi pour les européennes. Autant dire que dans ce cas, que le sondeur soit un peu biaisé n'a aucune importance pour réaliser une prévision :-)
J'ai aussi retrouvé
ce message que j'avais rédigé il y a quelques années sur ce même forum pour illustrer avec l'exemple du vote Le Pen en 2002 le phénomène de mécompréhension du sens profond de ce qu'est une marge d'erreur statistique.
C'est un peu pour toutes ces raisons que je parle le moins possible de marge d'erreur quand j'évoque des sondages. De manière générale, les connaissances en statistiques de quelqu'un sont souvent inversement proportionnelles à sa faculté à convoquer la marge d'erreur pour tempérer les résultats d'un sondage.