
Les chercheurs en sciences sociales sont souvent appelés à interroger les gens sur des questions sensibles, que ce soit en matière de sexualité, de criminalité ou autre. Si les participants à l’enquête ont peur d’être jugés ou veulent éviter de se dénoncer, ils risquent fort de mentir ou de refuser de répondre, ce qui constitue une source de biais. Comment faire alors pour protéger leur vie privée tout en recueillant l’information désirée ?
Une solution simple et pratique à cet épineux problème a été proposée en 1965 par Stanley Warner (qui fut longtemps professeur à l’Université York de Toronto) puis raffinée au fil du temps. À la base, la technique consiste à demander à chaque participant de répondre par oui ou non à une question que lui seul connaît parce qu’il l’a choisie au hasard.
Supposons par exemple qu’on veut mesurer l’ampleur de la tricherie à un examen. Au lieu de poser la question aux candidats de but en blanc, ce qui pourrait les indisposer, on leur tend un disque partagé en deux secteurs. Le secteur A porte l’inscription « j’ai triché »; le secteur B porte l’inscription « je n’ai pas triché ». Fixée sur un pivot au milieu du disque se trouve une flèche qu’une pichenette permet de faire tournoyer.
Chaque répondant est invité à utiliser ce dispositif pour choisir au hasard un des deux secteurs du disque à l’abri des regards indiscrets. Il peut alors répondre « oui » si l’énoncé pointé est vrai et « non » autrement, et ce en toute impunité. En effet, la confidentialité de sa réponse est assurée car l’interviewer ne sait pas quel énoncé a été sélectionné.
- Répondre « oui » n’est pas compromettant car il se pourrait que la flèche pointe vers le secteur B, dans lequel cas « oui » signifie « je n’ai pas triché ».
- Répondre « non » n’est pas une source d’embarras non plus car la flèche pourrait s’être arrêtée dans le secteur A, de sorte que « non » signifie « je n’ai pas triché ».
Outre que les participants puissent ainsi répondre honnêtement sans crainte de représailles, cette approche permet d’estimer la proportion de tricheurs à partir d’un échantillon de réponses pourvu que dans chaque cas, la question ait été choisie aléatoirement au moyen du disque.
En effet, supposons que X personnes aient répondu « oui » et que \(n – X\) autres aient répondu « non ». Dans la mesure où l’échantillon est aléatoire, la variable aléatoire \(X\) obéit à une loi binomiale de paramètres \(n\) et \(p,\) où \(p\) est la probabilité qu’un répondant dise « oui ». Une bonne estimation de \(p\) (de fait, l’estimation à vraisemblance maximale) est donnée par \(\hat{p} = X/n,\) soit la proportion de personnes interrogées qui ont répondu « oui ».
Or il se trouve qu’il existe une relation très simple entre le paramètre \(p\) et la proportion \(r\) de candidats qui ont triché à l’examen. En effet, supposons que le secteur A couvre une proportion \(q \in [0, 1]\) du disque. Par une distinction de cas, on trouve que
= la probabilité qu’il dise « oui » et que la flèche pointe vers le secteur A
+ la probabilité qu’il dise « oui » et que la flèche pointe vers le secteur B,
d’où \(p=r \times q + (1–r)\times(1–q).\)
Si \(q = 1/2,\) la probabilité \(p\) qu’un participant réponde oui vaut 1/2 et n’est liée en rien à \(r.\) Les répondants ne fournissent donc aucune information utile. En revanche si \(q ≠ 1/2,\) on trouve
\[r=\frac{p+q-1}{2q-1}.\]
Par suite, une estimation sans biais de \(r\) est donnée par
\[\hat{r} = \frac{\hat{p} +q -1}{2q-1}.\]
On peut aussi aisément adjoindre une marge d’erreur à cette estimation sous forme d’intervalle de confiance puisque par le théorème central limite, \(\hat{p}\) est un estimateur asymptotiquement normal dont la variance à taille \(n\) est \(p \times (1 – p)/n.\) La variance de \(\hat{r}\) peut alors être estimée par \(\hat{p}\times(1−\hat{p})/\{n \times (2q−1)^2\},\) laquelle est plus grande que \(\hat{r}\times (1−\hat{r})/n,\) ce qui s’explique du fait que la proportion de tricheurs n’est observée qu’indirectement.
Ainsi, alors que l’estimation de \(\hat{p}\) comporte une erreur de
\[196 \times \{\hat{p} \times (1-\hat{p}/n\}^{1/2} 0/0,\]
19 fois sur 20, celle de \(\hat{r}\) dépend du choix de \(q\): plus q s’éloigne de 1/2, plus l’erreur sera petite mais il faut se rappeler que prendre \(q = 0\) ou 1 équivaudrait à demander aux gens de répondre directement à la question embarrassante!
Comme on s’attend généralement à ce que \(r\) soit petit et que répondre « oui » soit perçu négativement (malgré la randomisation), le disque est souvent conçu de sorte que \(q\) soit strictement compris entre 1/2 et 1. Ainsi la plupart des participants répondent-ils « non ».
À titre d’exemple, supposons que \(q = 4/5\) et que 75% des personnes interrogées aient répondu « non ». Par suite, \(\hat{p} = 0,25\) et
\[\hat{r}=\frac{ 0,25+0,8-1}{2\times 0,8-1} = \frac{0,05}{0,6}=0,0833.\]
La proportion de tricheurs est donc estimée à 8,33%. En supposant que l’échantillon soit de taille \(n = 1000,\) la marge d’erreur serait alors de
\[196 \times \frac{\{\hat{p} \times (1-\hat{p}/n\}}{2q-1}^{1/2} 0/0= 4,47%,\]
19 fois sur 20.
Noter que \(\hat{r}\) est négatif quand
\[1 – \hat{p} > q > 1/2 \: \text{ou} \: 1 – \hat{p} < q < 1/2.\]
De telles éventualités ont très peu de chances de survenir, particulièrement dans de grands échantillons. Le cas échéant, une correction peut être apportée à l’estimation.