L'entreprise
recourt à une enquête par sondage lorsqu’elle a besoin de recueillir des
informations d’une façon ponctuelle, sur un problème spécifique. Mais, avant de
se lancer dans une recherche longue et coûteuse, il convient de s’assurer que
l’information requise ne peut être obtenue par un autre moyen, de savoir si
elle n’est pas déjà disponible quelque part (données stockées par l'entreprise,
sites web, presse spécialisée, organismes publics ou privés…).
Un
sondage consiste à construire un échantillon à partir d'une population donnée (public
cible). Les personnes faisant partie de l'échantillon sont interrogées à l'aide
d'un questionnaire et les réponses obtenues sont ensuite extrapolées à
l'ensemble de la population. D’où une question de premier plan : combien
d’individus doit-on interroger ?
1. La question de la taille de
l’échantillon
Tout d'abord, il n’y a pas lieu de déterminer la taille de
l’échantillon « au pif », selon son
intuition. Cette démarche ne repose évidemment sur aucune justification rationnelle. On ne saurait non plus fixer la taille
requise en réitérant simplement celle adoptée lors d’une étude antérieure, sous
prétexte qu’il faut comparer les résultats obtenus. Il convient à chaque fois
de s’interroger : quelle
taille doit-on attribuer à l’échantillon pour qu’on puisse disposer d’une
estimation satisfaisante des caractéristiques de la population étudiée ? Comment
garantir un degré élevé de fiabilité ? Faut-il calculer cette taille mathématiquement ?
Comment ?
Ici,
deux objections couramment rencontrées viennent à l’esprit et pourraient
jeter le doute sur l’enjeu du calcul :
- Sur le terrain, dit-on, un
institut de sondage ne
procède pas au calcul du nombre d’enquêtés. Il s’appuie sur les pratiques de la
profession et tend ainsi à interviewer entre 300 à 600 personnes dans le cas
des sondages locaux. S’il s’agit de sondages nationaux, un échantillon de 800 à
1000 individus est le plus souvent retenu, ce qui garantit le meilleur
rapport taille/précision, équivalant en fait au rapport qualité/prix du point
de vue des cabinets d’études… Se fier à des standards
professionnels peut sembler pertinent, mais il ne se fonde à vrai dire sur
aucune base scientifique et laisse des questions en suspens (on y reviendra
plus bas).
- Le budget et le
temps disponibles sont souvent déterminants.
Ils limiteront forcément la taille de l’échantillon, même si
le risque d’erreur quant à la représentativité de la population enquêtée est
grand (il n’y a aucune relation entre l’une et l’autre). D’aucuns préciseront
que c’est le profil même de la population
de référence qui va déterminer
l’évaluation de l’échantillon : si l’on dispose d’une liste
exhaustive (un fichier clients par exemple), on optera pour une méthode probabiliste ;
ce qui, par là même, fera prévaloir le raisonnement mathématique. Dans le cas
contraire (par exemple, la population d’une agglomération), on se pliera par-dessus
tout aux contraintes de budget et du
délai de réalisation de l'enquête.
Ces
contraintes ne sont certes pas négligeables. Toutefois, si un étudiant, dans le cadre de son
mémoire ou sa thèse (moyens et compétences limités) peut se contenter d’un
échantillon de moins d’une centaine d’individus, il n’en va pas de même d’une
entreprise. Il importe de veiller à ce que la taille de
l’échantillon soit suffisamment grande
pour obtenir des résultats fiables (si elle est trop réduite, il faut
renégocier le budget).
L'impératif de fiabilité ne
saurait être minimisé. Les calculs mathématiques s’avèrent nécessaires, car ils conditionnent en grande
partie la qualité de la démarche marketing. Nécessaires, parce qu’on doit
mesurer le degré de confiance et la marge d’erreur dans l’estimation des
paramètres. C’est bien à cette condition que se fera l’extrapolation des résultats obtenus à l’ensemble de la population de base.
Une telle extrapolation est la condition
sine qua non d’une enquête par sondage.
Les réponses fournies lors d’un sondage
suivent une loi statistique, appelée loi normale. Cette loi indique les
conditions d'une fiabilité maximale. Considérons un modèle d’enquête fondé sur
un échantillon probabiliste. On se donne un niveau de confiance et
une marge d’erreur (l’erreur acceptée lors de l’extrapolation des résultats).
C’est sur ces bases qu’on va déterminer la taille de l’échantillon requise en
appliquant la formule suivante (surtout
si l’étude porte sur une proportion).
n
= a 2 p (1-p) / e 2
Explication
:
n = taille de l'échantillon.
3
facteurs déterminent essentiellement la taille de l'échantillon : a, p, e.
a : niveau ou seuil de confiance. Il indique le seuil de risque, les chances qu’on a pour que la réponse soit représentative. C’est le degré de fiabilité de l'échantillon que l’on veut accorder à l’étude. Ce coefficient est lu dans la table de la loi normale (loi de Gauss). Il vaut 1,96 si l’on se donne un niveau de confiance de 95 %.
p : proportion estimative d’individus présentant la caractéristique à
mesurer (observée dans
l’échantillon). Elle est déterminée par la
connaissance que l’on a déjà sur le sujet (à partir d’une étude antérieure). Lorsque cette proportion est ignorée, une pré-étude peut
être réalisée ; sinon, la valeur p = 0,5 sera retenue.
e : la marge d’erreur qu’on se donne. Si e = 2 % (correspondant à une valeur type de 0,02), l’estimation des paramètres ne devrait pas s’écarter de plus ou moins 2 % de la réalité. Si on obtient une notoriété spontanée de 50 % avec cette marge, la vraie valeur serait comprise entre 48 et 52 %. Dans ce cas, on dira qu’il y a 95 % de chance (le seuil de confiance) pour que notre notoriété spontanée soit comprise entre 48 et 52 %.
Nota bene : on peut calculer la taille de l’échantillon sans
tenir compte de la taille de la population
de référence (N). Le taux de sondage (n / N) importe donc peu.
Un exemple simple : je souhaite effectuer un sondage marketing avec
une erreur maximale de 2 points. Il faudra alors interroger 2 401 personnes (n = [1,96 ² x 0,5 x 0,5] / 0,02 ²)…
Si je suis exigeant en matière de fiabilité, je devrai en assumer le coût.
Un principe logique se dégage ainsi : plus la
taille de l’échantillon d’un sondage aléatoire est élevée, plus la précision des données
recueillies est grande.
Mais l’erreur n’est pas directement proportionnelle à la taille. Il ne
suffit pas de doubler celle-ci pour doubler le degré de précision. En fait, la
précision est proportionnelle à la racine carrée de l'inverse de la taille de
l'échantillon. Schématiquement, pour multiplier par 2 la précision, il faut
multiplier par 2 ² = 4 le
nombre d’enquêtés.
En toute rigueur, la taille réelle de l’échantillon est un compromis entre le degré de précision à atteindre et les
contraintes de budget/temps disponibles. Il s’agit bel et bien de concilier
les deux préoccupations.
L’erreur d’échantillonnage, après tout, n’est pas celle
qu’il faut craindre le plus. Les questions mal formulées, un
entretien bâclé, une mauvaise interprétation des réponses sont des sources
d’erreurs beaucoup plus sérieuses. En somme, le plus important n’est pas la taille de l’échantillon mais la
qualité de votre questionnaire, celle de vos procédures et celle des enquêteurs.
Si vos questions sont judicieuses, si elles sont posées d’une manière adéquate,
si elles sont bien traitées et bien interprétées, alors les réponses apportées
seront pertinentes.
Nous en arrivons à une seconde préoccupation :
c’est bien de trouver les bonnes questions, de savoir les poser, de
pouvoir interroger un grand échantillon… encore faut-il que les répondants
soient représentatifs. Quel en est l’enjeu ?
2. L’exigence de représentativité
Sur un
site, à propos d’une enquête online, on lit ceci : « Cette enquête […] a permis de recueillir les avis de 1012 internautes sur 22 questions,
abordant tous les aspects de la fidélisation […] Les résultats de cette étude ne sont pas extrapolables à l'ensemble de
la population, l'échantillon n'étant pas représentatif, mais restent pertinents
et intéressants, permettant d'en tirer les grandes tendances de la fidélisation ». (1)
Ce raisonnement est inconsistant autant que contestable. A moins qu’on dise que les informations recueillies (sans représentativité) constitueront de simples indicateurs qui, faute de mieux, seront appuyés par d’autres éléments d’investigation… Gardons à l’esprit que l’échantillonnage permet d’estimer les caractéristiques d’une population en interrogeant directement une partie de celle-ci. Les réponses obtenues dans l’échantillon sont nécessairement extrapolées à la population de base. Elles ne nous intéressent pas en elles-mêmes ; ce qui nous intéresse c’est leur application à l’ensemble de la population visée. Il faut dès lors veiller à ce que les individus composant l’échantillon soient représentatifs.
L’idée
est simple : un groupe réduit d'individus est
censé représenter l'opinion de la population cible, refléter ses traits
distinctifs. Plus
exactement, « on attend de
l’échantillon qu’il fournisse des résultats aussi proches que possible de ceux
qui auraient été obtenus si toute la population dont il est tiré avait été
interrogée ». (2) L'inférence
dont parlent les statisticiens consiste justement à induire les caractéristiques inconnues d'une population
à partir d'un groupe issu de cette population. Il y a
deux cas de figure :
« Dans les échantillons
aléatoires, chaque individu de la population mère a une même probabilité
de figurer dans l’échantillon. Le tirage au sort est le modèle
d’échantillonnage présumé idéal : sa représentativité est présumée, mais
elle n’a de sens que dans la mesure où la taille de l’échantillon est
compatible avec le niveau d’erreur acceptable ou accepté. Dans les échantillons empiriques, on va
construire un échantillon de structure comparable à celle de la population mère
dont on connaît certains éléments structurels. La représentativité n’est plus
statistique mais structurelle, l’échantillon correspondant alors à une
maquette, un modèle réduit de la population étudiée ». (3)
La condition de représentativité
revêt donc un intérêt majeur ; la validité des
résultats en dépend... Nombre de questions en découlent : le sondage effectué
est-il fiable ? Quel est le profil du groupe
interrogé ? Sur la base de quels critères a-t-il été choisi ?... Curieusement,
il arrive que ces questions décisives soient dédaignées. Ainsi en est-il de ce
quotidien de la place qui n'hésite pas à confectionner un sondage expéditif afin
de pouvoir affirmer que « 45 % des
Marocains soutiennent telle politique, 60 % approuvent telle opinion ».
Faut-il se satisfaire d’une étude en faisant dire aux chiffres (coûte que
coûte) ce qu'ils ne peuvent pas dire ? Dans un pays comme le Maroc, les données
obtenues n'ont pas de validité si, dans bien des cas, l'échantillon ignore
d'emblée le monde rural. Un sondage visant le grand public et effectué par téléphone
n'est pas non plus crédible. Parfois, le fameux principe du « Maroc
utile » semble renaître de ses cendres.
Une enquête par sondage n'a rien à
voir avec un jeu de manipulations : lorsque les commanditaires et l'organisme
chargé de l'enquête sont résolument « acquis à la cause », les
questions sont biaisées et débouchent presque sur une supercherie. Qui plus
est, les répondants ne peuvent détecter les pièges des questions orientées, des
questions dont la formulation permet d'obtenir les réponses souhaitées...
Décidément, ce n’est pas une
sinécure que d’effectuer un sondage, de donner un sens réaliste et tangible aux
données recueillies.
Thami Bouhmouch
21 octobre 2011.
__________________________________________________
(2) Daniel Cote-Colisson, http://www.penombre.org/Qu-est-ce-qu-un-echantillon
(3) Ibid.
Aucun commentaire:
Enregistrer un commentaire