A cor et écrit: PROBLEMATIQUES DE L’ECHANTILLONNAGE

L'entreprise recourt à une enquête par sondage lorsqu’elle a besoin de recueillir des informations d’une façon ponctuelle, sur un problème spécifique. Mais, avant de se lancer dans une recherche longue et coûteuse, il convient de s’assurer que l’information requise ne peut être obtenue par un autre moyen, de savoir si elle n’est pas déjà disponible quelque part (données stockées par l'entreprise, sites web, presse spécialisée, organismes publics ou privés…).

Un sondage consiste à construire un échantillon à partir d'une population donnée (public cible). Les personnes faisant partie de l'échantillon sont interrogées à l'aide d'un questionnaire et les réponses obtenues sont ensuite extrapolées à l'ensemble de la population. D’où une question de premier plan : combien d’individus doit-on interroger ?

1. La question de la taille de l’échantillon

Tout d'abord, il n’y a pas lieu de déterminer la taille de l’échantillon « au pif », selon son intuition. Cette démarche ne repose évidemment sur aucune justification rationnelle. On ne saurait non plus fixer la taille requise en réitérant simplement celle adoptée lors d’une étude antérieure, sous prétexte qu’il faut comparer les résultats obtenus. Il convient à chaque fois de s’interroger : quelle taille doit-on attribuer à l’échantillon pour qu’on puisse disposer d’une estimation satisfaisante des caractéristiques de la population étudiée ? Comment garantir un degré élevé de fiabilité ? Faut-il calculer cette taille mathématiquement ? Comment ?

Ici, deux objections couramment rencontrées viennent à l’esprit et pourraient jeter le doute sur l’enjeu du calcul :

- Sur le terrain, dit-on, un institut de sondage ne procède pas au calcul du nombre d’enquêtés. Il s’appuie sur les pratiques de la profession et tend ainsi à interviewer entre 300 à 600 personnes dans le cas des sondages locaux. S’il s’agit de sondages nationaux, un échantillon de 800 à 1000 individus est le plus souvent retenu, ce qui garantit le meilleur rapport taille/précision, équivalant en fait au rapport qualité/prix du point de vue des cabinets d’études… Se fier à des standards professionnels peut sembler pertinent, mais il ne se fonde à vrai dire sur aucune base scientifique et laisse des questions en suspens (on y reviendra plus bas).

- Le budget et le temps disponibles sont souvent déterminants. Ils limiteront forcément la taille de l’échantillon, même si le risque d’erreur quant à la représentativité de la population enquêtée est grand (il n’y a aucune relation entre l’une et l’autre). D’aucuns préciseront que c’est le profil même de la population de référence qui va déterminer l’évaluation de l’échantillon : si l’on dispose d’une liste exhaustive (un fichier clients par exemple), on optera pour une méthode probabiliste ; ce qui, par là même, fera prévaloir le raisonnement mathématique. Dans le cas contraire (par exemple, la population d’une agglomération), on se pliera par-dessus tout aux contraintes de budget et du délai de réalisation de l'enquête.

Ces contraintes ne sont certes pas négligeables. Toutefois, si un étudiant, dans le cadre de son mémoire ou sa thèse (moyens et compétences limités) peut se contenter d’un échantillon de moins d’une centaine d’individus, il n’en va pas de même d’une entreprise. Il importe de veiller à ce que la taille de l’échantillon soit suffisamment grande pour obtenir des résultats fiables (si elle est trop réduite, il faut renégocier le budget).

L'impératif de fiabilité ne saurait être minimisé. Les calculs mathématiques s’avèrent nécessaires, car ils conditionnent en grande partie la qualité de la démarche marketing. Nécessaires, parce qu’on doit mesurer le degré de confiance et la marge d’erreur dans l’estimation des paramètres. C’est bien à cette condition que se fera l’extrapolation des résultats obtenus à l’ensemble de la population de base. Une telle extrapolation est la condition sine qua non d’une enquête par sondage.

Les réponses fournies lors d’un sondage suivent une loi statistique, appelée loi normale. Cette loi indique les conditions d'une fiabilité maximale. Considérons un modèle d’enquête fondé sur un échantillon probabiliste. On se donne un niveau de confiance et une marge d’erreur (l’erreur acceptée lors de l’extrapolation des résultats). C’est sur ces bases qu’on va déterminer la taille de l’échantillon requise en appliquant la formule suivante (surtout si l’étude porte sur une proportion).

n = a ² p (1-p) / e ²

Explication :

n = taille de l'échantillon.

3 facteurs déterminent essentiellement la taille de l'échantillon : a, p, e.

a : niveau ou seuil de confiance. Il indique le seuil de risque, les chances qu’on a pour que la réponse soit représentative. C’est le degré de fiabilité de l'échantillon que l’on veut accorder à l’étude. Ce coefficient est lu dans la table de la loi normale (loi de Gauss). Il vaut 1,96 si l’on se donne un niveau de confiance de 95 %.

p : proportion estimative d’individus présentant la caractéristique à mesurer (observée dans l’échantillon). Elle est déterminée par la connaissance que l’on a déjà sur le sujet (à partir d’une étude antérieure). Lorsque cette proportion est ignorée, une pré-étude peut être réalisée ; sinon, la valeur p = 0,5 sera retenue.

e : la marge d’erreur qu’on se donne. Si e = 2 % (correspondant à une valeur type de 0,02), l’estimation des paramètres ne devrait pas s’écarter de plus ou moins 2 % de la réalité. Si on obtient une notoriété spontanée de 50 % avec cette marge, la vraie valeur serait comprise entre 48 et 52 %. Dans ce cas, on dira qu’il y a 95 % de chance (le seuil de confiance) pour que notre notoriété spontanée soit comprise entre 48 et 52 %.

Nota bene : on peut calculer la taille de l’échantillon sans tenir compte de la taille de la population de référence (N). Le taux de sondage (n / N) importe donc peu.

Un exemple simple : je souhaite effectuer un sondage marketing avec une erreur maximale de 2 points. Il faudra alors interroger 2 401 personnes (n = [1,96 ² x 0,5 x 0,5] / 0,02 ²)… Si je suis exigeant en matière de fiabilité, je devrai en assumer le coût.

Un principe logique se dégage ainsi : plus la taille de l’échantillon d’un sondage aléatoire est élevée, plus la précision des données recueillies est grande. Mais l’erreur n’est pas directement proportionnelle à la taille. Il ne suffit pas de doubler celle-ci pour doubler le degré de précision. En fait, la précision est proportionnelle à la racine carrée de l'inverse de la taille de l'échantillon. Schématiquement, pour multiplier par 2 la précision, il faut multiplier par 2 ² = 4 le nombre d’enquêtés.

En toute rigueur, la taille réelle de l’échantillon est un compromis entre le degré de précision à atteindre et les contraintes de budget/temps disponibles. Il s’agit bel et bien de concilier les deux préoccupations.

L’erreur d’échantillonnage, après tout, n’est pas celle qu’il faut craindre le plus. Les questions mal formulées, un entretien bâclé, une mauvaise interprétation des réponses sont des sources d’erreurs beaucoup plus sérieuses. En somme, le plus important n’est pas la taille de l’échantillon mais la qualité de votre questionnaire, celle de vos procédures et celle des enquêteurs. Si vos questions sont judicieuses, si elles sont posées d’une manière adéquate, si elles sont bien traitées et bien interprétées, alors les réponses apportées seront pertinentes.

Nous en arrivons à une seconde préoccupation : c’est bien de trouver les bonnes questions, de savoir les poser, de pouvoir interroger un grand échantillon… encore faut-il que les répondants soient représentatifs. Quel en est l’enjeu ?

2. L’exigence de représentativité

Sur un site, à propos d’une enquête online, on lit ceci : « Cette enquête […] a permis de recueillir les avis de 1012 internautes sur 22 questions, abordant tous les aspects de la fidélisation […] Les résultats de cette étude ne sont pas extrapolables à l'ensemble de la population, l'échantillon n'étant pas représentatif, mais restent pertinents et intéressants, permettant d'en tirer les grandes tendances de la fidélisation ». ⁽¹⁾

Ce raisonnement est inconsistant autant que contestable. A moins qu’on dise que les informations recueillies (sans représentativité) constitueront de simples indicateurs qui, faute de mieux, seront appuyés par d’autres éléments d’investigation… Gardons à l’esprit que l’échantillonnage permet d’estimer les caractéristiques d’une population en interrogeant directement une partie de celle-ci. Les réponses obtenues dans l’échantillon sont nécessairement extrapolées à la population de base. Elles ne nous intéressent pas en elles-mêmes ; ce qui nous intéresse c’est leur application à l’ensemble de la population visée. Il faut dès lors veiller à ce que les individus composant l’échantillon soient représentatifs.

L’idée est simple : un groupe réduit d'individus est censé représenter l'opinion de la population cible, refléter ses traits distinctifs. Plus exactement, « on attend de l’échantillon qu’il fournisse des résultats aussi proches que possible de ceux qui auraient été obtenus si toute la population dont il est tiré avait été interrogée ». ⁽²⁾ L'inférence dont parlent les statisticiens consiste justement à induire les caractéristiques inconnues d'une population à partir d'un groupe issu de cette population. Il y a deux cas de figure :

« Dans les échantillons aléatoires, chaque individu de la population mère a une même probabilité de figurer dans l’échantillon. Le tirage au sort est le modèle d’échantillonnage présumé idéal : sa représentativité est présumée, mais elle n’a de sens que dans la mesure où la taille de l’échantillon est compatible avec le niveau d’erreur acceptable ou accepté. Dans les échantillons empiriques, on va construire un échantillon de structure comparable à celle de la population mère dont on connaît certains éléments structurels. La représentativité n’est plus statistique mais structurelle, l’échantillon correspondant alors à une maquette, un modèle réduit de la population étudiée ». ⁽³⁾

La condition de représentativité revêt donc un intérêt majeur ; la validité des résultats en dépend... Nombre de questions en découlent : le sondage effectué est-il fiable ? Quel est le profil du groupe interrogé ? Sur la base de quels critères a-t-il été choisi ?... Curieusement, il arrive que ces questions décisives soient dédaignées. Ainsi en est-il de ce quotidien de la place qui n'hésite pas à confectionner un sondage expéditif afin de pouvoir affirmer que « 45 % des Marocains soutiennent telle politique, 60 % approuvent telle opinion ». Faut-il se satisfaire d’une étude en faisant dire aux chiffres (coûte que coûte) ce qu'ils ne peuvent pas dire ? Dans un pays comme le Maroc, les données obtenues n'ont pas de validité si, dans bien des cas, l'échantillon ignore d'emblée le monde rural. Un sondage visant le grand public et effectué par téléphone n'est pas non plus crédible. Parfois, le fameux principe du « Maroc utile » semble renaître de ses cendres.

Une enquête par sondage n'a rien à voir avec un jeu de manipulations : lorsque les commanditaires et l'organisme chargé de l'enquête sont résolument « acquis à la cause », les questions sont biaisées et débouchent presque sur une supercherie. Qui plus est, les répondants ne peuvent détecter les pièges des questions orientées, des questions dont la formulation permet d'obtenir les réponses souhaitées...

Décidément, ce n’est pas une sinécure que d’effectuer un sondage, de donner un sens réaliste et tangible aux données recueillies.

Thami Bouhmouch

21 octobre 2011.

__________________________________________________

⁽¹⁾Cf.http://www.abc-netmarketing.com/Enquete-online-quels-sont-les.html

⁽²⁾ Daniel Cote-Colisson, http://www.penombre.org/Qu-est-ce-qu-un-echantillon

⁽³⁾ Ibid.