CRITÈRES DE QUALITÉ
Cahier scientifique
Médecine factuelle
Auteur(s) : Constance de Meeûs*, Sébastien Buczinski**, Jean-Michel Vandeweerd***, Benoît Bihin****
Fonctions :
*Université de Namur (UNamur)
Urvi-Narilis (unité de recherche vétérinaire intégrée-Namur
Research Institute for Life Sciences)
**Département des sciences cliniques, Faculté de médecine vétérinaire,
université de Montréal, CP 5000, Saint-Hyacinthe, J2S 7C6, Qc, Canada
***Université de Namur (UNamur)
Urvi-Narilis (unité de recherche vétérinaire intégrée-Namur
Research Institute for Life Sciences)
****Clinique vétérinaire équine, 18, rue des Champs, La Brosse,
78470 Saint-Lambert-des-Bois
*****Université de Namur (UNamur)
Unité de méthodologie et didactique de la biologie
Rue de Bruxelles, 61, 5000 Namur, Belgique
Dans le cadre de la médecine factuelle, la taille de l’échantillon a une importance primordiale sur l’interprétation des résultats obtenus.
La médecine factuelle consiste à fonder les décisions médicales sur des informations scientifiques solides issues de la recherche associées à une bonne évaluation clinique. En recherche, il n’est cependant pas possible d’étudier une population entière. À l’inverse, des conclusions sont tirées à partir d’informations incomplètes obtenues à partir d’un échantillon de la population à l’étude.
Une des qualités d’une étude scientifique est un choix adapté de la taille de l’échantillon. Il est essentiel que celui-ci représente le mieux possible la population initiale pour que l’effet étudié, celui d’un traitement par exemple, puisse lui être extrapolé. Il est alors possible d’admettre que le traitement est efficace dans la population mère [1-6].
Une taille d’échantillon adaptée fait partie des critères de qualité des publications scientifiques. Les guidelines publiées dans Consort (Consolidated Standards of Reporting Trials), Stard (Standards for Reporting of Diagnostic Accuracy) ou Strobe (Strengthening the Reporting of Observational Studies in Epidemiology) recommandent aux auteurs de spécifier la méthode de détermination de la taille de l’échantillon dans leurs publications [9, 11, 14].
Le concept de taille de l’échantillon peut intéresser les praticiens équins à deux niveaux. D’une part, les vétérinaires désireux de réaliser une recherche clinique sur leurs propres cas se posent souvent la question du nombre d’animaux à inclure pour que l’étude soit valable sur le plan scientifique. D’autre part, lors d’une lecture scientifique, il est pertinent de s’interroger sur l’adéquation du nombre d’animaux inclus dans l’étude. Cet article vise à expliquer pourquoi il convient de considérer la taille de l’échantillon et comment choisir le nombre d’individus à étudier.
Un échantillon est un sous-ensemble d’une population mère, utilisé pour essayer de tirer des conclusions à propos de cette dernière. Il convient toutefois de rester prudent car, en ne considérant qu’un échantillon, un risque existe que les caractéristiques observées ne correspondent pas à celles de la population.
Deux méthodes d’inférence statistique sont utilisées en recherche : l’estimation et la comparaison. Un exemple d’estimation est la détermination du poids moyen des poulains de race shetland à la naissance. La comparaison pourrait porter sur les poids moyens respectifs des femelles et des mâles. Un test statistique est nécessaire pour évaluer l’hypothèse qu’une différence existe entre les deux sexes. Dans les deux cas, le chercheur utilise l’information obtenue sur un échantillon pour en tirer des conclusions quant à la population. La taille de l’échantillon est un paramètre important à considérer aussi bien lorsqu’un paramètre est estimé dans une population que lorsque plusieurs groupes expérimentaux sont comparés.
Dans le cas de l’estimation, la taille de l’échantillon influence la précision : plus nombreuses sont les observations, plus l’appréciation est précise. Dans le cas d’une comparaison, elle influence la puissance de l’étude (c’est-à-dire sa capacité à mettre en évidence un effet, s’il existe).
Une réflexion sur la taille de l’échantillon est importante à deux moments clés. Tout d’abord, lors de la conception d’une étude afin de déterminer le nombre d’individus nécessaire pour atteindre une précision ou une puissance acceptable. Ensuite, lors de la lecture critique des résultats d’une étude, afin de tirer la juste conclusion des expériences qui ont été réalisées. Face à une comparaison entre deux groupes qui ne met en évidence aucune différence, si le nombre d’observations sur lesquelles se fonde le constat est important, les deux groupes sont considérés comme équivalents. Si, à l’inverse, ce nombre est faible, l’expérimentateur doit conclure à un manque d’informations lui permettant de déterminer si une différence existe entre les deux groupes expérimentaux.
D’un point de vue purement statistique, la taille d’échantillon idéale est toujours la plus grande possible. Cependant, l’échantillon ne doit pas être trop important car l’étude serait alors onéreuse et longue. De plus, éthiquement, il n’est pas justifiable d’utiliser plus d’animaux que nécessaire [12].
Tant l’estimation que la comparaison reposent sur l’hypothèse que les individus sont sélectionnés aléatoirement au sein de la population d’intérêt. Cela assure, lorsque l’échantillon devient suffisant, que les caractéristiques de l’échantillon ne sont pas trop éloignées de celles de la population d’étude. Si l’échantillon n’est pas créé aléatoirement dans la population, un biais peut apparaître, c’est-à-dire une déviation systématique entre les caractéristiques de l’échantillon et celles de la population. Dans ce cas, il est impossible de compenser le biais par une taille d’échantillon plus importante. La meilleure analyse statistique possible et un large échantillon ne compensent donc pas une étude mal conçue [15].
Plusieurs méthodes d’échantillonnage existent [13]. L’“échantillon aléatoire simple” est recommandé. Il est tiré au hasard dans la population. Pour ce type d’échantillonnage, il convient de disposer d’une liste de tous les individus de la population. Lorsqu’un échantillonnage aléatoire simple n’est pas réalisable pour des raisons pratiques, des solutions alternatives peuvent être mises en œuvre.
L’“échantillon empirique”, ou encore appelé “échantillon de convenance” dans les publications anglo-saxonnes (convenient sample), n’est pas pris au hasard. L’expérimentateur ne choisit que les animaux faciles à enrôler dans l’étude, par exemple des élevages proches géographiquement. Ce type d’échantillonnage est rarement représentatif de la population. L’“échantillon aléatoire empirique” est utilisé quand l’expérimentateur ne dispose pas de base de données. Il décide alors de prendre des animaux dans un ordre précis de présentation, par exemple le cas 1, puis le 4, puis le 8, puis le 12.
Le choix de la taille de l’échantillon va dépendre de plusieurs facteurs [1, 4-6]. Pour déterminer cet ordre de grandeur, il existe plusieurs méthodes qui tiennent compte de différents paramètres à définir. Des exemples adaptés à la pratique équine sont utilisés pour illustrer ces formules.
Le premier facteur qui influence le nombre d’individus (n) à inclure dans une étude est la “confiance” (1 - α) désirée pour l’estimation. Cela peut se comprendre comme la proportion d’estimations qui vont être correctes. Une estimation est correcte quand la valeur moyenne de la population est comprise entre les bornes de l’intervalle estimé (appelé “intervalle de confiance”) [15]. La variabilité des données, le deuxième facteur, a également un impact. Au plus les données sont variables (grande hétérogénéité entre les individus, imprécision des mesures), au plus un grand nombre d’individus est requis pour s’approcher du résultat exact. Cette variabilité se mesure à travers σ2 qui est la variance et σ l’écart-type. Ces mesures donnent la dispersion d’une série de données autour de la moyenne [16].
La précision souhaitée (= marge d’erreur des sondages politiques) est le troisième facteur. Plus la précision recherchée dans l’estimation est grande, plus un grand nombre de données est nécessaire. Cette précision se note souvent δ.
Deux formules sont judicieuses pour le praticien :
1. déterminer n en fonction des trois autres facteurs (valable pour la conception d’une étude)
2. déterminer la précision d’une étude en fonction de n et des deux autres facteurs (intéressant dans la critique d’une étude dont n est fixé)
où Z est une valeur statistique, disponible dans tous les manuels de statistique, qui varie en fonction de α ou de β (β étant la probabilité de ne pas mettre d’effet en évidence alors qu’il en existe un). Par exemple, pour un α de 0,05 (ce qui est le cas dans la plupart des études), la valeur Z est de 1,96.
Dans le cas d’une proportion, la variabilité est comprise dans celle-ci. En effet, si la proportion est de 100 % ou de 0 %, la variabilité est nulle. Si elle est de 90 %, la variabilité est faible. Enfin, pour des proportions proches de 50 %, elle sera maximale. Le calcul de la variance d’une proportion s’établit de la sorte : variance = p × (1 - p), avec p qui représente la proportion attendue. Dans l’ignorance complète du résultat, il convient de prendre la valeur la plus contraignante, soit une proportion attendue de 50 % (car elle entraînera une taille d’échantillon surestimée).
L’attitude du chercheur qui utilise un test statistique peut être comparée à celle du clinicien qui interprète le résultat d’un test diagnostique. Dans ce dernier cas de figure, le clinicien tente de déterminer l’état de l’animal en fonction du résultat du test. Ce dernier présente une certaine sensibilité (probabilité de détecter la maladie si l’animal est effectivement malade) et une certaine spécificité (probabilité de considérer que l’animal est sain si c’est effectivement le cas). Selon le résultat du test diagnostique (positif ou négatif), le clinicien tente de déterminer l’état de l’animal.
Le chercheur se trouve dans une situation semblable car il dispose d’un test qui possède une certaine sensibilité (appelée puissance, probabilité de détecter un effet si celui-ci existe) et une certaine spécificité (appelée confiance, notée 1 - α, probabilité de considérer qu’aucun effet ne subsiste si c’est effectivement le cas). Il doit tenter de déterminer si un effet existe à partir du résultat du test statistique. Une différence notable consiste en ce qu’il fixe la confiance de son test statistique (souvent à 95 %) et en ce que la puissance dépend du nombre d’individus inclus, de la variabilité des données et de la taille de l’effet qu’il veut se donner les moyens de détecter (tableau 1).
Le “power” est la puissance statistique d’un test (notée 1 - β). Cela correspond aux chances que le chercheur se donne de détecter l’effet, s’il existe. Il estime alors le risque qu’il est prêt à prendre pour une erreur de type 2 (β) : celui de ne pas mettre d’effet en évidence alors qu’il y en a un. Il est courant de prendre des valeurs de puissance comprises entre 80 et 95 % (tableau 2) [10].
Le chercheur détermine ce qu’il est prêt à accepter comme risque d’erreur de type 1 (α) : celui de mettre un effet en évidence alors qu’il n’existe pas. Un risque α de 5 % est généralement considéré comme acceptable [8].
La taille de l’effet que le chercheur souhaite mettre en évidence intervient également. Il existe une différence entre un traitement qui fait passer la fréquence cardiaque de 80 à 60 et celui qui la réduit de 80 à 78. Il est important de faire une distinction entre une étude qui porte sur un traitement évident et puissant et une autre qui compare deux traitements qui, tous les deux, ont déjà prouvé leur efficacité. Dans le premier cas, un nombre limité d’individus est suffisant pour prouver l’efficacité du traitement. Dans le second cas, celui d’une comparaison entre deux traitements proches, un plus grand nombre de sujets est nécessaire pour montrer une différence significative entre les deux traitements [16].
La variabilité des données possède également un impact. La comparaison de deux groupes d’individus au sein desquels la variabilité est très faible (par exemple des “clones”) a plus de chance de mettre en évidence un effet que celle d’individus fort différents à la base. Pour calculer la taille de l’échantillon, il convient préalablement d’estimer σ2, la variance [16].
Enfin, un dernier élément susceptible d’intervenir dans la détermination de la taille de l’échantillon est la “direction” du test statistique. Les tests unidirectionnels sont utilisés lorsque l’expérimentateur étudie un effet dont il connaît la direction a priori. Par exemple, en donnant un médicament hypertenseur, l’expérimentateur considère que son médicament fonctionne s’il observe une augmentation de la tension artérielle. Le cas de la diminution ne l’intéresse pas, a priori. Les tests bidirectionnels ne font pas de distinction quant au sens de l’effet qui est considéré et requièrent un peu plus d’individus que les tests unidirectionnels. En pratique, le plus simple est de toujours utiliser des tests bidirectionnels.
Lors de comparaison de proportions :
n = [(Zα + Zβ)2 x (p1 (1 - p1) + p2 (1 - p2))]/(p1 - p2)2
où p1 = la proportion d’individus présentant la caractéristique recherchée dans le groupe 1 (guérison, par exemple), et p2 = la proportion d’individus possédant la caractéristique recherchée dans le groupe 2. Lors de comparaison de proportions, la variance se calcule comme décrit plus haut.
Z est une variable normale réduite dont les valeurs correspondant aux probabilités les plus courantes sont disponibles dans les manuels de statistique. Dans cette formule, il y a une valeur de Z qui correspond à α et une autre pour β.
Lors de comparaison de moyennes :
où σ est l’écart-type dans chacun des groupes et où δ est la taille de l’effet à mettre en évidence.
Connaissant l’efficacité d’un médicament A (la proportion d’individus guéris par celui-ci dans des études précédentes) et espérant que l’efficacité d’un nouveau médicament B soit supérieure, il convient de calculer la taille de l’échantillon n de chaque groupe [13].
Prenons l’exemple de l’encéphalomyélite équine à protozoaires (EPM, pour equine protozoal myeloencephalopathy). Deux traitements sont testés : l’un à l’acide folique sulfadiazine et l’autre à la pyriméthamine. Dans les articles publiés, l’efficacité de la sulfadiazine et de la pyriméthamine est d’environ 50 %. L’étude vise les 80 % de chances de détecter les différences de plus de 10 %. Si le risque d’erreur α est fixé à 5 %, il est possible d’estimer n de la façon suivante :
n = [(1,96 + 0,84)2 × (0,5 (1 - 0,5) + 0,5 (1 - 0,5))]/(0,10)2 ; n = 392.
Dans cet exemple, environ 400 individus par groupe sont requis pour atteindre la puissance souhaitée. Le nombre est élevé car il convient de s’assurer de la détection, avec une grande puissance, d’une différence assez faible (10 %).
Pour le calcul de la taille de l’échantillon dans le cas où une proportion est mesurée (le médicament est efficace ou ne l’est pas), la variabilité ne doit pas être spécifiée. En revanche, lors du test d’un médicament sur une variable continue, par exemple le poids, il est important de calculer une moyenne de la population témoin et de tenir compte de la variance autour de cette moyenne [7]. Pour ce type d’étude, il convient de faire intervenir la variance dans le calcul de l’échantillon.
L’étude vise à déterminer si le poids moyen des poulains selle français à la naissance est significativement (α = 0,05) supérieur à celui des poulains pur-sang anglais. L’hypothèse H0 est qu’il n’y a pas de différence entre les deux races. Pour les poulains pur-sang anglais, l’écart-type σ0 est estimé à
= 5,88 kg (tableau 3). Pour les poulains selle français, l’écart-type σ1 est estimé à
= 8,42 kg (tableau 4).
Si une différence de poids de plus de 5 kg est jugée cliniquement importante et que l’expérimentateur veut se donner les moyens de la détecter dans 80 % des études, quand elle existe, en fixant une valeur α à 5 %, la formule suivante est obtenue :
pour α = 0,05, Z = 1,96 ; pour β = 0,2, Z = 0,85, calcul de la taille de l’échantillon :
n = (1,96 x 5,88 + 0,85 x 8,42)2 = 35.
Estimer la taille de l’échantillon reste un défi pour l’expérimentateur. Dans l’approche d’une médecine factuelle, il convient d’encourager les auteurs de publications d’études cliniques à la mentionner, ainsi que sa méthode de calcul[3]. Le développement de méthodes informatiques pour calculer rapidement la taille de l’échantillon est en plein essor, entre autres sur Internet, ce qui facilite la vie de l’expérimentateur. Comprendre le pourquoi et le comment du calcul de la taille de l’échantillon est une démarche de médecine factuelle.
CONFLIT D’INTÉRÊTS : AUCUN
• L’échantillon doit être représentatif de la population. Idéalement, il est tiré au sort au sein de la population et est suffisamment grand.
• La taille de l’échantillon est influencée par la puissance du test, l’erreur α, la taille de l’effet et la variabilité des données.
• Augmenter la taille de l’échantillon ne compense pas une méthodologie d’étude faible.
Nouveau : Découvrez le premier module
e-Learning du PointVétérinaire.fr sur le thème « L’Épanchement thoracique dans tous ses états »
L’ouvrage ECG du chien et du chat - Diagnostic des arythmies s’engage à fournir à l’étudiant débutant ou au spécialiste en cardiologie une approche pratique du diagnostic électrocardiographique, ainsi que des connaissances approfondies, afin de leur permettre un réel apprentissage dans ce domaine qui a intrigué les praticiens pendant plus d’un siècle. L’association des différentes expériences des auteurs donne de la consistance à l’abord de l’interprétation des tracés ECG effectués chez le chien et le chat.
En savoir plus sur cette nouveauté
Découvrir la boutique du Point Vétérinaire
Retrouvez les différentes formations, évènements, congrès qui seront organisés dans les mois à venir. Vous pouvez cibler votre recherche par date, domaine d'activité, ou situation géographique.
Découvrez en avant-première chaque mois le sommaire du Pratique Vétérinaire Equine.
Vidéo : Comment s'inscrire aux lettres d'informations du Point Vétérinaire