À quoi servent les statistiques ? - Pratique Vétérinaire Equine n° 173 du 01/01/2012
Pratique Vétérinaire Equine n° 173 du 01/01/2012

Article de synthèse

Auteur(s) : Jean-Michel Vandeweerd

Fonctions : DVM, DES, Cert ES (soft tissue), Dipl ECVS
Facultés universitaires Notre-Dame-de-la-Paix

Les statistiques permettent d’éviter d’aboutir à des conclusions erronées par le fruit du hasard et d’estimer la probabilité de se tromper lors de l’interprétation de données.

Aux questions cliniques qu’il se pose, le praticien équin ne trouve pas toujours la réponse dans ses connaissances de base ou dans les livres dont il dispose. Dans ce cas, une recherche plus précise dans la littérature scientifique est nécessaire pour identifier des pistes de réponse [2, 3].

Une connaissance des méthodes utilisées pour la recherche et de la terminologie rencontrée dans les publications est indispensable pour évaluer la qualité scientifique de l’article et ainsi identifier dans quelle mesure l’information qu’il véhicule peut être utilisée pour étayer la décision médicale [4]. Les questions posées peuvent concerner l’étiologie, la fréquence, le diagnostic, le traitement, ainsi que les facteurs de risque et de pronostic d’une maladie [5-8]. Cette évaluation consiste à identifier les éléments de méthodologie qui pourraient être à l’origine de biais. Par définition, il s’agit de facteurs qui induisent une erreur systématique dans l’interprétation des résultats mesurés. Par analogie, une balance mal réglée pourrait donner à chaque pesée une valeur supérieure à la normale.

Le hasard peut également intervenir. La balance peut indiquer parfois une valeur supérieure à la masse réelle, et parfois une valeur inférieure. Cette variation, dans un sens ou dans l’autre, est l’erreur aléatoire. Elle est présente dans toute expérimentation ou observation scientifique. Elle peut être limitée, mais ne peut être évitée. Il est important de l’estimer. C’est le rôle des statistiques.

Variables et données

L’étude scientifique consiste à observer divers paramètres selon une méthodologie rigoureuse sur un groupe d’individus appartenant à la population à l’étude. Cette méthodologie est décrite dans la section “Matériel et méthodes” de l’article scientifique. Les résultats de l’observation sont répertoriés dans la section “Résultats”. Ils sont ensuite discutés dans la dernière partie de la publication, notamment au regard des forces et des faiblesses de la méthodologie mise en place et des informations publiées dans d’autres périodiques.

Les chercheurs appellent variables certains paramètres des individus (animaux) et des événements cliniques. Les données (data, en anglais) sont les valeurs que prennent ces variables.

Les variables indépendantes sont distinguées des variables dépendantes. Prenons, pour illustrer celles-ci, l’exemple d’une étude portant sur un nouveau traitement de l’ostéoarthrite des articulations distales du tarse (éparvin) chez le cheval. La variable indépendante est celle qui représente le facteur causal ou de prédiction. En l’occurrence, il s’agit du nouveau traitement pour l’éparvin. La variable dépendante (sous-entendu, “de la variable indépendante”) correspond à l’effet produit. Il pourrait s’agir ici de l’amélioration de la locomotion ou de la diminution de la boiterie faisant suite au nouveau traitement. D’autres variables (annexes, secondaires) interviennent et sont souvent analysées en même temps, comme l’âge, le sexe, le poids.

Nature des variables

Les variables sont quantitatives lorsque les valeurs qu’elles prennent sont exprimées selon un ordre précis et un intervalle régulier entre elles. Il en existe deux types. Les variables continues peuvent prendre n’importe quelles valeurs sur un continuum, par exemple le poids, la pression sanguine ou la glycémie. La mesure de la variable étudiée est, en pratique, limitée à certaines valeurs qui dépendent de la précision de l’instrument de mesure. Le poids d’un cheval n’est pas donné par une valeur comme 565,65789546897 kg, mais plutôt par 565,6 kg. Les variables non continues (elles sont aussi dites “discrètes”) ne prennent pas n’importe quelles valeurs sur un continuum. Elles sont exprimées sous la forme d’un comptage. Par exemple, le nombre de concours auxquels le cheval a participé.

Les variables peuvent être qualitatives. Il convient de distinguer celles qui sont nominales et celles qui sont ordinales. Les variables nominales concernent celles qui permettent de classer les individus par catégories. Elles ont deux modalités (mâle/femelle, par exemple), ou plus de deux modalités (par exemple, cheval de jumping, de dressage et de loisirs). Les variables ordinales concernent celles qui sont exprimées selon un grade ou un ordre, et où l’intervalle entre les différents grades n’est pas clairement spécifié. Ainsi, la boiterie du cheval atteint d’éparvin pourrait être évaluée sur l’échelle de l’American association of equine practitionners (AAEP) de 1 à 5.

Cette distinction entre les types de variables étudiées est importante car les outils statistiques pour les analyser diffèrent.

Les statistiques

Les statistiques ont trois objectifs. Le premier est de décrire les données (valeurs prises par les différentes variables). Il est alors question de statistiques descriptives. En effet, s’il est possible de percevoir intuitivement une tendance sur une dizaine de valeurs (par exemple, la température rectale prise chez une dizaine d’individus), le travail devient inextricable lorsque la quantité de données est importante (il est difficile d’évaluer une liste de 500 températures rectales au premier coup d’œil). C’est là qu’interviennent les mesures de position et de dispersion (moyennes, variance, amplitude, cœfficient de variation). Le second objectif des statistiques est d’établir dans quelle mesure les conclusions tirées au départ de l’échantillon ne sont pas le fruit du hasard. Il est question d’inférence. Il existe deux approches de l’erreur aléatoire : le test d’hypothèse et les intervalles de confiance. Troisièmement, les outils statistiques sont utilisés pour évaluer le nombre d’individus à enrôler pour une expérimentation (taille de l’échantillon). Une explication détaillée des techniques statistiques sort du cadre de cet article. De très bons ouvrages existent pour les lecteurs intéressés [1].

Test d’hypothèse

Dans notre exemple, l’étude consiste à évaluer si les données récoltées (par exemple, les résultats de la mesure de la boiterie sur l’échelle AAEP avant et après traitement) corroborent l’hypothèse d’efficacité du traitement, et si la conclusion (positive ou négative) peut être le fruit du hasard.

L’exercice du test d’hypothèse consiste à prendre les données obtenues lors de l’étude et à les verser dans la machine d’un test mathématique (figure 1). La formulation de l’hypothèse est en général exprimée sous une forme négative, par exemple : “Il n’existe pas de différence entre le nouveau traitement contre l’éparvin et l’absence de traitement (placebo idéalement).” Par définition, le test d’hypothèse concerne une hypothèse nulle (H0), c’est-à-dire celle qui prétend que l’intervention envisagée n’aura pas d’effet. L’hypothèse alternative H1 correspond à l’inégalité des effets.

Toutefois, par le jeu du hasard, les conclusions (rejet ou non de l’hypothèse) peuvent être fausses. Le résultat du test statistique peut être lié de quatre façons différentes à la réalité (figure 2). Le hasard peut ainsi influencer les données de façon telle qu’il serait possible de conclure qu’il existe un effet (la boiterie est améliorée par le nouveau traitement par rapport au placebo) alors que ce n’est pas la réalité. C’est un faux positif. Le cas contraire peut se présenter également. L’opérateur pourrait conclure qu’il n’existe pas d’effet (par exemple, il n’existe pas de différence entre le nouveau traitement et le placebo) alors qu’en réalité, il en existe un. Il est alors question de faux négatif.

L’erreur résultant en une conclusion faussement positive est appelée l’erreur de type I (erreur de première espèce). L’erreur résultant en une conclusion faussement négative est appelée l’erreur de type II (erreur de deuxième espèce).

Le test statistique (d’hypothèse) est un outil qui permet au chercheur de se positionner par rapport à une hypothèse (elle est juste ou elle est fausse) sur la base des valeurs prises par les variables étudiées (données) et de le renseigner sur la probabilité que le rejet ou l’acceptation de l’hypothèse soit fausse par le fruit du hasard.

Valeur de P

Au résultat du test d’hypothèse est associée une valeur appelée “valeur de P”. La valeur de P correspond en général à la probabilité de déclarer qu’il existe un effet alors qu’en réalité, c’est faux (erreur de type I). Elle est alors notée Pα. Si la valeur de P est inférieure à 0,05, cela signifie que la probabilité que le résultat du test soit dû au hasard est inférieure à 0,05. Autrement dit, si l’étude était répétée cent fois, un effet serait mis moins de cinq fois en évidence de façon fortuite. Arbitrairement, il a été estimé que le risque de se tromper moins d’une fois sur 20 peut être considéré comme étant faible. Lorsque P est inférieur à 0,05, le résultat est dit statistiquement significatif.

La valeur de P qui correspond à la probabilité de déclarer qu’il n’existe pas d’effet, alors qu’en réalité il en existe un (erreur de type II) est appelée Pβ. Dans la littérature scientifique, c’est la valeur de Pα à laquelle est faite allusion lorsque la valeur de P est évoquée.

Il est important de percevoir le caractère arbitraire du seuil de 0,05. Il pourrait très bien être considéré acceptable de se tromper plus d’une fois sur 20 par le jeu du hasard si la conclusion positive porte sur l’efficacité d’un traitement d’une maladie sévère pour laquelle il n’existe encore aucun traitement, a fortiori si la nouvelle technique présente peu d’effets secondaires. À l’opposé, l’opérateur pourrait être moins enclin à accepter de se tromper une fois sur 20 si le traitement existant est déjà relativement efficace et que le nouveau présente des effets secondaires. Pour cette raison, certains auteurs préfèrent donner la valeur exacte de P (par exemple : 0,03, 0,07, etc.) plutôt que de l’exprimer comme étant supérieure ou inférieure à 0,05. Cependant, lorsque la valeur de P est supérieure à 1 sur 5, l’opérateur se contente de signaler que P est supérieure à 0,20 car tous les scientifiques s’accordent à dire qu’une probabilité d’erreur de type I supérieure à 1 sur 5 n’est pas acceptable. De façon similaire, rien ne sert de donner avec précision la valeur de P si elle est inférieure à 0,001 : il suffit de dire qu’elle est inférieure à 0,001.

Puissance statistique d’un test

La probabilité qu’un test statistique mette en évidence une différence alors qu’il en existe réellement une est appelée puissance statistique du test. La puissance statistique est égale à 1 – Pβ. Donc, si Pβ = 20 %, la puissance du test sera de 80 %. Une étude est dite puissante sur le plan statistique lorsqu’elle permet fortement de mettre un effet en évidence alors qu’il en existe un réellement.

Tests utilisés en statistique

Le fonctionnement des tests statistiques sort du cadre de cet article. Une connaissance approfondie n’est pas aisée ni utile pour le praticien qui n’aura que très rarement l’occasion de les utiliser, et donc de les maîtriser. L’utilisation des statistiques est facilitée par le développement de l’informatique et de logiciels conviviaux. Pour les vétérinaires qui souhaiteraient publier, il convient de souligner que la consultation d’un biostatisticien est souvent salutaire et qu’elle est d’autant plus fructueuse que celle-ci est prévue tôt dans l’élaboration d’un protocole.

Estimation et intervalles de confiance

Un résultat statistiquement significatif au terme d’un test d’hypothèse n’indique nullement si l’effet observé est important. Imaginons que la variable mesurée soit le gain en concours et que la conclusion de l’étude soit qu’il est significativement supérieur chez les chevaux recevant le nouveau traitement. Une différence de 10 centimes d’euros pourrait être mise en évidence de façon très significative sur le plan statistique. Cela signifierait qu’il existe une différence de 10 centimes d’euros et qu’il est très peu probable que cette constatation soit le fruit du hasard. Cela n’est pas très intéressant sur le plan clinique. Un test d’hypothèse s’inscrit dans une procédure décisionnelle pour rejeter l’hypothèse nulle. Si le test d’hypothèse renseigne sur la force de l’évidence qu’un traitement est meilleur qu’un autre, il ne dit pas, en revanche, de combien.

Pour cette raison, certains scientifiques préfèrent fournir dans les résultats une mesure de l’ampleur de l’effet mesuré. Cette seconde approche est appelée estimation. Elle ne teste pas d’hypothèse et ne fournit pas une probabilité de commettre une erreur mais donne une fourchette (un intervalle) de valeurs au sein de laquelle la valeur réelle de l’effet mesuré doit se situer. Actuellement, certains périodiques scientifiques privilégient d’ailleurs la présentation des résultats sous cette forme.

Habituellement, c’est un intervalle de confiance de 95 % autour de l’estimation de l’effet qui est utilisé. Imaginons une hypothèse nulle où le risque de développer un éparvin chez les chevaux de trait soit le même que chez les chevaux de selle. Si le risque de développer un éparvin est de 1,83 (IC, 95 % : 1,22 - 2,74) cela signifie que l’effet estimé (le risque relatif) est de 1,83 et qu’il existe une probabilité de 95 % que le risque “réel” (si un tel phénomène peut être déterminé) se situe dans la fourchette comprise entre 1,22 et 2,74.

Les intervalles de confiance contiennent une information similaire à la significativité statistique. Si une valeur de 1 pour le risque relatif se situe en dehors d’un intervalle de confiance de 95 %, cela signifie que 1 ne fait pas partie de la fourchette qui a 95 % de chances de contenir la valeur réelle de l’effet. Au paragraphe précédent, nous avons imaginé un risque relatif de 1,83 (IC, 95 % : 1,22 - 2,74). Clairement, la valeur 1 n’est pas incluse dans cet intervalle. Il est aussi possible d’affirmer que la valeur 1, correspondant à l’absence d’effet, a seulement 5 % de chances d’être vraie. En conséquence, il est fort probable qu’il convienne de rejeter l’hypothèse nulle. Le résultat de 1,83 est donc statistiquement significatif.

Les intervalles de confiance ont l’avantage de mettre l’accent sur la valeur de l’effet. En une seule formulation, l’ampleur de l’effet mesuré est perçue et le chercheur identifie si cette mesure est statistiquement significative.

Très souvent, dans les publications scientifiques, l’intervalle de confiance est exprimé de façon graphique. Une ligne terminée par deux petits traits perpendiculaires à ses deux extrémités représente l’intervalle. Cette ligne est centrée sur la valeur estimée de l’effet (figure 3).

Nombre de sujets nécessaires et puissance d’un test

Les expérimentations et les observations menées en médecine humaine comme en médecine vétérinaire nécessitent l’enrôlement d’un nombre minimal d’individus. Le nombre de sujets à inclure, dans un essai par exemple, est fonction de trois composantes :

– la réponse attendue vis-à-vis du traitement de référence (par exemple, l’expérimentateur s’attend à ce que la boiterie due à l’éparvin soit diminuée de deux grades sur l’échelle AAEP) ;

– le niveau de signification (les valeurs des erreurs de type I et II qu’il est prêt à accepter) ;

– la nature des données (continues, ordinales, etc.).

L’expérience acquise avec des individus antérieurs et l’étude de la littérature existante permettent généralement de fournir une estimation de l’effet escompté d’une précision raisonnable. Supposons que le traitement de référence donne 40 % de réponses favorables. Il est nécessaire de définir l’amplitude du bénéfice attendu avec le nouveau traitement. S’il est attendu que le nouveau traitement apporte 50 % de réponses favorables, alors la différence attendue entre les deux traitements est de 10 %. Bien entendu, il n’est pas connu a priori si le nouveau traitement aura l’effet escompté. Cependant l’essai est réalisé de telle sorte que si ce bénéfice existe, le chercheur a une chance raisonnable de le mettre en évidence. Si la différence escomptée est minime, un nombre de sujets plus important est nécessaire que si elle est grande pour la mettre en évidence.

Le risque de première espèce, c’est la probabilité de rejeter l’hypothèse nulle alors qu’elle est vraie. Si l’opérateur est prêt à accepter un risque important de conclure que le nouveau traitement a un effet alors qu’il n’en a pas en réalité, un nombre plus faible de sujets peut suffire. Toutefois, comme il l’a été signalé précédemment, P est souvent fixé à 0,05, et parfois même à 0,01.

Le risque de deuxième espèce intervient également dans l’établissement du nombre de sujets à prévoir pour une étude. En général, un risque plus grand de se tromper en affirmant qu’il n’existe pas d’effet alors qu’il en existe un en réalité est accepté. Pβ est souvent fixé à 20 %.

La nature des données intervient également. Par exemple, si les données sont continues et varient facilement par individu, le risque du jeu du hasard est plus grand et un plus grand nombre d’individus est donc nécessaire pour montrer un effet entre les deux traitements.

Des formules mathématiques existent pour calculer la taille nécessaire de l’échantillon, intégrant les trois paramètres dont nous venons de parler. D’une manière générale, pour la plupart des essais thérapeutiques réalisés de nos jours, un nombre important d’individus serait nécessaire. Les études réalisées en médecine vétérinaire sont en général insuffisantes.

Lorsqu’il s’agit de traitements évidents et puissants, un nombre limité peut être suffisant. Par exemple, peu de chevaux seraient nécessaires pour montrer que le repositionnement chirurgical du côlon ascendant a de meilleurs résultats en comparaison à l’absence de tout traitement lors de torsion. Toutefois, la plupart des essais actuels portent sur des traitements qui sont comparés à des méthodes déjà efficaces. Ils concernent des maladies qui sont influencées par différents paramètres et où l’effet de la thérapeutique peut être moins perceptible. Il apparaît aujourd’hui que les études qui portent sur moins de 100 individus ont peu de chance de détecter une différence significative entre deux traitements. Il est effectivement très difficile de mettre en évidence une différence d’effet de moins de 25 % dans les conditions générales d’expérimentation et les risques de première et deuxième espèces généralement choisis.

Conclusion

L’erreur liée au hasard existe dans toutes les études scientifiques. Des techniques statistiques permettent d’évaluer le risque de se tromper dans les conclusions de l’étude. Une connaissance de base du processus permet de mieux comprendre des expressions comme “valeur de p”, “statistiquement significatif” ou “intervalle de confiance” qui émaillent les résultats des études scientifiques publiées [9]. Le praticien équin pourra ainsi compléter son évaluation de la validité interne de l’article qu’il consulte.

Références

  • 1 – Field A. Exploratory discovering statistics using SPSS. Sage Publications, London, 2005.
  • 2 – Vandeweerd JM, Perrin R. Evidence based medicine, la médecine factuelle. Prat. Vét. Equine. 2007 ; 39(156): 43-48.
  • 3 – Vandeweerd JM. Premiers pas de médecine factuelle : recherche documentaire avec les bases de données. Prat. Vét. Equine. 2009 ; 40(162).
  • 4 – Vandeweerd JM. La médecine factuelle au quotidien : des suggestions pour les praticiens équins. Prat. Vét. Equine. 2010;42(167):55-61.
  • 5 – Vandeweerd JM, Buczinski S, Lebrun L et coll. La synthèse méthodique : un outil d’information scientifique mis à la disposition du praticien. Prat. Vét. Equine 2010;42(168):65-73.
  • 6 – Vandeweerd JM, Desbrosse F. Mieux comprendre la validité des tests diagnostiques. Prat. Vét. Equine. 2011;43(169):55-59.
  • 7 – Vandeweerd JM. Fréquence des maladies : notions de prévalence et d’incidence. Prat. Vét. Equine. 2011;43(170):59-62.
  • 8 – Vandeweerd JM. Notions de risque et de prognostic. Vét. Equine. 2011;43(171):61-66.
  • 9 – Vandeweerd JM et Saegerman C. Guide pratique de médecine factuelle vétérinaire. Éd. du Point Vétérinaire, Paris, France. 2009:197p.

Éléments à retenir

→ Les biais sont des éléments de la méthodologie qui induisent une erreur systématique dans les résultats. Le hasard des données peut également induire une erreur dite aléatoire. Le rôle des statistiques est d’éviter d’émettre des conclusions erronées par le fruit du hasard et d’estimer la probabilité de se tromper.

→ L’erreur aléatoire peut être contenue grâce au test statistique d’hypothèse ou à l’estimation de l’effet mesuré sous la forme d’un intervalle de confiance.

→ Un test statistique permet de rejeter une hypothèse nulle (concluant à l’absence d’effet) avec une probabilité de se tromper inférieure à 5 % (p < 0,05), en général. L’effet mesuré peut aussi être exprimé sous la forme d’un intervalle de confiance entre une valeur maximale et une valeur minimale qu’il a 95 % (en général) de chances d’avoir sans se tromper sous l’effet du hasard.

Formations e-Learning

Nouveau : Découvrez le premier module
e-Learning du PointVétérinaire.fr sur le thème « L’Épanchement thoracique dans tous ses états »

En savoir plus

Boutique

L’ouvrage ECG du chien et du chat - Diagnostic des arythmies s’engage à fournir à l’étudiant débutant ou au spécialiste en cardiologie une approche pratique du diagnostic électrocardiographique, ainsi que des connaissances approfondies, afin de leur permettre un réel apprentissage dans ce domaine qui a intrigué les praticiens pendant plus d’un siècle. L’association des différentes expériences des auteurs donne de la consistance à l’abord de l’interprétation des tracés ECG effectués chez le chien et le chat.

En savoir plus sur cette nouveauté
Découvrir la boutique du Point Vétérinaire

Agenda des formations

Calendrier des formations pour les vétérinaires et auxiliaires vétérinaires

Retrouvez les différentes formations, évènements, congrès qui seront organisés dans les mois à venir. Vous pouvez cibler votre recherche par date, domaine d'activité, ou situation géographique.

En savoir plus


Inscrivez-vous gratuitement à notre Newsletter

Découvrez en avant-première chaque mois le sommaire du Pratique Vétérinaire Equine.

Vidéo : Comment s'inscrire aux lettres d'informations du Point Vétérinaire

Retrouvez-nous sur
Abonné à Pratique Vétérinaire Equine, retrouvez votre revue dans l'application Le Point Vétérinaire.fr