Mieux comprendre la validité des tests diagnostiques - Pratique Vétérinaire Equine n° 169 du 01/01/2011

Pratique Vétérinaire Equine n° 169 du 01/01/2011

Article de synthèse

Auteur(s) : Jean-Michel Vandeweerd*, Francis Desbrosse**

Fonctions :
*DVM, DES, Cert. ES (soft tissue), Dipl. ECVS
Facultés universitaires Notre-Dame-de-la-Paix
URVI (unité de recherche vétérinaire intégrée)
Rue de Bruxelles, 61, 5000 Namur, Belgique
jean-michel.vandeweerd@fundp.ac.be
**Faculté de médecine vétérinaire
Université de Liège, bât. B41
Bd de Colonster, 20, 4000 Liège 1, Belgique
***Clinique vétérinaire équine
18, rue des Champs, La Brosse
78470 Saint-Lambert-des-Bois
****Clinique vétérinaire équine
18, rue des Champs, La Brosse
78470 Saint-Lambert-des-Bois

Les tests diagnostiques sont caractérisés par plusieurs données, qu’il importe de maîtriser afin d’en tirer le meilleur parti.

Le praticien équin qui tient à maintenir ses connaissances à jour en consultant les données publiées est amené à lire des articles qui traitent de techniques diagnostiques. Certains termes utilisés sont parfois difficiles à comprendre, de même que la méthodologie mise en place pour évaluer les techniques en question. Que signifient les mots “sensibilité”, “spécificité”, “valeur de prédiction”, “exactitude”, “courbe ROC” ? C’est ce qu’explique ce nouvel article de médecine factuelle.

Le test diagnostique est souvent pris au sens d’un examen de laboratoire ou d’imagerie médicale (radiographie, échographie, imagerie par résonance magnétique [IPM] par exemple). Pourtant, il devrait être pris au sens large. L’interrogatoire, l’examen physique et un questionnaire renseigné par les propriétaires sont d’autres exemples d’outils utilisés pour établir un diagnostic médical.

L’objectif du test diagnostique est en général d’identifier l’origine des symptômes présentés par le cheval. Au départ, une liste des causes possibles est établie, et constitue les éléments du diagnostic différentiel. Ce processus d’élimination ou d’identification reste imparfait. Le vétérinaire doit prendre une décision par rapport aux résultats du test pour considérer une maladie comme probable ou comme improbable. Ce faisant, il peut se tromper. Une façon classique d’illustrer la relation entre les résultats du test et la vérité est de prendre en compte un tableau dans lequel sont répartis les cas où le test est normal (il est alors dit négatif) ou anormal (il est dit positif), alors que la maladie est réellement présente ou absente. Il existe donc quatre situations possibles. Dans deux cas, le diagnostic est correct et dans deux autres il est faux. Lorsque le test est positif et que la maladie est réellement présente, le résultat du test est caractérisé de vrai positif. Si la maladie n’est pas réellement présente, il s’agit d’un faux positif. En revanche, lorsque le test est négatif et que la maladie est réellement absente, le résultat du test est caractérisé de vrai négatif. Si la maladie est en fait présente, c’est un faux négatif (^{tableau 1}) [¹, ⁴].

L’évaluation d’un nouvel outil diagnostique consiste à comparer les résultats de l’examen à ceux obtenus à l’aide d’une autre technique considérée comme le gold standard du moment, jugée supérieure aux autres. Des techniques de visualisation directe comme l’arthroscopie, l’exploration chirurgicale, la biopsie ou l’autopsie sont des exemples de procédés considérés comme des gold standards. L’étude d’un test diagnostique consiste à établir s’il est associé à plus ou moins de faux positifs ou négatifs, et à déterminer la précision de diagnostic à escompter.

Comment étudier la précision d’un test diagnostique ?

Lacombe et coll. ont évalué la capacité de la tomodensitométrie axiale (CT, computed tomography) à diagnostiquer une affection intracrânienne chez le cheval. L’étude d’un test consiste à remplir les quatre cases du tableau 1 [²]. Il s’agit d’observer une population d’individus à un moment donné, d’utiliser le test diagnostique à l’étude pour mettre une maladie en évidence et de comparer les résultats obtenus à ceux d’un test de référence considéré comme un gold standard. En l’occurrence, Lacombe et coll. ont utilisé l’autopsie et l’histo-affection pour identifier une affection intracrânienne et comparer ces résultats post-mortem avec les scanners réalisés (^{tableau 2}).

Nous pouvons donc tirer cinq conclusions de cette étude : 1 le test identifie correctement 8 chevaux malades sur 14 (8/[8 + 6]) ; 2 il distingue à bon escient 1 cheval sain sur 1 (1/[1 + 0]) ; 3 lorsque le test conclut qu’un cheval est malade, il y a huit chances sur huit qu’il le soit réellement (8/[8 + 0]) ; 4 lorsque le test conclut qu’un cheval est sain, il y a une chance sur sept pour qu’il le soit réellement (1/[6 + 1]) ; 5 le test permet le bon diagnostic dans 9 cas (8 + 1) sur 15.

Ces cinq caractéristiques correspondent aux critères de précision d’un examen diagnostique : la sensibilité, la spécificité, la valeur de prédiction positive, la valeur de prédiction négative et l’exactitude.

Mesures de l’efficacité d’un test diagnostique

Sensibilité et spécificité

Par définition, la sensibilité d’un test est la proportion d’animaux avec un test positif qui présentent réellement la maladie. Il s’agit donc de celle des vrais positifs parmi les malades. La spécificité est la proportion d’animaux sans la maladie qui ont un test négatif. Il s’agit donc de celle des vrais négatifs parmi les individus sains (^{tableau 3}).

Un test très sensible passe donc rarement à côté d’un animal malade puisque la proportion de vrais positifs est grande. Schramme et coll. ont évalué la spécificité et la sensibilité de la résonance magnétique seule, puis associée à l’injection d’un milieu de contraste (liquide physiologique) pour diagnostiquer des lésions du fibrocartilage palmaire de l’os sésamoïde distal [³]. Ils ont montré que la sensibilité est très grande, avec ou sans contraste. L’imagerie par résonance magnétique (IRM) est un moyen efficace pour diagnostiquer une lésion cartilagineuse lorsqu’elle est présente.

De plus, un test très spécifique classe rarement comme malade un animal sain puisque la proportion de vrais négatifs est grande. Dans le même article, Schramme et coll. concluent que la spécificité de l’IRM seule est faible (7 %), mais qu’elle atteint 100 % lorsqu’elle est combinée à l’injection de liquide physiologique dans la bourse podotrochléaire [³]. Cela signifie que l’identification d’un animal sain est moins bonne sans utiliser de contraste.

Un test très sensible est donc important lorsqu’il s’agit de ne pas passer à côté d’une maladie. Ainsi, il est important de détecter un sida chez un être humain. Un test sensible est utile aussi dans les premières étapes de diagnostic lorsqu’il s’agit de rapidement identifier les animaux potentiellement porteurs d’une maladie. Ainsi, il convient d’avoir un test très sensible pour diagnostiquer l’anémie infectieuse. Une fois que ces animaux sont identifiés, d’autres examens peuvent être pratiqués pour confirmation. Finalement, le résultat d’un test très sensible est grandement apprécié lorsqu’il est négatif car il rassure le vétérinaire dans sa démarche de détection rapide d’une maladie.

Un test très spécifique est utile lorsqu’il s’agit de confirmer un diagnostic suggéré par d’autres données. Des tests très spécifiques sont nécessaires lorsqu’un résultat faussement négatif pourrait heurter psychologiquement le propriétaire de l’animal ou un patient. Imaginons que les examens cliniques d’un patient évoquent une tumeur cérébrale, il est souhaitable de réaliser un test très spécifique afin que, si la conclusion est l’absence de lésion, le médecin et le malade en soient assurés.

Imaginons vouloir évaluer la spécificité et la sensibilité de la CT à diagnostiquer la présence d’une affection intracrânienne en utilisant l’autopsie comme gold standard. Le calcul de sensibilité et de spécificité en utilisant les valeurs de Lacombe et coll. serait le suivant : sensibilité = 8/14 = 57 % et spécificité = 1/1 = 100 % [²].

En considérant ces valeurs, les auteurs concluent à l’utilité de la CT de la façon suivante : ce procédé est une bonne technique pour détecter des lésions telles qu’une fracture, une tumeur et une hémorragie, mais reste inefficace pour identifier des lésions d’inflammation. La sensibilité n’est que de 57 %.

Il est dit en général qu’un test est très spécifique de la maladie et très sensible pour l’exclure. Les Anglo-Saxons possèdent un moyen mnémotechnique. C’est le SnNOut et le SpPIn : « When a sign or a test has a high sensitivity, a negative result rules out the diagnosis. When a sign or a test has a high specificity, a positive result rules in the diagnosis. »

C’est ce que Lacombe et coll. rapportent, par rapport à la spécificité de 100 %, en écrivant : « CT allows to rule in intracranial disorders » [²].

Courbe ROC (receiver operating characteristic)

Le test idéal doit être à la fois très sensible et très spécifique. Toutefois, lorsque les données cliniques peuvent prendre différentes valeurs sur un continuum, le seuil entre un examen normal et un examen anormal est arbitraire. Par exemple, à partir de quelle valeur des CPK (créatine phosphokinase) le cheval est-il considéré comme présentant des signes biochimiques de myopathie ?

Dans ce cas, la sensibilité et la spécificité évoluent en général au détriment de l’autre. Il convient donc de déterminer une valeur seuil. Ce faisant, pour chaque valeur, correspondent une spécificité et une sensibilité. Lorsque le seuil s’élève, moins de patients sont déclarés positifs. Le nombre de faux positifs et celui de faux négatifs changent donc avec la variation du niveau de seuil établi.

Imaginons le rapport entre sensibilité et spécificité pour différents niveaux d’une enzyme E qui permettent de détecter une maladie M chez le cheval (^{tableau 4}).

Si le seuil de détection était placé à 3 ng/ml, la sensibilité serait très haute, mais la spécificité très basse. Cela signifierait que si le test était négatif le résultat ne serait pas très sûr, ce qui nécessiterait de réaliser d’autres examens. En revanche, si le seuil était fixé trop haut (12 ng/ml par exemple), la sensibilité serait très basse. Ce qui signifierait que le test passerait à côté de nombreux cas. Un compromis doit donc être trouvé. La valeur de 5 ng/ml serait acceptable puisque, dans ce cas, la sensibilité est de 96 % et la spécificité de 76 %.

Un outil graphique permet de représenter les caractéristiques d’un test diagnostique : la courbe de receiver operating characteristic (ce terme n’est habituellement pas traduit), ou ROC (^figure). La courbe ROC représente en ordonnées la proportion de tests positifs parmi les animaux malades (la sensibilité) en fonction du complément de la proportion de tests positifs parmi les animaux non malades (complément de la spécificité ou [1 – spécificité]) en abscisses, pour toutes les valeurs seuils envisageables du test. Pour un test qui ferait parfaitement la différence entre malades et non malades, il est possible de trouver une valeur seuil pour laquelle la sensibilité et la spécificité sont de 100 %, qui correspond au coin supérieur gauche du graphique. Dans ce cas, la courbe ROC longe l’axe des ordonnées et le haut du graphique. En revanche, si un test a une capacité de discrimination nulle, la proportion de positifs parmi les malades sera égale à celle de positifs parmi les non-malades, quelle que soit la valeur seuil. Dans ce cas, la courbe ROC est la courbe d’identité, à 45°. La plupart des tests se trouvent entre ces deux extrêmes. Plus la courbe ROC se rapproche du coin supérieur gauche du graphique, plus le test est bon. Les courbes ROC sont un moyen utile de comparer des tests différents destinés à établir le même diagnostic. Plus l’aire sous la courbe est grande, plus le test est bon.

Valeur de prédiction

La sensibilité et la spécificité d’un test renseignent le praticien sur sa valeur. Cependant, elles ne l’informent pas sur la probabilité que le patient soit porteur de la maladie en fonction du résultat du test. C’est pourtant cette question qui est utile pour le clinicien. Cette probabilité est appelée “valeur de prédiction”. La valeur de prédiction positive correspond à la probabilité que le patient présente la maladie si le résultat du test est positif (anormal). La valeur de prédiction négative correspond à la probabilité que le patient ne présente pas la maladie si le résultat du test est négatif (normal). Les valeurs de prédiction répondent à la question : « Quelle est la probabilité que l’animal soit (ne soit pas) atteint de la maladie si le résultat du test diagnostique est positif (négatif) ? » La valeur de prédiction est aussi parfois appelée “probabilité a posteriori”, c’est-à-dire la probabilité après que le résultat du test soit connu. La probabilité a priori (c’est-à-dire avant que le test diagnostique soit effectué) n’est autre que la prévalence de la maladie dans la population étudiée, c’est-à-dire sa fréquence dans la population. Pour être précis, le nombre de cas de l’affection dans une population rapporté au nombre de sujets à risque à cet instant est appelé “prévalence instantanée” ou “proportion de prévalence instantanée”. Le terme “proportion de prévalence” est plus correct puisqu’il s’agit effectivement d’une fraction présentant au numérateur le nombre d’individus malades dans une population à un moment donné et au dénominateur le nombre total d’individus de cette population.

Dans l’exemple repris au tableau 2, la valeur de prédiction positive (VPP) = 8/(8 + 0) = 100 %. La valeur de prédiction négative (VPN) = 1/(6 + 1) = 14 %. Les formules à utiliser en référence à ce tableau sont :

VPP = a/a + b, et VPN = d/c + d.

La probabilité qu’un animal présente une affection intracrânienne lorsque la CT l’indique est de 100 %. En revanche, la valeur de prédiction négative est bien moins bonne puisque seulement 14 % d’individus pour lesquels aucune lésion n’a été identifiée n’en auraient pas réellement.

Exactitude d’un test

Le terme “exactitude” est utilisé pour résumer la valeur totale du test. La précision est la proportion de tous les résultats, positifs et négatifs, qui sont corrects. Dans notre exemple, (8 + 1)/15 = 60 %. Comme pour la courbe ROC, ce chiffre permet de comparer des tests. Il n’a toutefois pas d’intérêt clinique direct comme les valeurs de prédiction.

Tests multiples

Il est inhabituel de se fonder sur un seul test pour diagnostiquer une maladie. En effet, un test est rarement hautement sensible et spécifique. En général, le clinicien associe donc plusieurs techniques diagnostiques. Deux approches sont possibles. La première consiste à effectuer des tests en parallèle, la seconde des tests en série.

Tests en parallèle

Les tests en parallèle sont effectués en général dans les centres hospitaliers dans des situations d’urgence ou de cas référés où un maximum d’examens sont réalisés en un minimum de temps. La sensibilité augmente ainsi que la valeur de prédiction négative. Autrement dit, il y a plus de chance de détecter une affection et plus de chance que l’affirmation d’absence de maladie soit vraie si l’examen est déclaré négatif. Toutefois, la spécificité et la valeur de prédiction positive diminuent. En effet, la multiplicité des examens augmente le risque d’identifier une anomalie qui n’est pas réellement la cause. Il y a plus de chance que l’affirmation de présence d’une maladie soit fausse si l’examen est déclaré positif. Cette situation est rencontrée dans les hôpitaux spécialisés qui détectent des maladies non diagnostiquées par des généralistes. Cependant, le risque de surdiagnostiquer des affections est réel.

Tests en série

Les tests en série sont réalisés lorsqu’il existe une limite financière ou technique. C’est la démarche adoptée sur le terrain. Par définition, un examen positif à un premier test induit la réalisation d’un second, et ainsi de suite. Cette façon de faire diminue la sensibilité et la valeur de prédiction négative. Elle augmente, en revanche, la spécificité et la valeur de prédiction positive. En effet, le risque de ne pas identifier le trouble est plus grand, mais les examens successifs pourraient confirmer de plus en plus le diagnostic initial. Notons encore que cela n’est vrai que si les tests qui se suivent sont indépendants les uns des autres. Or ce n’est pas nécessairement le cas. Il est un biais connu des radiologues qui est celui de l’influence des éléments anamnestiques et cliniques sur l’interprétation d’un cliché radiographique. Ainsi, pour éviter d’être influencés, certains radiologues préfèrent analyser d’abord les clichés avant de prendre connaissance de ces éléments, puis les examiner une seconde fois après avoir lu le rapport de l’anamnèse et des examens cliniques.

Application en médecine équine

Ces deux approches sont aussi rencontrées dans la pratique équine. Il est possible, par exemple dans le cadre d’un examen locomoteur, de choisir une imagerie exhaustive d’emblée qui va augmenter la sensibilité de l’examen, mais risquer d’en diminuer sa spécificité. Il en serait de même si les observations cliniques (telles que la détection de déformations ou de douleurs) étaient multipliées : certains symptômes pourraient ne pas être associés à l’affection sous-jacente (faible spécificité), mais la probabilité de détecter l’origine du trouble serait plus grande (meilleure sensibilité).

Ce qui est plus intéressant, en revanche, c’est la conciliation des deux approches dans un sens ou dans l’autre. L’examen lésionnel permet d’améliorer l’examen clinique en ce sens qu’il peut mener à une nouvelle observation ou, en tout cas, donner du sens à une observation clinique réalisée. À l’opposé, l’examen clinique peut permettre de donner du sens à une anomalie détectée par imagerie. Il est donc fort probable que la spécificité et la sensibilité des examens cliniques et d’imagerie évoluent favorablement chez le clinicien qui effectue ce va-et-vient au cours de sa carrière. Toutefois, cela n’est vrai que dans la mesure où une attitude objective (en aveugle pourrions-nous dire) est observée en passant d’une technique à l’autre, cherchant sans cesse l’évidence sans vouloir la créer.

Conclusion

Les différentes caractéristiques des tests diagnostiques permettent non seulement de les comparer mais aussi d’évaluer les résultats pour diagnostiquer une maladie. Les divers paramètres (sensibilité, spécificité, valeur de prédiction) ne sont encore que rarement pris en compte en pratique médicale vétérinaire. Ce n’est pas le cas en médecine humaine.

La meilleure compréhension de ces caractéristiques et la multiplication des études portant sur les méthodes de diagnostic devraient permettre aux praticiens équins d’affiner leur approche clinique et de préciser, par des chiffres, la probabilité d’effectuer un diagnostic correct.

Références

1. Fletcher RH, Fletcher SW. Clinical epidemiology: The essentials. 4^th ed. Lippincott Williams and Wilkins, Philadelphia, États-Unis. 2005:252p.
2. Lacombe VA, Sogaro-Robinson C, Reed SM. Diagnostic utility of computed tomography imaging in equine intracranial conditions. Equine Vet. J. 2010;42(5):393-399.
3. Schramme M, Kerekes Z, Hunter S, Nagy K, Pease A. Improved identification of the palmar fibrocartilage of the navicular bone with saline magnetic resonance bursography. Vet. Radiol. Ultrasound. 2009;50(6):606-614.
4. Vandeweerd JM, Saegerman C. Guide pratique de médecine factuelle vétérinaire. Éd. du Point vétérinaire, Paris, 2009:193p.

Éléments à retenir

→ Un test diagnostique s’évalue en comparant sa capacité à détecter une affection à celle d’un autre test considéré comme un gold standard.

→ Spécificité, sensibilité, valeur de prédiction sont des caractéristiques d’un test diagnostique qui informent le praticien sur la valeur de l’outil qu’il compte utiliser pour détecter une affection.

→ L’utilisation de tests en parallèle augmente la sensibilité, mais diminue la spécificité. L’utilisation des tests en série a l’effet inverse.

Espace Abonné

Edition numérique de Pratique Vétérinaire Equine
Édition numérique du numéro Spécial
Archives
Compléments de lecture
Certificats CFCV

Abonnez-vous

Formations e-Learning

Nouveau : Découvrez le premier module
e-Learning du PointVétérinaire.fr sur le thème « L’Épanchement thoracique dans tous ses états »

Boutique

L’ouvrage ECG du chien et du chat - Diagnostic des arythmies s’engage à fournir à l’étudiant débutant ou au spécialiste en cardiologie une approche pratique du diagnostic électrocardiographique, ainsi que des connaissances approfondies, afin de leur permettre un réel apprentissage dans ce domaine qui a intrigué les praticiens pendant plus d’un siècle. L’association des différentes expériences des auteurs donne de la consistance à l’abord de l’interprétation des tracés ECG effectués chez le chien et le chat.

En savoir plus sur cette nouveauté
Découvrir la boutique du Point Vétérinaire

Agenda des formations

Retrouvez les différentes formations, évènements, congrès qui seront organisés dans les mois à venir. Vous pouvez cibler votre recherche par date, domaine d'activité, ou situation géographique.

Inscrivez-vous gratuitement à notre Newsletter

Découvrez en avant-première chaque mois le sommaire du Pratique Vétérinaire Equine.

Vidéo : Comment s'inscrire aux lettres d'informations du Point Vétérinaire

S'inscrire

Retrouvez-nous sur