Les ostéopathes critiquent le manque de validité de Wikipédia [LCA]

Cette semaine, le Time puis Sciences & Avenir ont relayé un article du Journal Of the American Osteopathic Association en titrant l’information principale : « sur Wikipedia, 9 articles sur 10 de médecine seraient erronés ».
Le titre raconte n’importe quoi, et c’est dommage parce que dans l’article français, ils creusent la méthodologie de façon intelligente : « (…) pas d’informations concrètes sur la nature des erreurs et discordances (…) Les assertions extraites des fiches Wikipedia ne sont ainsi pas détaillées (…) impossible de vérifier l’importance ou la validité des erreurs qui auraient été relevées. »

Du coup, j’ai fait comme tous les gens curieux qui ont du temps à perdre : j’ai regardé l’article source…

Le journal, les auteurs.

Bref aparté. Dans les sciences de la médecine, actuellement, le CV comporte trois choses : une activité de soins, une activité d’enseignement et une activité de recherche. Pour ce dernier point, en 2014, on attend d’un (re)chercheur qu’il fasse avancer la science.
Or, c’est bien connu, la science ne progresse que si on remplit des revues médicales d’articles en toute sorte : lettre, fiche, cas clinique, étude épidémiologique, diagnostique, thérapeutique, méta-analyse, poster, traduction et commentaire d’article…
Les écrits restent, les paroles meurent. (Au passage, les écrits utiles restent, mais les écrits vains meurent…)
Et pour avoir un beau CV, on ne demande pas de publier des articles dans Télé Poche ou Picsou Magazine, mais de publier dans des revues prestigieuses. Pour mesure le prestige d’une revue, actuellement, on mesure son Impact Factor, qui est le nombre de fois où chaque article est cité dans la littérature scientifique en moyenne. En gros, c’est le nombre de retweets moyen. Plus il est important, plus l' »impact » du magazine est important dans la communauté scientifique — par exemple, l’impact factor du British Medical Journal est à 17, c’est très important !

Bon, donc, là-dessus, l’impact factor du Journal of American Osteopathic Association est à 0.
Si on se tient à l’impact factor (qui n’est pas un mode idéal de classification, mais celui en vigueur en tout cas), ce n’est pas une très bonne revue. Et elle est sûrement beaucoup moins lue que Picsou Magazine en plus.

Je trouve étonnant de voir 17 auteurs sur cet article. Je ne vais pas m’amuser à tous les checker, mais globalement les premiers semblent être des fidèles du J.A.O.A. (American Osteopathic, z’avez compris).

Le résumé

Les auteurs ont comparé les articles de Wikipedia avec des sources validées sur les 10 pathologies les plus coûteuses aux USA.
Deux investigateurs ont relu les articles, extrait les « assertions » et comparé chaque phrase à la littérature. A la fin, ils ont comparé leurs deux résultats.
Il y avait des discordances sur 9 des 10 articles entre Wikipedia et la littérature. Donc attention.

Arrêt sur image

Les gars vont prendre 10 articles sûrement énormes (maladie coronaire, cancer du poumon, hypertension artérielle…), le découper en phrases et analyser CHAQUE affirmation — et ce, dans le seul but de montrer qu’il peut y avoir des discordances entre l’encyclopédie et les preuves scientifiques. (Visiblement, le cours de water-bowling du mercredi soir a été annulé et il fallait s’occuper).

Introduction

Blablabla : 47 à 70% des médecins l’utilisent comme une référence. On va comparer 10 articles à la littérature.

Méthode

10 articles sélectionnés le 25 avril 2012 (2 ans pour la publication dans la revue donc).
10 relecteurs qui sélectionnent eux-mêmes les assertions qu’ils vont devoir analyser (ça existe le biais de fainéantise ? nan parce que du coup, genre les assertions « pénibles » à trouver, ils peuvent « oublier » de les enregistrer… D’ailleurs, on verra dans le tableau que les reviewers n’ont pas trouvé le même nombre d’assertion dans le même article… avec des différences parfois importantes : 112 versus 58 assertions pour la contusion, 172 versus 72 pour la dépression – on imagine que celui à 72 a fini par en souffrir à mi-article !

Les relecteurs doivent regarder dans la littérature pour chaque assertion (truc de maboul) et noter ensuite : « concordant » / « discordant » pour chacune, entre Wikipedia et la littérature. Une tierce personne classera ensuite leurs avis en similaires / non-similaires mais on peut presque oublier…

Et pour s’assurer que les relecteurs n’ont pas fait n’importe quoi, ils vont faire un test de McNemar pour comparer leurs proportions (c’est comme ça que je comprends en tout cas, arrêtez-moi si je dis une bêtise !) : notez bien que ça, c’est un objectif secondaire : « est-ce nos relecteurs savent faire leur boulot ? » Ca ne répond en rien à la question : « wikipedia est-il fiable ? »

Résultats

Bon, ça va vite. Ils donnent les définitions (dans les résultats ?!), présentent les 10 pathologies traitées…
Et puis plouf !
« Dans 9 articles, il y avait une discordance entre Wikipedia et la littérature pour les assertions similaires. Seule la contusion était un bel article » (je résume)
« Dans 4 articles, il y avait une discordance entre Wikipedia et la littérature pour les assertions non-similaires entre les 2 relecteurs » (gnéééé ?!)

Bon, ok, on s’en fiche. On veut LE tableau ! (Je ne le reproduis pas, j’ai pas le droit).

Le tableau

Bon, là, je regrette de ne pas être biostatisticien, parce que je pense qu’il y a des choses à redire. A défaut, on peut déjà critiquer la forme totalement imbitable… et essayer d’analyser quand même un peu, pour vous montrer en quoi ils sont à côté de leurs pompes.

Prenons deux exemples.
Un « mauvais » article, fustigé par les 17 auteurs, la revue, le Time, Sciences & Avenir. La honte de Wikipedia si on en croit le petit p mis en avant. L’hyperlipidémie.

 

Similaire Non-similaire Ensemble Total
Hyperlipidemia Concordant Discordant Concordant Discordant Concordant Discordant
 Reviewer 1 17 0 11 0 28 0 28
 Reviewer 2 19 4 4 2 23 6 29
 P value <.001 .375 .001

Disons que je suis le « Reviewer 1 ». Je lis l’article « hyperlipidémie », je trouve 28 assertions. Sur ces 28 assertions… 28 concordent avec la littérature, et 0 discordent ! Banco, l’article parfait : 100% de concordance.
Mon collègue, le « Reviewer 2 », ne l’entend pas de cette oreille. Il trouve 29 assertions, dont 6 discordantes : 80% de concordance « seulement ».
Et donc… what else ? « Meeeeeeeeeeerde » se disent soudain les 17 auteurs en choeur, on a oublié de définir un seuil pour dire « bon article ou mauvais article » (parce qu’on pouvait se douter qu’en épluchant chaque phrase on arriverait à un taux de 10% ou 20% ou 30% d’assertions « non retrouvées/discordantes » avec la littérature). Bon, donc c’est balaud, mais là, visiblement une moyenne de 90% de corrélation entre l’article Wikipedia et la littérature, c’est un « mauvais article », un des 9 qui ont démontré une discordance.

Par chance, nous avons UN bon article. UN seul pour les sauver tous : la contusion. D’ailleurs, les 17 auteurs en parlent dans leur discussion et expliquent que les « contributeurs de cet article particulier devaient être plus experts (que ceux des 9 autres, rédigés par des pingouins sous opium) ».

Regardons donc le tableau de ce fabuleux article.

Similaire Non-similaire Ensemble Total
Concussion Concordant Discordant Concordant Discordant Concordant Discordant
 Reviewer 1 40 24 22 26 62 50 112
 Reviewer 2 26 8 21 3 47 11 58
 P value .888 .56 .839

Donc, je suis le nouveau reviewer 1, et sur mes 112 assertions relevées, 50 sont discordantes : 54% de concordance seulement…
Le nouveau reviewer 2, lui, retient une concordance de 81%.
Donc le (seul) « bon » article a une concordance moyenne de 67,5% quand le « mauvais » article sur l’hyperlipidémie en avait une à 90%.
C’est sûrement parce qu’il y avait des contributeurs experts sur la contusion…

...

En fait, s’il y a UN truc à tirer de cette étude, ce sont les proportions de concordance entre Wikipedia et la littérature : 76% pour le cancer du poumon, 91% pour le diabète sucré, 74% pour l’ostéoarthrite, 73% pour les maladies coronaires, 80% pour la BPCO, 89% pour l’hyperlipidémie, 64% pour la contusion, 78% pour l’hypertension, 61% pour la dépression, 87% pour les douleurs dorsales… soit 77% de « concordance » entre Wikipedia et la littérature. J’aimerais savoir quelle revue peut en dire autant : regardons nos livres de préparation aux ECN pour s’apercevoir de leur désuétude, leurs approximations… Je ne suis pas sûr qu’on sera à 77% !

Enfin, tout ça c’est joli, mais l’article raconte n’importe quoi, donc. Ce n’est pas 9 sur 10 erronés, mais 23% d’assertions non prouvées dans les articles. C’est UN PEU différent quand même…
Evidemment, il reste LA question quand on parle de statistiques : c’est bien joli ma démonstration sur mon blog à impact factor nul, mais pourtant les petits p sont significatifs au seuil de 5% donc c’est significatif…

Exact ! Reste à savoir ce qu’on a calculé…
Bon alors, encore une fois, je parle de trucs que je ne maîtrise pas vraiment. S’il y a des statisticiens dans la salle…
A mon avis :

  • les auteurs ont embauché le neveu du directeur de la revue pour faire les stats,
  • il a cherché sur Google « comparaison de proportions sur deux échantillons appariés »
  • il est tombé sur McNemar, ça lui a rappelé un séjour en Ecosse, il a checké sur Wikipedia (ô douce ironie du sort),
  • ça lui a semblé simple : (b – c)² / (b + c), il a même pris la formule compliquée avec correction maximale d’Edward et tout (je me suis galéré à retrouver comment ils ont calculé à partir de leurs résultats… vu qu’ils ne le précisent pas clairement dans la méthode… ils utilisent donc à mon avis : (b-c – 1)² / (b+c))
  • il a oublié de regarder à quoi correspondaient les lignes et colonnes du tableau de contingence
  • donc il a fait n’importe quoi en comparant EN VALEUR ABSOLUE (alors qu’il n’y a pas les mêmes nombres d’assertions ><) la plus grande discordance entre 2 reviewers et la plus faible concordance.

Ca se voit assez bien avec la contusion par exemple dans mon tableau ci-dessus… Il a utilisé les nombres 50 et 47 avec la formule de McNemar corrigée : (50-47-1)²/(50+47) = 0,041… Vous pouvez tester sur cette page avec un seul degré de liberté (table 2 x 2) : le p arrive à 0,8395 !

En trouvant comment ils s’y sont pris, je peux donc dire qu’ils ont fait gentiment de la merde. Bizarrement, ça n’apparait pas dans leur discussion en ces termes. Pour le reste, je ne m’attarderai pas à savoir si c’est de la maladresse, une vengeance contre le méchant Wikipedia qui expose sûrement des études négatives dans son article sur l’ostéopathie, ou un désir de faire le buzz…

Voili voilou. Ils recrutent au Time ? 😉

EDITION 4/6/2014 : Sur l’article d’hier sur Rue89, Pierre-Carl Langlais (@Dorialexander) trouve les mêmes résultats que moi : une article bidon avec 77% de bons résultats sur Wikipédia, et une hécatombe dans la presse internationale (Time) et française (Le Monde, Sciences & Avenir) qui ne sait visiblement interpréter une étude et se contente de gros titres… Je vous invite à y jeter un œil : ses graphiques et sa présentation sont bien plus clairs qu’ici 😉

Loading spinner