Si vous lisez rapidement un article, vous allez lire le titre, le résumé… et les tableaux et figures (ensuite éventuellement la dernière phrase d’introduction pour avoir l’objectif clairement en tête, puis la première phrase de discussion pour avoir les résultats principaux).
Les figures et tableaux doivent suffire pour « raconter l’histoire » toute entière, sans avoir à se référer au texte… et pourtant, il faut en utiliser le moins possible, et n’utiliser que ceux qui sont nécessaires !
Nous allons parler dans ce billet de la section résultats — que vous n’hésiterez pas à scinder en sous-section (caractéristiques ; résultats principaux ; résultats secondaires par exemple).
Quel niveau de précision faut-il avoir dans les chiffres ?
Il faut se détendre avec les décimales. Clairement, si vous avez étudié 103 personnes, et que 80 ont répondu non à une question, quelle information vous semble suffisante de précision :
environ 80 %
78 %
77,7 %
77,67 %
77,670 %
77,6699 %
Le premier est correct parce que c’est ça l’information à retenir… mais il y aurait beaucoup de « environ » dans la thèse, et l’arrondi à 5 % peut être discutable ! A choisir, il faut mieux utiliser le premier (0 décimale) ou le deuxième (1 décimale). Au-delà, le gain de précision est inutile et surcharge la lecture.
Non ! Vous ne devez pas avoir de redondance dans vos résultats (le minimum possible en tout cas). Il ne faut surtout pas faire un tableau récapitulatif PUIS une description de chaque variable où vous mettez les valeurs absolues, relatives et un graphique…
Le message est simple : peu de figures, mais que des figures pertinentes et utiles !
Les résultats doivent tenir sur 2-3 pages, et le principal est synthétisé dans votre tableau 1 pour une étude descriptive (caractéristiques de la population)… avec éventuellement un tableau 2-3 pour les études analytiques.
Oui, toutefois méfiez-vous d’avoir ce que vous voulez : est-ce que vous avez la dispersion (écart-type), est-ce que vous voulez des histogrammes pour des échelles de Likert (ou peut-être des boîtes à moustaches), etc. Si vous refaites d’autres graphiques ensuite, aurez-vous le même design tout au long de votre thèse ou est-ce qu’il y en aura depuis un questionnaire en ligne, d’autres sur Excel, d’autres sur R ? Gardez une homogénéité dans la thèse.
Et dans tous les cas, préférez un tableau 1 qui résume toutes les informations que vous cherchiez au moment de la rédaction de votre objectif et de votre méthode en quelques lignes. Ca sera le billet de demain ça !
Comment choisir entre figure et tableau ?
La figure va permettre un impact visuel pour un résultat particulier ; elle va montrer des tendances (« trends and patterns »), raconter une histoire courte…
Le tableau va permettre de donner des valeurs précises pour beaucoup de variables.
Si vous hésitez entre les deux : le tableau est une valeur sûre !
A propos des tableaux…
Le titre d’un tableau identifie le point spécifique : il faut utiliser les mêmes mots clés dans le titre, les colonnes et le texte… et être aussi bref que possible sans perdre en précision ! Par convention, le titre est au-dessus du tableau (et en-dessous de la figure).
Le format du tableau est simple : la plupart du temps, il y a 3 lignes horizontales (au-dessus et en-dessous de la première ligne, et une tout en bas sous les données). C’est un modèle classique, à privilégier dans la thèse. En général, il ne faut pas laisser des lignes partout (ça ne fait pas professionnel, ça surcharge le tableau…) ; dans un tableau un peu complexe, vous pouvez toutefois en mettre entre certaines parties si ça aide à la lecture. Et bien sûr, dans le cadre d’une publication, vérifiez bien sûr ce qui est demandé par l’éditeur ! Enfin, comme présenté dans le billet précédent, il faut bien tout aligner, utiliser une information par case…
Les colonnes ne doivent pas être multipliées, il faut se focaliser sur le point principal : caractéristiques – groupe 1 – groupe 2. Vous pouvez même, si vous faites des comparaisons, ne pas faire une colonne p-value et la remplacer par une astérisque explicitée en légende (ex : * p < 0,05, T-test ou test exact de Fisher, selon la situation)
Dans les lignes, vous pouvez rappeler : l’unité et le nombre de données recueillies (pour identifier les données manquantes). Par exemple : poids (kg) (N = 82) ; taille (cm) (N = 81). Evidemment, si vous avez recueilli le même nombre de données pour toutes les variables, il ne faut pas le mettre à chaque ligne : gardez à l’esprit qu’il faut épurer tout ce que vous pouvez…
La légende (footnote) d’une tableau utilise des symboles superscripts (variable selon le journal visé : *, ¶, etc.) ; c’est l’endroit où vous pourrez expliquer la signification statistique (p-value…), des détails de définitions et abréviations, etc. Notez que si vous utilisez un terme déjà abrégé dans le texte… il faut le réexpliciter dans le tableau, qui doit pouvoir se lire indépendamment !
linéaire (Y en fonction de X : montre la tendance au fil du temps, de la posologie, de l’âge…) ;
bargraphe (comparer les groupes à un temps t : mettre les n au sommet, préciser les groupes sous l’abscisse) ; il existe aussi avec des valeurs individuelles
nuage de points (montrer une corrélation linéaire – ou autre relation – entre deux variables, à travers des points individuels… attention à ne pas tracer une droite entre 3 points par contre, pour « montrer » une relation linéaire abusive) ;
histogrammes
boîtes à moustaches (très bien pour illustrer une médiane, l’intervalle interquartile…)
modèle (notamment en qualitatif > théorisation ancrée)
Le titre est en-dessous de la figure (et au-dessus du tableau, pour rappel !)
La légende comporte donc un titre bref (attention à ne pas le mettre AUSSI sur la figure…), les détails expérimentaux principaux, les définitions des symboles, l’explication des groupes (A, B, C, D…), les informations statistiques (tests, p-value…), les abréviations… Comme pour les tableaux, la figure doit pouvoir se lire seule !
Les graphiques doivent raconter une histoire visuelle rapide : rester simple… sinon il faut peut-être utiliser un tableau !
Quelques règles d’écriture…
Utilisez la voix active ici et réfléchissaient aux verbes utilisés pour éviter les seuls « être » et « avoir ».
Pour le choix du temps, comme d’habitude :
ça sera au passé pour vos résultats (« les femmes étaient plus âgées que les hommes »…)
… sauf pour ce qui est toujours vrai (« la figure 1 montre que » et non pas « a montré que »)
On ne répète pas dans un texte ce qu’il y a dans un tableau et une figure ; le texte l’introduit ou le substitue. Par exemple « les films d’action comportaient en moyenne plus de combats que les comédies romantiques (Tableau 1) ». Il n’est pas utile de dire :
« Le tableau 1 résume les caractéristiques » / « les caractéristiques sont résumées dans le tableau 1 » : gardez votre encre ;
« Les films d’action comportaient 22 minutes (écart-type : 6 minutes) de combat contre seulement 3 minutes (écart-type : 2 minutes) pour les comédies romantiques (p < 0,05) (Tableau 1). » : ces données sont déjà présentes dans le tableau.
Le texte de la section résultats doit résumer ce que les données montrent : il va pointer des relations simples, décrire les grandes tendances et citer/annoncer les figures et tableaux. Il apporte des informations complémentaires (par exemple une différence entre 2 pourcentages présentés dans un tableau), ou insiste sur queqlues nombres parmi les plus importants de votre travail.
N’oubliez pas de parler des résultats négatifs !
Si une différence est « significative », votre lecteur comprendra « statistiquement significatif au seuil retenu (5 % en général) ». Ne l’utilisez jamais dans le sens « ohlala, c’est pas mal quand même, hein »… De manière générale, évitez toute « discussion » dans vos résultats, qui doivent être dépourvus d’émotions. Le « seulement 3 minutes » proposé ci-dessus pour les combats dans les comédies romantiques aurait pu vous faire tiquer : ce seulement est un jugement de valeur et une interprétation qui n’a pas sa place dans les résultats.
Comme vous ne mettrez pas de discussion dans les résultats, gardez-vous d’y (re)mettre de la méthode : vous ne discutez pas comment ou pourquoi vous avez fait ça, mais ce que vous avez trouvé !
C’est un message clé que je répète, et qui me semble justifier un billet ici : il ne faut rien diffuser tant que la méthode n’est pas finie, les résultats et la discussion pré-écrits… Parce qu’en y réfléchissant méthodiquement, vous aurez des idées de ce que vous voulez (tel tableau, telle figure, limiter le biais de sélection, d’information…). C’est un peu moins vrai en qualitatif, mais tout de même, je vous incite à écrire un premier jet comme il vous vient, avant de l’affiner au fur et à mesure des réécritures.
Préparer le tableau
L’erreur communément faite est de partir du recueil de données et d’analyser chaque colonne sans savoir ce qu’on cherche… On peut y passer / perdre des heures.
La première étape consiste déjà à préparer le « Tableau 1 ». Le Tableau 1 est le tableau des caractéristiques, celui où on va donner plein d’informations sur la population étudiée (sexe, âge moyen ou médian…)
Plusieurs questions se posent et méritent réflexion avant même de commencer les statistiques :
faut-il mélanger les données quantitatives et qualitatives ? Sauf si vous avez de la matière pour faire 2 tableaux séparés, ça peut être le cas ;
faut-il utiliser des moyennes ou des médianes ? la médiane est plus pertinente pour les variables qui ne sont pas distribuées de façon normale, pour lesquelles les extrêmes vont avoir un poids très fort (par exemple « délai entre la naissance et la première prise de l’antibiotique X » : si sur 50 personnes, 40 ont pris l’antibiotique à 5 ans, et 10 en ont pris entre 50 ans, la moyenne sera de 14 ans mais la médiane restera à 5 ans, ce qui est plus logique…)
quelle dispersion mettre ? si vous utilisez la moyenne, il faut prendre l’écart-type ; si vous utilisez la médiane, il faut prendre les 1er et 3ème quartile.
Voici un exemple de tableau 1 (le contenu n’a aucune importance, c’est la mise en forme qui compte) :
Tableau 1 : Caractéristiques de la population
Caractéristiques
Valeur*
Sexe
Féminin
40 [80 ± 6 %]
Age
(années)
71 (11,3)
Traitement
Consommation moyenne d’hypnotiques (en années)
16,9 (13,9)
Consommation médiane d’hypnotiques (en années)
12 [10 – 20]
Consommation quotidienne (nombre de patients)
39 [78 ± 6 %]
Continueraient les hypnotiques déremboursés
45 [90 ± 4%]
Ont déjà entendu parler de la TCC
6 [12 ± 5 %]
Etiologie de la première prise d’hypnotique
Familiale
Décès d’un proche
12 [24 ± 6 %]
Événement familial
5 [10 ± 4 %]
Expérience similaire du conjoint
1 [2 ± 2%]
Santé
Problème de santé
12 [24 ± 6%]
Addiction à l’alcool
1 [2 ± 2 %]
Professionnelle
Stress au travail
6 [12 ± 5 %]
Arrêt d’activité professionnelle
4 [8 ± 4 %]
Horaire posté
2 [4 ± 3 %]
Environnementale
Nuisances sonores
1 [2 ± 2%]
Ne sait plus
6 [12 ± 5 %]
Sommeil sous hypnotique
Heure de prise de l’hypnotique (N = 48)**
21h39 (1h16)
Heure de lever (N = 48)**
6h42 (1h17)
Latence moyenne d’endormissement (en minutes)
53 (50,7)
Nombre moyen de réveils nocturnes
1,32 (1,33)
Durée de sommeil
8h03 (1h38)
Efficacité au long cours
Estiment les hypnotiques encore efficaces
Au bout de 6 semaines
44 [88 ± 5 %]
Au bout de 6 mois
40 [80 ± 6 %]
*Les résultats quantitatifs sont exprimés en nombre de personnes sur un échantillon de 50 personnes [% ± écart-type] ; les résultats quantitatifs sont exprimés en moyenne (écart-type) sauf mention contraire (médiane [1er quartile – 3ème quartile]
** Résultats sur 48 personnes (2 personnes avaient un coucher matinal dû à leur travail posté)
Ici, tous les traits sont apparents, parce que c’est un billet de blog… En pratique, les seuls traits apparents sont les 2 du haut et celui en bas.
Par contre, pour construire le tableau, il faut bien mettre chaque élément dans une case séparée, et ensuite « regrouper » (merge) les cases pour obtenir le design souhaité. Ne mettez jamais tout dans une seule case, en jouant avec des espaces ou des sauts de ligne, sous peine de grand désarroi de votre directeur de thèse. Par exemple, si vous faites ça, ça ne va pas :
Caractéristiques
Valeur
Intervalle de confiance à 95 %
Année d’installation (N = 92)
Avant 1981
3 (3,3 %)
[0 ; 6,9 %]
De 1 981 à 1 987
13 (14,1 %)
[7,0 ; 21,2 %]
De 1 988 à 1 994
23 (25,0 %)
[16,2 ; 33,8 %]
De 1 995 à 2 001
14 (15,2 %)
[7,9 ; 22,6 %]
De 2 002 à 2 008
7 (7,6 %)
[2,2 ; 13,0 %]
2 009 et plus
32 (34,8 %)
[25,1 ; 44,5 %]
SEXE : Homme n =59 Femme n=33 Total 92 100,0% Age : <30ans n=2 30ans-50an n=44 >50ans n=46 Total n=92 100,0%
64,1% 35,9% 100,0% 2,2% 47,8% 50,0% 100,0%
54,3% < f < 73,9% 26,1% < f < 45,7% 0,0% < f < 5,2% 37,6% < f < 58,0% 39,8% < f < 60,2%
Il y a des recommandations de mise en forme des tableaux également sur Equator Network. Je suis évidemment très léger ici, en mettant des ± par exemple, qui sont déconseillés dans les lignes directrices SAMPL citées hier. Le message principal c’est : chaque case doit contenir une seule information. Si vous faites ça, votre directeur et votre jury sera déjà sensible à la qualité de votre présentation.
Il existe plusieurs logiciels possibles, déjà cités en section Méthodes.
En quantitatif, dans tous les cas (Excel, Jamovi, R, etc.), il y a plusieurs étapes :
saisie de données
vérification des données
analyses univariées (descriptives), qui permettent aussi de vérifier les données et de créer le Tableau 1
éventuellement, analyses bivariées
éventuellement, analyses multivariées
Par exemple, avec Excel, vous pourrez :
filtrer les données du tableau ;
créer de nouvelles variables (à partir de formules, notamment conditionnelles),
Par exemple les IMC, en supposant qu’en colonne A il y a le poids en kg, B la taille en m et C l’IMC : il suffit d’écrire dans la cellule C2 l’expression suivante : =A2/B2*B2. Ensuite, il suffit de cliquer sur le coin en bas à droite de la cellule pour la dupliquer, en incrémentant (augmentant) automatiquement les numéros de cellules et lignes (ça donnera donc C3=A3/B3*B3, etc.)
Le signe $ permet de figer la ligne et/ou colonne lors d’une incrémentation… Par exemple, si on veut calculer C3=A2/B3*B3, puis C4=A2/B4*B4, il faut pouvoir figer A2. Pour cela, il suffit d’écrire dès la première formule : $A$2 pour figer à la fois la colonne (A) et la ligne (2). Pour en savoir plus, il y a des informations simples ici ou sur des milliers de tutoriels en ligne sur Excel !
créer des tableaux croisés dynamiques (Pivot Table, utile pour les tableaux de contingence…) :
Avant de préparer votre questionnaire, je vous invite à préparer les résultats que vous voulez recueillir avec 4-5 patients fictifs, pour anticiper les problèmes.
Quelques remarques dès ce stade :
Il faut avoir des conventions différentes pour « rien » (0 par exemple) – « ne sait pas » – « donnée manquante » (classiquement #N/A ou une case vide).
n’écrasez pas de données : si vous souhaitez recoder une variable, créez une nouvelle colonne pour ça.
Quand on divise arbitrairement, il est plus classique de diviser en quartile, soit en 4 catégories.
n’hésitez pas à présenter un premier extrait de votre tableau à votre directeur de thèse pour qu’il vous donne quelques indications ; il peut aussi être intéressant de commencer à faire des essais d’analyse sur les 10 premiers patients « pour s’amuser » (sans perdre trop de temps), afin de détecter les éventuels problèmes ;
pour les analyses quantitatives (0, 1, 2…), vous pourrez utiliser Analysis Toolpack donc ; pour les analyses qualitatives (bleu, jaune, vert…), ce sont les tableaux croisés dynamiques qui vous seront le plus utile
Dans un premier temps, le plus raisonnable sera de faire des analyses purement descriptives (« univariées ») et d’en faire un tableau résumé bien présenté. C’est votre premier objectif et c’est de loin ce qui sera déjà le plus informatif dans votre travail : de qui parlons-nous, qu’ont-ils fait, etc. S’il y a une différence entre 2 groupes, ça se verra probablement dans ce tableau ! S’il y a besoin de tests statistiques très sophistiqués pour montrer un effet… c’est peut-être aussi qu’il n’est pas cliniquement très significatif.
C’est vraiment une démarche importante, parce qu’on a tous tendance à vouloir des résultats « statistiquement significatifs » et des petits p, mais ça n’est pas le plus important : le descriptif est bien plus informatif quand il est bien fait.
Il faut notamment se rappeler que quand on multiplie les tests statistiques « à 5 % de chance de se tromper en affirmant qu’il existe une différence », au bout de 10 tests, on a 40 % d’avoir fait au moins une erreur (d’où l’intérêt de ne pas vouloir tout comparer). On dit parfois que le nombre de tests limite est égal à « nombre de patients inclus / 10 » (ça n’est pas une règle absolue).
Maintenant que vous avez une vision des résultats que vous voulez avec un Tableau 1 préparé, une idée des analyses que vous ferez… vous savez précisément ce que vous voulez recueillir !
Viens alors le temps du questionnaire (si c’est votre mode de recueil, comme souvent).
Vous pouvez commencer par un paragraphe type :
Les données collectées feront l’objet de traitement sous la responsabilité de M. Math Thèse. Conformément au Règlement Général sur la Protection des Données (UE) 2016/679 du 27 avril 2016 et à la loi Informatique et Libertés modifiée, vous disposez des droits suivants concernant vos données personnelles : accès, rectification, effacement, limitation, opposition, portabilité. Pour exercer ces droits, pour toute question ou pour en savoir plus sur la gestion de vos données, vous pouvez nous contacter à <adresse e-mail>.
Date de réponse (JJ/MM/AAAA) |__|__|__|__|__|__|__|__| [date]
[A droite, il y a l’intitulé repris dans la table de données présenté en-dessous. C’est facultatif, juste pour vous retrouver plus facilement. A noter qu’il ne faut ni espace (remplacer par un underscore « _ »), ni accent, ni nom à rallonge pour épargner les statisticiens…]
Quelle est votre date de naissance ? (JJ/MM/AAAA) |__|__|__|__|__|__|__|__| [naiss]
[Préférez les « vraies » données autant que possible si c’est justifié et sécurisé : date de naissance > âge > année de naissance > tranches d’âge. Vous pourrez vous-même reclasser après en 41-50 ans, 51-60 ans, 61-70 ans si ça vous chante… Mais il ne faut pas perdre de l’information au recueil ! Ici, on peut aussi se contenter de l’âge ou de l’année de naissance, s’il n’est pas justifié de recueillir le mois de naissance, le jour… Toute variable collectée doit être justifiée et proportionnée.]
Quel est votre sexe ? [] Homme [] Femme [] Autre (précisez si vous le souhaitez : _________) [sexe]
Quelle est votre situation ? [] Chômage [] Retraité [] Actif
Quelle est votre profession ? __________________ [prof]
[Notez que vous pouvez utiliser les classes de l’Insee sur la situation socioprofessionnelle ; en demandant en ouvert (qualitatif), vous reclasserez ensuite vous-même… Là encore, le recueil doit pouvoir être justifié et proportionné]
Combien de cigarettes fumez-vous par jour actuellement ? ______________ [cig]
[Même remarque que l’âge : c’est plus précis comme ça, plutôt que limiter à « 0-5 / 6-10 / 11-15 / 16-20 / 21+ » comme on voit parfois]
Aimeriez-vous arrêter de fumer ? [arret]
Pas du tout d’accord Complètement d’accord 1 2 3 4
[Il s’agit d’une échelle de Likert à 4 propositions, soit un nombre pair – incitant les répondants à se positionner plutôt d’un côté ou l’autre. Vous pouvez aussi faire 5 propositions pour un choix neutre possible]
Merci de votre participation. Souhaitez-vous recevoir les résultats de l’étude ? [result] [] Oui [] Non
Une fois le questionnaire prêt, pour que ça soit clair, vous pouvez créer la « Table des variables et modalité » :
nom_var
Type
modalité
Signification
id
Id
date
date
naiss
date
sexe
binaire
1
Homme
2
Femme
situ_prof
factor
1
Chômage
2
Retraité
3
Actif
prof
character
cig
numerical
Arret
factor
1
Pas du tout d’accord
2
Pas d’accord
3
D’accord
4
Complètement d’accord
result
binaire
0
Non
1
Oui
Il y a plusieurs types de variables :
quantitatives (integer si nombre entier, numerical s’il y a des décimales),
qualitative (factor, binaire ou – et en toutes lettres – character). En pratique, le character est factorisé ensuite en quelques catégories, pour l’analyse.
Dans un autre onglet, vous pouvez intégrer une table de données « test » en répondant avec de vraies personnes ou non
id
date
Naiss
sexe
situ_prof
prof
cig
arret
result
1
24/02/2016
12/12/1986
1
3
Médecin généraliste
0
NA
1
2
25/02/2016
22/03/1987
2
3
Eleveuse de licornes freelance
0
NA
0
3
26/02/2016
03/08/1992
1
.
Facteur
10
2
.
A noter que « NA » ou « . » veulent dire donnée manquante. Attention à ne pas « imputer » n’importe comment : par exemple, « situ_prof » de l’id 3 est sûrement actif (3) vu qu’il a répondu « facteur » dans la profession… Toutefois, le questionnaire ne précise pas si c’est la situation actuelle… le patient pourrait être au chômage (1) et avoir noté « facteur » pour sa précédente profession ! Vous ne pouvez donc rien modifier vous-même pour ça. Par contre, « arret » = NA si « cig = 0 », c’est normal ; la variable « arret » ne s’exploite que dans le sous-groupe où « cig > 0 » (on ne peut pas vouloir arrêter de fumer si on ne fume pas).
Attention aux données que vous choisissez : par exemple, « rural », « urbain », « semi-urbain » ça pose toujours des questions de définition (il y a des travaux sur ce sujet de l’interprétation de ces données)
Contrairement à ce qu’on peut penser instinctivement, il faut mieux préparer la table des données avant la diffusion du questionnaire (et pas au moment de l’informatisation des données papiers).
Essayez de remplir vous-même un questionnaire (en papier ou informatique) et de le transcrire sur votre tableur pour dépister les problèmes. Ce « bêta-test » est indispensable, idéalement avec quelques amis (4-5 suffisent).
Après la diffusion, remplissez votre tableau avec les premières fiches, également pour éviter de découvrir un problème trop tardivement.
Les questionnaires en ligne (type LimeSurvey…) ont plusieurs avantages :
enregistrement automatisé de la date et d’un identifiant,
différenciation des questions à réponse unique et à réponses multiples,
possibilité de faire des questions à réponses obligatoires (diminution des données manquantes),
recueil directement des données dans un tableur (gain de temps, pas d’erreur de recopiage du papier au tableur),
quelques analyses descriptives réalisées directement,
gratuité (pas de frais postaux contrairement au questionnaire papier),
… mais aussi quelques inconvénients :
biais de sélection (si vous interrogez des médecins généralistes, vous vous limitez à ceux qui sont informatisés, ont une adresse mail) :
il faut surtout voir s’il s’agit d’un biais différentiel ou non — pour faire simple, si votre sujet concerne la technique de vaccination d’un médecin, il n’y a pas de raison que ça diffère en fonction de son adresse mail (non différentiel) ; par contre, si vous vous intéressez au taux de feuilles de soins papier, le fait d’exclure par votre recrutement les médecins non informatisés risque d’induire un biais différentiel.
risque de perte de contrôle : à combien de personnes le questionnaire a été envoyé ?
En résumé :
l’envoi postal :
le + : ça incite les gens à répondre un peu plus ; ça permet de connaître le taux de réponses avec certitude (sur le nombre d’envoi)
le – : c’est plus cher puisqu’il faut le timbre d’envoi et le timbre de retour, avec le risque que les gens n’y répondent pas en plus…)
l’envoi par mail :
le + : c’est gratuit, du coup on peut sélectionner plus de gens (mais il faut les appeler avant pour avoir une adresse mail) ; par ailleurs, le tableur est fait automatiquement.
le – : ça incite moins à y répondre… et ça n’est pas toujours si simple de récupérer des adresses mails (plus simple d’avoir des adresses postales).
A mon sens, la version mail est la plus « rentable » :
le temps de mettre sur un questionnaire en ligne n’est pas très long ; faites bien attention à mettre des questions à réponses multiples là où il faut, etc.
le temps d’imprimer, recopier l’adresse sur l’enveloppe et votre adresse sur l’enveloppe de retour = le temps passé à appeler / récupérer l’adresse mail
le temps passé à transférer les fiches papier sur un tableur = n’existe pas si fait directement sur un formulaire informatique !
les heures gagnées à ne pas transférer ces fiches peuvent être employées à appeler d’autres personnes… (contrairement au format papier où vous serez limités, ne serait-ce que financièrement, à près de 2€/envoi…)
enfin, par informatique, vous éliminez directement les non-intéressés, les médecins retraités/en vacances, et vous gagnez les temps postaux d’envoi/réception.
Dans tous les cas, il faut comprendre le principe d’un questionnaire au format papier afin de réaliser un questionnaire informatique pertinent.
Mais dans ce public cible, l’idéal est d’avoir un échantillon aléatoire. Si le caractère local ou régional n’a pas d’intérêt, il est préférable d’opter pour un échantillon national qui sera plus facile à publier ou diffuser.
Vous pouvez utiliser le répertoire RPPS par exemple, ou la liste officielle des codes postaux si c’est pertinent. Pour faire une requête aléatoire sur Excel, vous pouvez utiliser : =RANDBETWEEN(0 ;100 000) ou =ALEA.ENTRE.BORNES(0 ;100000). Une fois la colonne triée, pensez à faire copier puis « coller des valeurs » (option de « collage spécial »), pour éviter une actualisation à chaque ouverture du fichier !
Si vous appelez pour récupérer des adresses, il faut bien noter :
le nombre de médecins appelés,
le nombre de médecins donnant l’adresse mail,
le nombre de médecins répondant.
En moyenne, vous pouvez compter 500 coups de fils pour récupérer 100 adresses mails et 50 réponses… c’est évidemment variable selon votre présentation, votre talent de commercial, l’intérêt de votre sujet, etc.
Si vous diffusez par la faculté à tous les internes, je vous conseille de respecter ces 4 consignes :
Faire un mail court (les internes et MSU en reçoivent beaucoup, il faut un mail lisible)
Annoncer le nombre de questions (faible idéalement !) et pas de minutes (… à cause des précédents qui ont dit 5 minutes alors qu’on y a passé 20 minutes !)
Annoncer une récompense : une fiche de synthèse inédite, etc.
… et avoir un sujet qui peut intéresser le public interrogé !
(Bon, il est 21h57, je vais essayer de faire court…)
La section « matériels et méthodes » est le mode d’emploi ou la recette pour votre travail : grâce à elle, le lecteur saura ce que vous avez fait et pourra reproduire le travail à l’identique (répliquer) dans la même population ou dans une autre.
Il faut être précis sur les différents éléments :
type d’étude (study design / protocole expérimental)
lieu, date de l’étude
population cible – population incluse / population exclue
méthodologie de recrutement
variables étudiées / mesures et recodage de variables
nombre de sujets nécessaires (ou saturation des données en qualitatif)
aspects réglementaires et éthiques
méthodes d’analyses utilisées
logiciel utilisé
Vous devez répondre aux questions « qui » a fait « quoi », « quand », « où », « comment », « pourquoi » (Who / What / When / Where / How / Why).
Il faut donc être complet… C’est typiquement une section que vous pouvez écrire volontiers à la fois passive (et au passé) car « le quoi importe plus que le qui »… même s’il n’est pas interdit de jongler avec de la voix active pour varier (avec le risque toutefois de commencer chaque phrase par « nous avons… »). Dans cette section, vous pouvez être un peu plus ennuyeux qu’en introduction / discussion ; néanmoins, vous pouvez réutiliser la technique évoquée plus haut de « relire les verbes » pour trouver des verbes forts et rendre l’écriture un peu plus dynamique.
Dans cette section, plus que les autres, vous allez aussi utiliser du jargon statistique. Néanmoins, tout ça n’empêche pas de rendre la vie facile au lecteur : vous pouvez faire des coupures avec de petites sections titrées (sujets, protocole expérimental…), citer une référence comme méthode usuelle plutôt que tout détailler (comme décrit précédemment et référence), puis proposer un diagramme de flux dans les résultats pour présenter les inclus / exclus, etc. Le but n’est pas d’être incompréhensible !
La thèse n’a pas forcément à être écrite de façon linéaire : à mon sens, l’écriture itérative est plus rapide et efficace pour ce type de travail. La (pré-)rédaction des résultats permettra d’améliorer la méthode, les variables à rechercher pour obtenir des résultats dans la forme voulue (… pour le fond des résultats, ça, ça sera à découvrir ensuite !). La pré-rédaction de la discussion permettra aussi d’améliorer la méthode : elle servira à identifier les biais à venir, et donc les moyens de les prévenir dans la discussion.
Enfin, une autre façon d’améliorer votre thèse est d’utiliser une grille d’évaluation (ou ligne directrice) pour votre propre travail. Le site Equator Network en comporte plus de 600, dont les principales ont fait l’objet d’une traduction en français par Michel Gedda, rédacteur-en-chef de Kinésithérapie, la revue :
Recherche qualitative (entretien individuel et focus group) : COREQ (disponible en français) ou SRQR
Synthèse de recherche qualitative : ENTREQ (disponible en français)
Etude observationnelle (transversale, cas-témoin, cohorte) : STROBE (disponible en français)
Etude diagnostique ou pronostique : STARD (disponible en français)
Revue systématique (et méta analyse) : PRISMA (disponible en français)
Sur les dernières années, la loi a pas mal évolué avec l’apparition de la loi Jardé votée en 2012 (le même Jardé qui proposait de faire n’importe quoi avec l’hydroxychloroquine en 2020…), le RGPD en mai 2018…
Vous êtes tenu de respecter le règlement général de protection des données (RGPD)
Il y a 2 grandes questions à se poser :
De quel type sont les données que je traite ? (données de santé ou données concernant les internes ? Recherche impliquant la personne humaine (RIPH) ou non ? etc.)
Est-ce qu’il existe une méthodologie de référence pour la gestion des données personnelles ?
RIPH 1 (recherche impliquant la personne humaine) : recherches interventionnelles habituellement non justifiées, pouvant comporter un risque ou une contrainte majeurs (essais cliniques sur les médicaments ou dispositifs médicaux notamment) ;
RIPH 2 : recherches interventionnelles avec des risques ou contraintes mineuresselon l’arrêté du ministre chargé de la santé (prélèvement sanguin, IRM, questionnaire entraînant des modifications mineures des soins, etc.)
RIPH 3 : recherches non interventionnelles, sans risque ni contrainte, correspondant aux soins courants.
RNIPH (recherche n’impliquant pas la personne humaine) : recherches nécessitant une collecte de données supplémentaires (ex : évaluation des pratiques des médecins), réutilisation de données de santé (études rétrospectives sur des données existants : dossiers médicaux, entrepôt de données, système national des données de santé SNDS, etc.)
Concrètement, vous allez donc faire des RIPH 2 / 3 et RNIPH. Les revues de littérature ne sont pas considérées dans ces cadres.
Qui contacter ensuite ?
Ensuite, la bonne personne à contacter est le délégué à la protection des données (DPD ou DPO) de l’université ; à Lille, les informations sont disponibles ici. L’algorithme est le suivant :
Si vous ne traitez pas de données de santé :
comité d’éthique = dossier « comité d’éthique pour la recherche » (CER) local
déclaration informatique et libertés = registre « délégué à la protection des données » (DPO) local
Si vous traitez des données de santé RNIPHavec une MR :
comité d’éthique = CER local
déclaration informatique et libertés = registre DPO
Si vous traitez des données de santé RNIPH sans MR (rare) :
comité d’éthique = dossier Comité éthique et scientifique pour les recherches, les études et les évaluations dans le domaine de la santé (CESREES)
déclaration informatique et libertés = dossier CNIL
Si vous traitez des données de santé RIPH :
comité d’éthique = dossier comité de protection des personnes (CPP)
déclaration informatique et libertés = registre DPO (si une MR s’applique) ou autorisation CNIL (si pas de MR).
Ca vous semble complexe ? C’est normal… et c’est le DPO qui va vous guider. A Lille, si vous utilisez un questionnaire sur LimeSurvey sur le site de l’université, vous devez remplir une demande à cette page qui sera consultée par le DPO. Pour quelque chose de plus complexe, vous devrez potentiellement remplir un protocole (attention à prévoir un délai de 3 mois déjà pour l’accord).
Comité d’éthique : comment faire ?
Là encore, c’est le DPO qui va vous guider. C’est votre référent sur ces questions.
Comme dit juste au-dessus, tous les projets de recherche impliquant la personne humaine (RIPH) ne peuvent être mis en œuvre qu’après un avis favorable (avis éthique) d’un comité de protection des personnes (CPP) (article L. 1121-4 du CSP).
Le site pour faire les déclarations est SIRIPH (https://siriph.sante.gouv.fr/). Le projet sera attribué de façon aléatoire à l’un des 39 comités de protection des personnes (CPP) répartis sur les 7 inter-régions.
Déclaration informatique et libertés : comment faire ?
Ce sera l’information clé de ce billet : contactez votre DPO ! (Il existe souvent des pages sur le sujet sur le site de votre université, ou son ENT : par exemple ici à Lille).
Concrètement, une déclaration est obligatoire pour tout fichier informatique concernant des personnes (on ne peut pas faire des listes qui traînent n’importe comment sur internet… cette loi date d’avant Facebook). Le message clé c’est que les patients ne doivent pas être identifiables dans des données qui traînent n’importe où pendant 50 ans.
Vous allez probablement collecter des données de santé. Il convient de lui déclarer votre fichier, si vous appliquez une « méthodologie de référence » (MR) (liste et détail ici) :
Pour les RIPH, vous pouvez utiliser les méthodologies de références (MR) 001 à 003 ;
Pour les RNIPH, vous pouvez utiliser les MR004 à MR008
Si ce n’est pas le cas, il faut déclarer à la Commission Nationale Informatique et Libertés (CNIL). Il n’est pas utile de faire la déclaration simplifiée à la CNIL si vous l’avez faite auprès de votre DPO (vous pouvez si vous souhaitez avoir un numéro et un PDF à mettre dans votre thèse ou pour une future publication).
Droits d’auteurs : à propos des images dans la thèse
Le message le plus simple et clair est : ne mettez rien qui ne vous appartienne pas.
Vous trouvez qu’un graphique écrit par Tartampion et al., publié dans Nature en 2024 serait une super illustration didactique en introduction : vous n’avez pas le droit de l’utiliser (d’autant que votre thèse est un document public, publié sur internet, accessible « pour toujours » — jusqu’à perte définitive des infrastructures énergétiques et numériques, suite à une guerre nucléaire ou autre évènement).
Vous trouvez qu’une image au hasard sur Google Images serait parfaite pour illustrer dans votre présentation : c’est aussi interdit (mais soyons honnête, beaucoup plus toléré vu la diffusion à public réduit). Dans votre présentation, vous avez le droit d’utiliser des images libres de droit (domaine public, licence CC-0, licence WTFPL, etc.) ou des images qui donnent un droit de partage tant que vous citez l’auteur (licences Creative Commons CC BY, etc.). Vous avez aussi le droit dans la thèse, mais c’est beaucoup moins pertinent.
Enfin, les images reconstituées par l’intelligence artificielle (MidJourney, etc.) sont aujourd’hui considérées libres de droit, mais c’est très très débattu : elles s’inspirent d’oeuvres d’auteurs qui se sont fait aspirer leur travail pour entraîner l’IA sans réel consentement. Je vous déconseille ce recours dans votre travail de thèse.
La revue de littérature chercher à synthétiser les connaissances sur une question donnée. Là encore, il est préférable pour vous de faire une revue de littérature sur « le rôle d’Helicobacter pylori dans la pathogenèse de la maladie d’Alzheimer » plutôt que « la maladie d’Alzheimer » ou « Helicobacter pylori ».
Nous allons garder le même plan que pour les études qualitatives et les études quantitatives des deux précédents billets : choisir un type d’étude (selon votre objectif) – puis recueillir des données – puis les analyser.
Choisir le type d’étude
Il existe plusieurs types de revue de littérature :
Revue narrative de la littérature (narrative review ou literature review) : vous ne cherchez pas l’exhaustivité ; c’est une méthode intégrative (et non agrégative) où vous organiserez les études en catégories logiques, avant de les décrire et les résumer ;
Revue systématique de la littérature (systematic review) : c’est la « revue de littérature » classique qui répond à une question précise, en cherchant l’exhaustivité dans le recueil des études puis des données, et en évaluant le risque de biais des études (puis de la revue) ;
Revue parapluie (umbrella review) : c’est une revue systématique… de revues systématiques !
Revue rapide de la littérature (rapid review) : c’est une revue systématique… mais en omettant des méthodes spécifiques, pour gagner du temps (notamment pour répondre rapidement, par exemple aux débuts de pandémie COVID-19)
Revue de la portée / de la délimitation de l’étendue (scoping review) : c’est comme une revue systématique… mais la question de recherche et le phénomène ne sont ni très précis, ni spécifiques. On l’utilise dans un domaine où la recherche est émerge (par exemple aux débuts des recherches sur le COVID Long).
Méta-analyse : c’est une méthode statistique qui permet de résumer les résultats de plusieurs études en des estimations chiffrées (car le Petit Prince avait raison).
etc.
Les grandes personnes aiment les chiffres. Quand vous leur parlez d’un nouvel ami, elles ne vous questionnent jamais sur l’essentiel. Elles ne vous disent jamais : quel est le son de sa voix ? Quels sont les jeux qu’il préfère ? Est-ce qu’il collectionne les papillons ? Elles vous demandent : Quel âge a-t-il ? Combien a-t-il de frères ? Combien pèse-t-il ? Combien gagne son père ? Alors seulement elles croient le connaître. — Antoine de Saint-Exupéry, Le Petit Prince.
En qualitatif, il existe également des méthodes de synthèse visant à créer un consensus : on a déjà parlé brièvement des groupes nominaux et de la méthode Delphi… Il en existe d’autres, uniquement sur la littérature :
revue narrative qualitative : idem à la revue narrative quantitative ;
méta-synthèse qualitative et méta-ethnographie : similaire à une revue systématique, sur des études qualitatives, afin de synthétiser (et générer) de nouvelles connaissances ;
revues critiques, revues réalistes : évaluer ou expliquer les phénomènes ;
etc.
Recueillir des données : modalités de recueil et modalités d’échantillonnage
Nous nous attarderons ici sur la revue systématique de littérature.
Elle répond à des étapes claires, précises, rigoureuses et transparentes (pour être reproductible), notamment détaillées par la revue Cochrane :
définir la question de recherche (avec le cadre PICO)
rédiger un protocole avec les critères d’inclusion et d’exclusion des études
choix des bases de données à interroger et méthodes d’analyses prévues
création de l’équation de recherche
recherche exhaustive dans les bases de données choisies
sélection des études en double aveugle
analyse des études avec leurs résultats et leurs biais (selon la grille Cochrane par exemple)
synthèse des résultats : qualitative ou parfois quantitative (méta-analyse)
évaluation de la qualité des preuves (GRADE)
Insistons ici sur l’importance de tout noter dès le départ : votre diagramme de flux listera les études incluses, exclues, le stade et motif d’exclusion (doublons, hors sujet à la lecture du titre car sur l’animal / sur une autre population etc., exclus après lecture du résumé, exclus après lecture de l’article complet).
Quand s’arrêter ?
Dans une revue systématique de littérature, on vise l’exhaustivité sur une période choisie.
Cela soulève surtout la question du temps (si on part de 15 000 études, c’est… compliqué pour une thèse de médecine). Il convient donc de prévoir une question (et donc une équation) de recherche réaliste, visant un problème précis, éventuellement dans un sous-groupe…
Logiciels d’analyse
Il existe plusieurs outils et logiciels d’analyse pour la revue systématique de littérature, tels que Covidence… payant à 289$/an par étudiant. Voici des alternatives gratuites :
Il y a aussi Systematic Review Toolbox qui permet de trouver des outils selon le type de votre revue, et le stade (protocole, sélection, analyse…)
Analyse des données
Le travail va se baser en 3 temps : transcrire – décrire (coder) – analyser(organiser)
Transcrire
Vous allez synthétiser les données recueillies dans des tableaux prévus à cet effet (notamment ceux de la grille PRISMA – nous reparlerons dans 2 jours des grilles, sujet que j’ai pour l’instant choisi de garder de côté pour essayer d’avoir des billets assez courts et didactiques).
La sélection des études en double aveugle permet d’améliorer la qualité de votre sélection et donc de votre revue.
Décrire
Vous allez reporter des éléments tels que :
le nom de l’étude (par exemple Auteur. Revue (Année) [réf]),
le type d’étude,
les années,
le public,
le test choisi,
les résultats principaux
Analyser
L’analyse peut être textuelle et/ou faire appel à des techniques de méta-analyse :
identifier les thématiques principales (sections de votre chapitre résultats)
repérer les convergences et divergences (qui seront discutées : méthodologies différentes, populations différentes, biais, etc.)
synthétiser avec des tableaux (et éventuellement des graphiques ou diagrammes – forest-plot pour une méta-analyse notamment).
Une attention particulière est portée aux biais dans les revues de littérature et méta-analyse :
biais des études sélectionnées : sont-elles de qualité ?
biais de la littérature : y’a-t-il des biais de publication ? (recours à un funnel plot)
biais de la revue elle-même : biais de sélection, etc.
Après avoir balayé les principales méthodes utilisées en thèse de médecine, nous allons parler de réglementation, et entrer un peu plus dans le détail en fournissant des outils utiles pour préparer l’étude… avant d’attaquer les résultats.