C’est un message clé que je répète, et qui me semble justifier un billet ici : il ne faut rien diffuser tant que la méthode n’est pas finie, les résultats et la discussion pré-écrits… Parce qu’en y réfléchissant méthodiquement, vous aurez des idées de ce que vous voulez (tel tableau, telle figure, limiter le biais de sélection, d’information…). C’est un peu moins vrai en qualitatif, mais tout de même, je vous incite à écrire un premier jet comme il vous vient, avant de l’affiner au fur et à mesure des réécritures.
Préparer le tableau
L’erreur communément faite est de partir du recueil de données et d’analyser chaque colonne sans savoir ce qu’on cherche… On peut y passer / perdre des heures.
La première étape consiste déjà à préparer le « Tableau 1 ». Le Tableau 1 est le tableau des caractéristiques, celui où on va donner plein d’informations sur la population étudiée (sexe, âge moyen ou médian…)
Plusieurs questions se posent et méritent réflexion avant même de commencer les statistiques :
- faut-il mélanger les données quantitatives et qualitatives ? Sauf si vous avez de la matière pour faire 2 tableaux séparés, ça peut être le cas ;
- faut-il utiliser des moyennes ou des médianes ? la médiane est plus pertinente pour les variables qui ne sont pas distribuées de façon normale, pour lesquelles les extrêmes vont avoir un poids très fort (par exemple « délai entre la naissance et la première prise de l’antibiotique X » : si sur 50 personnes, 40 ont pris l’antibiotique à 5 ans, et 10 en ont pris entre 50 ans, la moyenne sera de 14 ans mais la médiane restera à 5 ans, ce qui est plus logique…)
- quelle dispersion mettre ? si vous utilisez la moyenne, il faut prendre l’écart-type ; si vous utilisez la médiane, il faut prendre les 1er et 3ème quartile.
Voici un exemple de tableau 1 (le contenu n’a aucune importance, c’est la mise en forme qui compte) :
Tableau 1 : Caractéristiques de la population
Caractéristiques | Valeur* | |||
Sexe | Féminin | 40 [80 ± 6 %] | ||
Age | (années) | 71 (11,3) | ||
Traitement | Consommation moyenne d’hypnotiques (en années) | 16,9 (13,9) | ||
Consommation médiane d’hypnotiques (en années) | 12 [10 – 20] | |||
Consommation quotidienne (nombre de patients) | 39 [78 ± 6 %] | |||
Continueraient les hypnotiques déremboursés | 45 [90 ± 4%] | |||
Ont déjà entendu parler de la TCC | 6 [12 ± 5 %] | |||
Etiologie de la première prise d’hypnotique | Familiale | Décès d’un proche | 12 [24 ± 6 %] | |
Événement familial | 5 [10 ± 4 %] | |||
Expérience similaire du conjoint | 1 [2 ± 2%] | |||
Santé | Problème de santé | 12 [24 ± 6%] | ||
Addiction à l’alcool | 1 [2 ± 2 %] | |||
Professionnelle | Stress au travail | 6 [12 ± 5 %] | ||
Arrêt d’activité professionnelle | 4 [8 ± 4 %] | |||
Horaire posté | 2 [4 ± 3 %] | |||
Environnementale | Nuisances sonores | 1 [2 ± 2%] | ||
Ne sait plus | 6 [12 ± 5 %] | |||
Sommeil sous hypnotique | Heure de prise de l’hypnotique (N = 48)** | 21h39 (1h16) | ||
Heure de lever (N = 48)** | 6h42 (1h17) | |||
Latence moyenne d’endormissement (en minutes) | 53 (50,7) | |||
Nombre moyen de réveils nocturnes | 1,32 (1,33) | |||
Durée de sommeil | 8h03 (1h38) | |||
Efficacité au long cours | Estiment les hypnotiques encore efficaces | Au bout de 6 semaines | 44 [88 ± 5 %] | |
Au bout de 6 mois | 40 [80 ± 6 %] |
*Les résultats quantitatifs sont exprimés en nombre de personnes sur un échantillon de 50 personnes [% ± écart-type] ; les résultats quantitatifs sont exprimés en moyenne (écart-type) sauf mention contraire (médiane [1er quartile – 3ème quartile]
** Résultats sur 48 personnes (2 personnes avaient un coucher matinal dû à leur travail posté)
Ici, tous les traits sont apparents, parce que c’est un billet de blog… En pratique, les seuls traits apparents sont les 2 du haut et celui en bas.
Par contre, pour construire le tableau, il faut bien mettre chaque élément dans une case séparée, et ensuite « regrouper » (merge) les cases pour obtenir le design souhaité. Ne mettez jamais tout dans une seule case, en jouant avec des espaces ou des sauts de ligne, sous peine de grand désarroi de votre directeur de thèse. Par exemple, si vous faites ça, ça ne va pas :
Caractéristiques | Valeur | Intervalle de confiance à 95 % | |
Année d’installation (N = 92) | Avant 1981 | 3 (3,3 %) | [0 ; 6,9 %] |
De 1 981 à 1 987 | 13 (14,1 %) | [7,0 ; 21,2 %] | |
De 1 988 à 1 994 | 23 (25,0 %) | [16,2 ; 33,8 %] | |
De 1 995 à 2 001 | 14 (15,2 %) | [7,9 ; 22,6 %] | |
De 2 002 à 2 008 | 7 (7,6 %) | [2,2 ; 13,0 %] | |
2 009 et plus | 32 (34,8 %) | [25,1 ; 44,5 %] | |
SEXE : Homme n =59 Femme n=33 Total 92 100,0% Age : <30ans n=2 30ans-50an n=44 >50ans n=46 Total n=92 100,0% | 64,1% 35,9% 100,0% 2,2% 47,8% 50,0% 100,0% | 54,3% < f < 73,9% 26,1% < f < 45,7% 0,0% < f < 5,2% 37,6% < f < 58,0% 39,8% < f < 60,2% |
Il y a des recommandations de mise en forme des tableaux également sur Equator Network. Je suis évidemment très léger ici, en mettant des ± par exemple, qui sont déconseillés dans les lignes directrices SAMPL citées hier. Le message principal c’est : chaque case doit contenir une seule information. Si vous faites ça, votre directeur et votre jury sera déjà sensible à la qualité de votre présentation.
Préparer les analyses descriptives
Il existe plusieurs logiciels possibles, déjà cités en section Méthodes.
En quantitatif, dans tous les cas (Excel, Jamovi, R, etc.), il y a plusieurs étapes :
- saisie de données
- vérification des données
- analyses univariées (descriptives), qui permettent aussi de vérifier les données et de créer le Tableau 1
- éventuellement, analyses bivariées
- éventuellement, analyses multivariées
Par exemple, avec Excel, vous pourrez :
- filtrer les données du tableau ;
- créer de nouvelles variables (à partir de formules, notamment conditionnelles),
- Par exemple les IMC, en supposant qu’en colonne A il y a le poids en kg, B la taille en m et C l’IMC : il suffit d’écrire dans la cellule C2 l’expression suivante : =A2/B2*B2. Ensuite, il suffit de cliquer sur le coin en bas à droite de la cellule pour la dupliquer, en incrémentant (augmentant) automatiquement les numéros de cellules et lignes (ça donnera donc C3=A3/B3*B3, etc.)
- Le signe $ permet de figer la ligne et/ou colonne lors d’une incrémentation… Par exemple, si on veut calculer C3=A2/B3*B3, puis C4=A2/B4*B4, il faut pouvoir figer A2. Pour cela, il suffit d’écrire dès la première formule : $A$2 pour figer à la fois la colonne (A) et la ligne (2). Pour en savoir plus, il y a des informations simples ici ou sur des milliers de tutoriels en ligne sur Excel !
- créer des tableaux croisés dynamiques (Pivot Table, utile pour les tableaux de contingence…) :
- Si besoin, vous pouvez vous renseigner sur la documentation Excel ou ici
- créer des graphiques (histogramme, boxplot…) (dans Insertion)
- faire des analyses statistiques des variables quantitatives (moyenne, médiane, écart-type, intervalles de confiance…)
- faire des analyses avec « Analysis Toolpack » :
- à activer dans Options Excel > Compléments > Atteindre… > Analysis Toolpack
- à utiliser dans Données > Utilitaire d’analyse > Statistiques descriptives
- et/ou faire des analyses plus poussées : je vous renvois ici à la page Objectif Thèse d’Emmanuel Chazard
Avant de préparer votre questionnaire, je vous invite à préparer les résultats que vous voulez recueillir avec 4-5 patients fictifs, pour anticiper les problèmes.
Quelques remarques dès ce stade :
- Il faut avoir des conventions différentes pour « rien » (0 par exemple) – « ne sait pas » – « donnée manquante » (classiquement #N/A ou une case vide).
- n’écrasez pas de données : si vous souhaitez recoder une variable, créez une nouvelle colonne pour ça.
- Quand on divise arbitrairement, il est plus classique de diviser en quartile, soit en 4 catégories.
- n’hésitez pas à présenter un premier extrait de votre tableau à votre directeur de thèse pour qu’il vous donne quelques indications ; il peut aussi être intéressant de commencer à faire des essais d’analyse sur les 10 premiers patients « pour s’amuser » (sans perdre trop de temps), afin de détecter les éventuels problèmes ;
- pour les analyses quantitatives (0, 1, 2…), vous pourrez utiliser Analysis Toolpack donc ; pour les analyses qualitatives (bleu, jaune, vert…), ce sont les tableaux croisés dynamiques qui vous seront le plus utile
Dans un premier temps, le plus raisonnable sera de faire des analyses purement descriptives (« univariées ») et d’en faire un tableau résumé bien présenté. C’est votre premier objectif et c’est de loin ce qui sera déjà le plus informatif dans votre travail : de qui parlons-nous, qu’ont-ils fait, etc. S’il y a une différence entre 2 groupes, ça se verra probablement dans ce tableau ! S’il y a besoin de tests statistiques très sophistiqués pour montrer un effet… c’est peut-être aussi qu’il n’est pas cliniquement très significatif.
C’est vraiment une démarche importante, parce qu’on a tous tendance à vouloir des résultats « statistiquement significatifs » et des petits p, mais ça n’est pas le plus important : le descriptif est bien plus informatif quand il est bien fait.
Il faut notamment se rappeler que quand on multiplie les tests statistiques « à 5 % de chance de se tromper en affirmant qu’il existe une différence », au bout de 10 tests, on a 40 % d’avoir fait au moins une erreur (d’où l’intérêt de ne pas vouloir tout comparer). On dit parfois que le nombre de tests limite est égal à « nombre de patients inclus / 10 » (ça n’est pas une règle absolue).
Comment rédiger un questionnaire papier ?
Maintenant que vous avez une vision des résultats que vous voulez avec un Tableau 1 préparé, une idée des analyses que vous ferez… vous savez précisément ce que vous voulez recueillir !
Viens alors le temps du questionnaire (si c’est votre mode de recueil, comme souvent).
Vous pouvez commencer par un paragraphe type :
Les données collectées feront l’objet de traitement sous la responsabilité de M. Math Thèse. Conformément au Règlement Général sur la Protection des Données (UE) 2016/679 du 27 avril 2016 et à la loi Informatique et Libertés modifiée, vous disposez des droits suivants concernant vos données personnelles : accès, rectification, effacement, limitation, opposition, portabilité. Pour exercer ces droits, pour toute question ou pour en savoir plus sur la gestion de vos données, vous pouvez nous contacter à <adresse e-mail>.
Date de réponse (JJ/MM/AAAA) |__|__|__|__|__|__|__|__| [date]
[A droite, il y a l’intitulé repris dans la table de données présenté en-dessous. C’est facultatif, juste pour vous retrouver plus facilement. A noter qu’il ne faut ni espace (remplacer par un underscore « _ »), ni accent, ni nom à rallonge pour épargner les statisticiens…]
Quelle est votre date de naissance ? (JJ/MM/AAAA) |__|__|__|__|__|__|__|__| [naiss]
[Préférez les « vraies » données autant que possible si c’est justifié et sécurisé : date de naissance > âge > année de naissance > tranches d’âge. Vous pourrez vous-même reclasser après en 41-50 ans, 51-60 ans, 61-70 ans si ça vous chante… Mais il ne faut pas perdre de l’information au recueil !
Ici, on peut aussi se contenter de l’âge ou de l’année de naissance, s’il n’est pas justifié de recueillir le mois de naissance, le jour… Toute variable collectée doit être justifiée et proportionnée.]
Quel est votre sexe ? [] Homme [] Femme [] Autre (précisez si vous le souhaitez : _________) [sexe]
Quelle est votre situation ? [] Chômage [] Retraité [] Actif
Quelle est votre profession ? __________________ [prof]
[Notez que vous pouvez utiliser les classes de l’Insee sur la situation socioprofessionnelle ; en demandant en ouvert (qualitatif), vous reclasserez ensuite vous-même… Là encore, le recueil doit pouvoir être justifié et proportionné]
Combien de cigarettes fumez-vous par jour actuellement ? ______________ [cig]
[Même remarque que l’âge : c’est plus précis comme ça, plutôt que limiter à « 0-5 / 6-10 / 11-15 / 16-20 / 21+ » comme on voit parfois]
Aimeriez-vous arrêter de fumer ? [arret]
Pas du tout d’accord Complètement d’accord
1 2 3 4
[Il s’agit d’une échelle de Likert à 4 propositions, soit un nombre pair – incitant les répondants à se positionner plutôt d’un côté ou l’autre. Vous pouvez aussi faire 5 propositions pour un choix neutre possible]
Merci de votre participation. Souhaitez-vous recevoir les résultats de l’étude ? [result]
[] Oui [] Non
Une fois le questionnaire prêt, pour que ça soit clair, vous pouvez créer la « Table des variables et modalité » :
nom_var | Type | modalité | Signification |
id | Id | ||
date | date | ||
naiss | date | ||
sexe | binaire | 1 | Homme |
2 | Femme | ||
situ_prof | factor | 1 | Chômage |
2 | Retraité | ||
3 | Actif | ||
prof | character | ||
cig | numerical | ||
Arret | factor | 1 | Pas du tout d’accord |
2 | Pas d’accord | ||
3 | D’accord | ||
4 | Complètement d’accord | ||
result | binaire | 0 | Non |
1 | Oui |
Il y a plusieurs types de variables :
- quantitatives (integer si nombre entier, numerical s’il y a des décimales),
- qualitative (factor, binaire ou – et en toutes lettres – character). En pratique, le character est factorisé ensuite en quelques catégories, pour l’analyse.
Dans un autre onglet, vous pouvez intégrer une table de données « test » en répondant avec de vraies personnes ou non
id | date | Naiss | sexe | situ_prof | prof | cig | arret | result |
1 | 24/02/2016 | 12/12/1986 | 1 | 3 | Médecin généraliste | 0 | NA | 1 |
2 | 25/02/2016 | 22/03/1987 | 2 | 3 | Eleveuse de licornes freelance | 0 | NA | 0 |
3 | 26/02/2016 | 03/08/1992 | 1 | . | Facteur | 10 | 2 | . |
A noter que « NA » ou « . » veulent dire donnée manquante.
Attention à ne pas « imputer » n’importe comment : par exemple, « situ_prof » de l’id 3 est sûrement actif (3) vu qu’il a répondu « facteur » dans la profession… Toutefois, le questionnaire ne précise pas si c’est la situation actuelle… le patient pourrait être au chômage (1) et avoir noté « facteur » pour sa précédente profession ! Vous ne pouvez donc rien modifier vous-même pour ça. Par contre, « arret » = NA si « cig = 0 », c’est normal ; la variable « arret » ne s’exploite que dans le sous-groupe où « cig > 0 » (on ne peut pas vouloir arrêter de fumer si on ne fume pas).
Attention aux données que vous choisissez : par exemple, « rural », « urbain », « semi-urbain » ça pose toujours des questions de définition (il y a des travaux sur ce sujet de l’interprétation de ces données)
Quand faut-il préparer la table des données ?
Contrairement à ce qu’on peut penser instinctivement, il faut mieux préparer la table des données avant la diffusion du questionnaire (et pas au moment de l’informatisation des données papiers).
Essayez de remplir vous-même un questionnaire (en papier ou informatique) et de le transcrire sur votre tableur pour dépister les problèmes. Ce « bêta-test » est indispensable, idéalement avec quelques amis (4-5 suffisent).
Après la diffusion, remplissez votre tableau avec les premières fiches, également pour éviter de découvrir un problème trop tardivement.
Envoyer le questionnaire en papier ou par mail ?
Les questionnaires en ligne (type LimeSurvey…) ont plusieurs avantages :
- enregistrement automatisé de la date et d’un identifiant,
- différenciation des questions à réponse unique et à réponses multiples,
- possibilité de faire des questions à réponses obligatoires (diminution des données manquantes),
- recueil directement des données dans un tableur (gain de temps, pas d’erreur de recopiage du papier au tableur),
- quelques analyses descriptives réalisées directement,
- gratuité (pas de frais postaux contrairement au questionnaire papier),
… mais aussi quelques inconvénients :
- biais de sélection (si vous interrogez des médecins généralistes, vous vous limitez à ceux qui sont informatisés, ont une adresse mail) :
- il faut surtout voir s’il s’agit d’un biais différentiel ou non — pour faire simple, si votre sujet concerne la technique de vaccination d’un médecin, il n’y a pas de raison que ça diffère en fonction de son adresse mail (non différentiel) ; par contre, si vous vous intéressez au taux de feuilles de soins papier, le fait d’exclure par votre recrutement les médecins non informatisés risque d’induire un biais différentiel.
- risque de perte de contrôle : à combien de personnes le questionnaire a été envoyé ?
En résumé :
- l’envoi postal :
- le + : ça incite les gens à répondre un peu plus ; ça permet de connaître le taux de réponses avec certitude (sur le nombre d’envoi)
- le – : c’est plus cher puisqu’il faut le timbre d’envoi et le timbre de retour, avec le risque que les gens n’y répondent pas en plus…)
- l’envoi par mail :
- le + : c’est gratuit, du coup on peut sélectionner plus de gens (mais il faut les appeler avant pour avoir une adresse mail) ; par ailleurs, le tableur est fait automatiquement.
- le – : ça incite moins à y répondre… et ça n’est pas toujours si simple de récupérer des adresses mails (plus simple d’avoir des adresses postales).
A mon sens, la version mail est la plus « rentable » :
- le temps de mettre sur un questionnaire en ligne n’est pas très long ; faites bien attention à mettre des questions à réponses multiples là où il faut, etc.
- le temps d’imprimer, recopier l’adresse sur l’enveloppe et votre adresse sur l’enveloppe de retour = le temps passé à appeler / récupérer l’adresse mail
- le temps passé à transférer les fiches papier sur un tableur = n’existe pas si fait directement sur un formulaire informatique !
- les heures gagnées à ne pas transférer ces fiches peuvent être employées à appeler d’autres personnes… (contrairement au format papier où vous serez limités, ne serait-ce que financièrement, à près de 2€/envoi…)
- enfin, par informatique, vous éliminez directement les non-intéressés, les médecins retraités/en vacances, et vous gagnez les temps postaux d’envoi/réception.
Dans tous les cas, il faut comprendre le principe d’un questionnaire au format papier afin de réaliser un questionnaire informatique pertinent.
A Lille, vous pouvez diffuser via LimeSurvey en allant sur cette page. Les règles de bonnes pratiques sont disponibles ici : https://enquetes-etablissement.univ-lille.fr/ (et pour l’anonymat, il y a cette page).
A qui envoyer ?
Evidemment, cela dépend de votre public cible !
Mais dans ce public cible, l’idéal est d’avoir un échantillon aléatoire. Si le caractère local ou régional n’a pas d’intérêt, il est préférable d’opter pour un échantillon national qui sera plus facile à publier ou diffuser.
Vous pouvez utiliser le répertoire RPPS par exemple, ou la liste officielle des codes postaux si c’est pertinent. Pour faire une requête aléatoire sur Excel, vous pouvez utiliser : =RANDBETWEEN(0 ;100 000) ou =ALEA.ENTRE.BORNES(0 ;100000). Une fois la colonne triée, pensez à faire copier puis « coller des valeurs » (option de « collage spécial »), pour éviter une actualisation à chaque ouverture du fichier !
Si vous appelez pour récupérer des adresses, il faut bien noter :
- le nombre de médecins appelés,
- le nombre de médecins donnant l’adresse mail,
- le nombre de médecins répondant.
En moyenne, vous pouvez compter 500 coups de fils pour récupérer 100 adresses mails et 50 réponses… c’est évidemment variable selon votre présentation, votre talent de commercial, l’intérêt de votre sujet, etc.
Si vous diffusez par la faculté à tous les internes, je vous conseille de respecter ces 4 consignes :
- Faire un mail court (les internes et MSU en reçoivent beaucoup, il faut un mail lisible)
- Annoncer le nombre de questions (faible idéalement !) et pas de minutes (… à cause des précédents qui ont dit 5 minutes alors qu’on y a passé 20 minutes !)
- Annoncer une récompense : une fiche de synthèse inédite, etc.
- … et avoir un sujet qui peut intéresser le public interrogé !