Après un point de vue général sur le qualitatif, faisons de même sur le quantitatif avec le même plan. Là encore, vous allez : choisir un type d’étude (selon votre objectif) – puis recueillir des données – puis les analyser.
Choisir le type d’étude
En qualitatif, vous pouvez étudier le vécu d’un individu face à un phénomène (approche par analyse interprétative phénoménologique – souvent abrégé en phénoménologie), étudier les réactions et comportements d’individus autour d’un phénomène (approche par théorisation ancrée), étudier les dynamiques de groupe face à un phénomène (ethnographie)… ou autres méthodes que nous avons peu détaillées.
En quantitatif, en reprenant le terme de phénomène (qu’on pourrait plutôt remplacer par « variable »), vous pouvez :
- étudier la survenue d’un phénomène (une maladie, une habitude médicamenteuse, une fréquence d’effets indésirables…) par des études épidémiologiques descriptives
- étudier l’association entre deux phénomènes (tabagisme et revenu socio-économique ; tabagisme et cancer du poumon, etc.) par des études épidémiologiques analytiques
- étudier les valeurs diagnostiques d’un test, par des études diagnostiques
- étudier l’efficacité et la tolérance d’un traitement par des études thérapeutiques
Comme pour la partie qualitative, nous resterons focalisés sur ces grands types d’études. Il en existe d’autres, notamment les études médico-économiques (coût-efficacité, coût-utilité…) ou les modélisations mathématiques. Une liste est disponible ici.
Pour reprendre l’exemple de la poule avec un couteau… La phénoménologie nous avait appris le ressenti et le vécu d’une poule face à un tel ustensile ; la théorisation ancrée nous avait permis de construire un modèle du couteau selon les poules ; l’ethnographie nous avait fait étudier la dynamique d’un groupe de poules face à un couteau.
Cette fois :
- l’étude épidémiologie descriptive va calculer le nombre de couteaux par poulailler (prévalence), éventuellement par an (incidence) ;
- l’étude épidémiologie analytique va déterminer si le nombre (ou la forme) des couteaux varie en fonction de la taille, la localisation régionale, la densité de pop(o)ulation autour de la ferme ;
- l’étude diagnostique va nous permettre de déterminer la sensibilité et la spécificité des caméras à infrarouges dans le poulailler pour repérer le couteau ;
- l’étude thérapeutique va étudier l’efficacité et la tolérance d’un gilet pare-couteau chez les poules
Recueillir des données : modalités de recueil et modalités d’échantillonnage
Le recueil de données vise idéalement à l’exhaustivité… ou à défaut, à la constitution d’un échantillon représentatif de la cible.
Par exemple, si vous voulez connaître la moyenne en mathématiques de la classe de 6ème 4 du collège Albert Camus de votre ville, l’exhaustivité est possible ; si vous voulez connaître la moyenne en mathématiques des 6ème en France, vous allez peut-être devoir constituer un échantillon (ou profiter des grandes bases de données).
ll existe plusieurs méthodes de recueil :
- Observations avec mesures directes : collecte d’informations mesurables sur le terrain (clinique, biologique, radiologique, éventuellement avec des outils connectés…)
- Bases de données existantes : réutilisation de données ; pour vous donner une idée de ce qu’il y a dans le SNDS : https://health-data-hub.shinyapps.io/dico-snds/
- Questionnaire (standardisés idéalement) : en papier, en ligne ; souvent structuré, parfois avec des commentaires libres ;
- Expérimentation contrôlée
Concernant l’échantillonnage, il pourra être idéalement probabiliste :
- aléatoire (sélection aléatoire)
- systématique (sélection selon un ordre décidé : par exemple le premier patient de chaque jour)
- stratifié (sélection aléatoire dans des sous-groupes/strates homogènes selon une caractéristique)
- en grappe (sélection aléatoire de sous-groupes organisationnels ou géographiques)
Un échantillonnage non probabiliste est possible, mais moins puissant car plus soumis à des biais de sélection notamment :
- par convenance (les plus accessibles)
- intentionnel / par jugement (ceux qui semblent pertinent selon le chercheur)
- par quotas (celle des sondages : on a des quotas en sexe, âge, profession… et on remplit)
- par effet boule de neige (idem en qualitatif : utile pour des populations rares)
Quand s’arrêter ?
Le nombre de sujets nécessaires doit être calculé a priori. Vous pouvez retrouver les informations sur le site Objectif Thèse d’Emmanuel Chazard.
Logiciels d’analyse
Il existe plusieurs outils et logiciels d’analyse :
- Excel ou Calc par LibreOffice : vous pouvez faire de nombreuses analyses avec, et les tutoriels sont nombreux aussi sur internet ; vous pouvez trouver des exemples sur le site Objectif Thèse.
- R et RStudio (interface graphique utile !) : logiciel gratuit opensource, auquel vous pouvez ajouter des paquets (extensions) gratuites. C’est puissant… mais ça demande une appropriation un peu longue. Si vous êtes intéressés, voici quelques ressources :
- Cours de Bruno Falissard : https://www.youtube.com/@statb.falissard7434
- Blog de Claire Della Vedova : https://delladata.fr/blog/
- Site d’Aymeric Duclert : https://www.duclert.org/
- R pour les débutants d’Emmanuel Paradis : https://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
- R pour les statophobes de Denis Poinsot : https://perso.univ-rennes1.fr/denis.poinsot/Statistiques_%20pour_statophobes/R%20pour%20les%20statophobes.pdf
- … et de manière générale, vous pouvez trouver des tutoriels sur des points très spécifiques (par exemple les cartes par Milos Popovic : https://milospopovic.net/blog)
- Jamovi : autre logiciel opensource, beaucoup plus récent et avec moins d’extension. Il a une interface plus facile que R.
- SPSS ou SAS : logiciels statistiques payants, avec une interface plus facile que R (plus anciens que Jamovi, et davantage utilisés).
- BiostatTGV : site gratuit de biostatistiques repris par le réseau Sentinelles. C’est intuitif, didactique mais pas très pratique pour croiser des données car il faut tout rentrer à nouveau ;
- https://epitools.ausvet.com.au/ : autre site gratuit… avec les mêmes qualités et les mêmes défauts.
- pvalue.io : site internet gratuit permettant d’importer votre base de données, de réaliser des analyses univariées et multivariée, et d’obtenir des graphiques personnalisables.
Analyse des données
Le travail va se baser en 3 temps : transcrire – décrire (coder) – analyser (organiser)
Transcrire
Vous devez vérifier la qualité de vos données.
Pour cela, le plus simple est de tout regarder visuellement, en décrivant les variables une à une, par exemple en boîte à moustache (boxplot) : ça vous permettra de supprimer / corriger les données du patient de 451 ans, celui qui mesure 1180 cm, pèse 4 kg, etc. Ca vous permettra aussi d’homogénéiser s’il y a un patient qui prend du « paracétamol » avec celui qui prend du « paracetamol » ou celui qui prend du « paracétamol » (avec 3 espaces après).
Il est aussi pertinent de préciser ce que vous ferez des données manquantes :
- suppression (le plus courant) ;
- imputation (remplacer par de « fausses » données probables…) : c’est un outil purement statistique, qui peut être discutable. Il faut surtout savoir que ça existe, mais c’est rare pour une thèse de médecine.
Décrire
Quel que soit votre type d’étude, la description (Tableau 1) est indispensable. C’est l’analyse univariée : vous décrivez une variable à la fois.
Les méthodes sont variées :
- Moyenne et écart-type (mesure de dispersion)
- Médiane et intervalle interquartiles
- Nombre (%)
Les mesures de dispersion peuvent aussi être des intervalles de confiance à 95 % si la variable suite une loi normale.
Je l’ai déjà dit et je le répéterai : un tableau 1 c’est super, ça permet de synthétiser énormément d’informations en peu de pages (des heures de travail en un seul petit tableau : frustrant peut-être, magique assurément). Un tableau vaut 10 ou 20 graphiques lorsqu’il s’agit de décrire des variables (un graphique peut parfois être pertinent pour ça… mais c’est rare qu’il fasse mieux que le tableau !)
Analyser
Ensuite, vous pouvez procéder aux autres analyses. C’est là où vous verrez des petits p… il n’y en a pas en univarié et descriptif seul.
En pratique, on pose en général l’hypothèse nulle ou standard H0 : « il n’y a pas d’interaction entre les variables ». Cette hypothèse va être testée avec des… tests statistiques, pour rejeter (ou non) l’hypothèse au seuil alpha de 5 % (donc « avec 5 % de risque de nous tromper, nous affirmons qu’il existe une interaction / une différence statistiquement significative entre les 2 groupes »).
C’est ce qu’on appelle la démarche hypothético-déductive (qui est aussi celle que vous utilisez auprès de vos patients : vous formulez des hypothèses diagnostiques à l’interrogatoire, vous testez à l’examen physique, vous déduisez que leur probabilité diminue/augmente en conséquence, et vous formulez donc une conclusion… qui est parfois fausse).
Il y a 2 grands types d’analyse :
- bivariées : est-ce que la variable X influence/explique/est associée à la variable Y ?
- multivariées : c’est la même chose, sauf que la variable à expliquer Y peut l’être maintenant par plusieurs variables, afin de limiter les biais de confusion.
Vous avez plusieurs tests existants selon la nature des variables (continu, binaire, etc.) : test t de Student, ANOVA, Chi2, régression linéaire, régression logistique, etc.
Si vous vous lancez dans une étude quantitative, vous pouvez lire la page de LEPCAM ou Objectif Thèse.