Epi Info V6 - EVEeve.vet-alfort.fr/.../content/0/Tuto_pdf/Loic_D/Epi_Info_V6_1_dpp_.pdf · Importer...
Transcript of Epi Info V6 - EVEeve.vet-alfort.fr/.../content/0/Tuto_pdf/Loic_D/Epi_Info_V6_1_dpp_.pdf · Importer...
Présentation rapide du logiciel Epi Info®
Loïc Desquilbet, PhD
Département des Productions Animales et de Santé Publique
Ecole Nationale Vétérinaire d’Alfort
[email protected] Tutoriel Epi Info v6
Plan
2
13Importer un fichier Excel « Open Office » dans Epi Info
47Moyennes et médianes par modalité d’une variable à > 2 classes
64Créer des variables
60Analyses statistiques dans un sous-échantillon
52Tableau de fréquences croisées stratifié sur une variable binaire
Associations statistiques stratifiées
42Moyennes et médianes par modalité d’une variable binaire
32Tableau de fréquences croisées (pour deux variables qualitatives)
Associations statistiques brutes
29Histogramme
26Moyennes et médianes (pour une variable quantitative)
24Tableau de fréquences simple (pour une variable qualitative)
22Faire apparaître le fichier de données
Décrire un fichier de données
17Fenêtre « program editor »
5Importer un fichier Excel dans Epi Info
3Où trouver Epi Info ?
Où trouver Epi Info ?
3
Adresse web : www.cdc.gov/epiinfo/
Download pour la version 3.5.1
Où trouver Epi Info ?
4
Clic sur Full Download
Clic sur Downloadseetup.exe
Importer un fichier Excel dans Epi Info
5
Importer un fichier Excel dans Epi Info
6
Clic sur « Read (import) » pour importer des données
Le projet par défaut d’Epi Info (« sample.mdb ») doit être obligatoirementchangé avant l’import d’un fichier de données
1
2
Importer un fichier Excel dans Epi Info
7
Changer le projet = procédure obligatoire !
Clic sur « Change Project » pour créer un nouveau proj et sur le disque dur, en le nommant comme on veut (ici « no uveau projet » dans le répertoire « Tutorial vidéo Epi Info » )
1
2Puis clic sur « Ouvrir »
3
Importer un fichier Excel dans Epi Info
8
Choisir le format de la base de données que l’on veut importer dans Epi Info : « Excel 8.0 »
Importer un fichier Excel dans Epi Info
9
Aller chercher le fichier Excel à importer (par exemple, « pour_tutorial.xls »)
1
2
Importer un fichier Excel dans Epi Info
10
Sélectionner la feuille Excel du fichier de données qui contient les données à importer…
… puis clic sur « Ok »
1
2
Importer un fichier Excel dans Epi Info
11
Clic sur « Ok » après avoir vérifié que la case qui dit à Epi Info que la 1 ère ligne contient le nom des variables a été cochée
(La première ligne de la feuille de calcul qui contient les données à importer doit être le nom des variables, sans espace)
Importer un fichier Excel dans Epi Info
12
Le fichier de données a été importé, et contient 200 lignes
Importer un fichier Excel « Open Office » dans Epi Info
13
1ère étape : enregistrer le tableur sous le format txt (s éparateur = tabulation)
2ème étape : importer le fichier sous Epi Info (après av oir changé le projet !)
Clic sur « Read (import) » pour importer les données
Sélectionner « Text »
1
2
Importer un fichier Excel « Open Office » dans Epi Info
14
Sélectionner ensuite le fichier txt à importer
1
Puis « ouvrir »2
Le fichier texte s’ouvre ⇒⇒⇒⇒ le fermer
3
Importer un fichier Excel « Open Office » dans Epi Info
15
Cliquer sur « Ok »
Importer un fichier Excel « Open Office » dans Epi Info
16
Sélectionner « (tab) »
1
Puis « Ok » 2
Remarque
Après l’import, les variables binaires codées en 0/ 1 seront codées en « No » / « Yes », mais intrinsèquement, leur valeur reste « 0 » ou « 1 »
Fenêtre « program editor »
17
▪ Cette fenêtre s’appelle la fenêtre « program editor »
▪ C’est dans cette fenêtre que s’écrit (ou que l’on é crit) les lignes de programme qui permettent d’exécuter toutes les c ommandes
Présentation générale
Fenêtre « program editor »
18
Remarque
Quand on exécute les commandes par « clic » (a), la li gne de programme s’écrit automatiquement (b) ⇒⇒⇒⇒ très pratique pour apprendre le code d’Epi Info !
a
b
On a donc ici la ligne de programme qui correspond àl’import du fichier Excel précédent
Présentation générale
Fenêtre « program editor »
19
Pour exécuter une ligne de commande déjà écrite (ou que vous venez d’écrire), placez-vous sur la ligne de progra mme (celle du haut si la ligne de programme tient sur plusieurs l igne, comme ici), et cliquez sur « Run This Command »
Présentation générale
Fenêtre « program editor »
20
Clic sur « Save » permet de sauvegarder le programme, pour le relancer par la suite
1
Enregistrer le programme
Fenêtre « program editor »
21
2
Le programme s’enregistre dans le projet créépréalablement (en tout cas, il faut le vérifier)
On choisit de nommer ce programme « pgme_tutor_pwt » (le nom du programme ne doit pas contenir d’espace)
3
Clic sur « Ok »4
Enregistrer le programme
Décrire un fichier de données
22
Faire apparaître le fichier de données
Clic sur « List »
1
2
Clic sur « Ok »
4
Clic sur « Grid » ou « Web »(si bug avec « Grid)
3
Décrire un fichier de données
23
Faire apparaître le fichier de données
Fichier de données
Ligne de programme pour faire apparaître le fichier de données
Décrire un fichier de données
24
Clic sur « Frequencies »
Tableau de fréquences simple (pour une variable qualitative)
Choix de la variable dont on veut le tableau de fréquences (ici, « race_locale »)
1
2
Puis « Ok »
4
3
Décrire un fichier de données
25
Tableau de fréquences et des %
Tableau de fréquences simple (pour une variable qualitative)
Rappel de la commande
Intervalle de confiance des %
Ligne de programme qui a été écrite à la suite du clic sur « Frequencies »
Décrire un fichier de données
26
Moyennes et médianes (pour une variable quantitative)
Clic sur « Means »
Choix de la variable dont on veut la moyenne (Ici, « age »)
1
2
Puis « Ok »
4
3
Décrire un fichier de données
27
Moyennes et médianes (pour une variable quantitative)
Sortie n°1
Tableau de toutes les valeurs que prend la variable « age »
Rappel de la commande
Ligne de programme qui a été écrite à la suite du clic sur « Means »
Décrire un fichier de données
28
Moyennes et médianes (pour une variable quantitative)
Sortie n°2
▪ Moyenne de 6,0 ans (SD 1 : 1,9 ans)
▪ Médiane de 5,8 ans (IQR 2 : 4,7 ; 7,4)1 SD = Standard Deviation (écart-type dans l’échantill on)
2 IQR = InterQuartile Range = 25 ème et 75ème percentiles (1 er et 3ème quartiles)
Décrire un fichier de données
29
Histogramme
Clic sur « Graph »
Choix de « Histogram »
1
3
2
Choix de la variable quantitative (ici, « poids »)
Décrire un fichier de données
30
Histogramme
Choix de la largeur des barres de l’histogramme (ici, choix d’une largeur de 40 kilos)
Clic sur « Ok »
54
Décrire un fichier de données
31
Histogramme
En ordonnées, nombre d’individus par barre de l’histogramme
Largeur de barres de 40 kilos
40
Associations statistiques brutes
32
Clic sur « Tables »
Tableau de fréquences croisées (pour deux variables qualitatives)
Choix de la variable d’exposition (Ici, « race_locale »)
1
2
Puis « Ok »
5
3
Choix de la variable « maladie »(Ici, « tuberculose »)
4
Associations statistiques brutes
33
Tableau de fréquences croisées (pour deux variables qualitatives)
Sortie n°1 : tableau de fréquences
Pourcentages en colonne : 68% des bovins sans tuberculose sont de race locale contre 42% des bovins avec tuberculose
Rappel de la commande
Ligne de programme qui a été écrite à la suite du clic sur « Tables »
Associations statistiques brutes
34
Tableau de fréquences croisées (pour deux variables qualitatives)
Sortie n°1 : tableau de fréquences
Pourcentages en ligne : 23% des bovins de race locale sont atteints de tuberculose contre 46% des bovins d’autres races
Associations statistiques brutes
35
Tableau de fréquences croisées (pour deux variables qualitatives)
Sortie n°2.a : Odds Ratios
▪ Epi Info fournit deux estimations de l’OR (elles sont quasiment identiques)
▪ MLE = maximum likelihoodestimation (estimation par le maximum de vraisemblance)
▪ L’OR comparant les exposés (exposure variable = 1) aux non exposés ( exposurevariable = 0) sur la présence de maladie est de :
0,34 [0,18 ; 0,62] 95%
Associations statistiques brutes
36
Tableau de fréquences croisées (pour deux variables qualitatives)
Sortie n°2.b : tests statistiques
▪ Les tests comparent
- 68% à 42% (% en col.)
- 23% à 46% (% en ligne)
▪ Les effectifs attendus sous H0 sont tous > 5 (sinon, Epi Info vous avertit !)
⇒⇒⇒⇒ On lit le test le p du Chi-deux non corrigébilatéral (2-tailed)
Associations statistiques brutes
37
Tableau de fréquences croisées (pour deux variables qualitatives) lorsque les
effectifs attendus sont < 5
▪ Lorsqu’au moins 1 des effectifs attendus est < 5, il faut utiliser le test de Fisher (la correction de Yates n’est plus vraiment utilisée…)
▪ Dans la diapo 32, on remarque qu’Epi Info fournit le p de Fisher, mais il s’agit d’un test unilatéral !! (1-tailed)
⇒ Il faut utiliser Statcalc d’Epi Info
▪ La démarche est la suivante :
1) Utiliser la commande TABLES pour avoir les effectifs observés dans chacune des 4
cases (cf.diapo 29), et les pourcentages à comparer
2) Regarder si Epi Info dit qu’il y a au moins un des 4 effectifs attendus < 5
3) Si oui, utiliser Statcalc pour calculer le p de Fisher bilatéral, qui permettra de conclure à
la différence significative ou non entre les deux pourcentages à comparer
Associations statistiques brutes
38
Tableau de fréquences croisées (pour deux variables qualitatives) lorsque les
effectifs attendus sont < 5
Utilities -> StatCalc
Associations statistiques brutes
39
Tableau de fréquences croisées (pour deux variables qualitatives) lorsque les
effectifs attendus sont < 5
▪ Dans ces fenêtres DOS, la souris ne marche pas !
▪ Il faut sélectionner les menus avec les flèches du clavier, puis taper sur « entrée »
▪ Ici, sélection de Tables (2x2, 2xn) puis « entrée »
Associations statistiques brutes
40
Tableau de fréquences croisées (pour deux variables qualitatives) lorsque les
effectifs attendus sont < 5
▪ Il faut rentrer chaque nombre puis appuyer sur « entrée » pour passer à la case suivante
▪ Une fois les 4 nombres rentrés, il faut taper F4 pour avoir les résultats des tests statistiques
Associations statistiques brutes
41
Tableau de fréquences croisées (pour deux variables qualitatives) lorsque les
effectifs attendus sont < 5
▪ Epi Info ne fournit le test de Fisher que si au moi ns un des effectifs attendus est < 5
▪ Il faut lire la valeur du p de Fisher bilatéral (2- tailed) : ici, pFisher = 0,27
▪ Pour quitter Statcalc, taper plusieurs fois sur F10
Associations statistiques brutes
42
Moyennes et médianes par modalité d’une variable binaire
Choix de la variable dont on veut la moyenne (Ici, « age »)
1
2
Puis « Ok »
5
3
Choix de la variable « tuberculose »selon laquelle on veut les moyenne et médiane de « age »
4
Clic sur « Means »
Associations statistiques brutes
43
Moyennes et médianes par modalité d’une variable binaire
Sortie n°1
Tableau de toutes les valeurs que prend la variable « age » selon les modalités de « tuberculose »
Rappel de la commande
Ligne de programme qui a été écrite à la suite du clic sur « Means »
Associations statistiques brutes
44
Moyennes et médianes par modalité d’une variable binaire
Il y a 136 vaches qui ont « 0 »pour « tuberculose » et 64 qui ont « 1 » pour « tuberculose »
Sortie n°2
▪ Moyennes…
Pour « tuberculose » = 0 : 5,7 ans
Pour « tuberculose » = 1 : 6,7 ans
▪ Médianes…
Pour « tuberculose » = 0 : 5,5 ans
Pour « tuberculose » = 1 : 6,8 ans
Associations statistiques brutes
45
Moyennes et médianes par modalité d’une variable binaire
Sortie n°3
▪ Test de Student
Valeur du T de Student : 3,5 (a)
Valeur du p : p < 0,05 (b)
⇒⇒⇒⇒ Les 2 moyennes sont significativement différentes
Sortie n°3 (suite)
▪ Test de comparaison des variances (inutile ici car les effectifs sont ≥ 30)
p = 0,38 (variances non significativement inégales)
a
b
Associations statistiques brutes
46
Moyennes et médianes par modalité d’une variable binaire
Sortie n°4
▪ Test de comparaison des médianes par les tests de W ilcoxon (pour variable binaire) ou Kruskal-Wallis (pour variable à > 2 classes)
p < 0,05 (médianes d’âge significativement différente s entre les bovins sans tuberculose et les bovins avec tuberculose)
Associations statistiques brutes
47
Choix de la variable dont on veut la moyenne (Ici, « age »)
1
2
Puis « Ok »
5
3
Choix de la variable « region » selon laquelle on veut les moyennes et médianes de « age »
4
Clic sur « Means »
Moyennes et médianes par modalité d’une variable à > 2 classes
Associations statistiques brutes
48
Moyennes et médianes par modalité d’une variable à > 2 classes
Sortie n°1
Tableau de toutes les valeurs que prend la variable « age » selon les modalités de « region »
Rappel de la commande
Associations statistiques brutes
49
Moyennes et médianes par modalité d’une variable à > 2 classes
Sortie n°2
▪ Moyennes…
- Pour « region » = 1 : 5,8 ans
- Pour « region » = 2 : 6,6 ans
- Pour « region » = 3 : 5,9 ans
- Pour « region » = 4 : 5,8 ans
▪ Médianes…
- Pour « region » = 1 : 5,8 ans
- Pour « region » = 2 : 6,5 ans
- Pour « region » = 3 : 5,8 ans
- Pour « region » = 4 : 5,2 ans
Associations statistiques brutes
50
Sortie n°3
▪ Test d’analyse de variance
Valeur du F de Fisher : 1,85 (a)
▪ Valeur du p : p = 0,14 (b)
⇒⇒⇒⇒ Les 4 moyennes ne sont pas significativement différentes
(Le test d’analyse de variance est le test statistique qui permet de comparer > 2 moyennes)
Moyennes et médianes par modalité d’une variable à > 2 classes
a
b
Associations statistiques brutes
51
Sortie n°4
▪ Test de comparaison des médianes par le test de Kru skal-Wallis
p = 0,14 (médianes d’âge non significativement différ entes)
Moyennes et médianes par modalité d’une variable à > 2 classes
Associations statistiques stratifiées
52
Clic sur « Tables »
Tableau de fréquences croisées stratifié sur une variable binaire
Choix de la variable d’exposition (Ici, « race_locale »)
12
Puis « Ok »
6
3
Choix de la variable « maladie »(Ici, « tuberculose »)
4
Stratification sur « Gestation »
5
Associations statistiques stratifiées
53
Tableau de fréquences croisées stratifié sur une variable binaire
Sortie n°1
Résumé des analyses effectuées :
1) Croisement de « race_locale » par « tuberculose » parmi « gestation = 0 »
2) Croisement de « race_locale » par « tuberculose » parmi « gestation = 1 »
3) Résumé de la stratification (présentation des OR ajustés)
Associations statistiques stratifiées
54
Tableau de fréquences croisées stratifié sur une variable binaire
Sortie n°2
Tableau croisé pour « gestation = 0 »
- Prévalence de tuberculose chez les vaches de race locale : 17%
- Prévalence de tuberculose chez les vaches d’autres races : 42%
Associations statistiques stratifiées
55
Tableau de fréquences croisées stratifié sur une variable binaire
Sortie n°3
(a)OR avec IC95% parmi « gestation = 0 »
(b)Test du Chi-2 testant les prévalences de tuberculose parmi « gestation = 0 »(cf. sortie n°2)
a
b
Associations statistiques stratifiées
56
Tableau de fréquences croisées stratifié sur une variable binaire
Sortie n°4
Tableau croisé pour « gestation = 1 »
- Prévalence de tuberculose chez les vaches de race locale : 30%
- Prévalence de tuberculose chez les vaches d’autres races : 50%
Associations statistiques stratifiées
57
Tableau de fréquences croisées stratifié sur une variable binaire
Sortie n°5
(a)OR avec IC95% parmi « gestation = 1 »
(b)Test du Chi-2 testant les prévalences de tuberculose parmi « gestation = 1 »(cf. sortie n°4)
a
b
Associations statistiques stratifiées
58
Tableau de fréquences croisées stratifié sur une variable binaire
Sortie n°6
(a)OR brut avec IC95%
(b)OR ajusté sur « gestation »avec IC95% a
b
Associations statistiques stratifiées
59
Tableau de fréquences croisées stratifié sur une variable binaire
Sortie n°7
(a)Test du Chi-2 Mantel-Haenszel testant l’OR ajusté ( ⇔⇔⇔⇔ test de Wald)
(b)Test du Chi-2 testant la présence d’une interaction significative (OR dans strate 1 ≠≠≠≠ OR dans strate 2)
a
b
Analyses statistiques dans un sous-échantillon
60
Décrire un fichier de données parmi une sélection d’individus
▪ Objectif
Fournir des statistiques descriptives (+ tests) dans un sous-échantillon de l’échantillon initial selon des critères bien précis (conditions précises)
▪ Principe
Il faut demander à Epi Info de sélectionner les observations qui répondent aux conditions de sélection du sous-échantillon
▪ Syntaxe pour sélectionner les observations : SELECT condition
▪ Syntaxe pour déselectionner les observations : SELECT
▪ Utilisation des mot-clés AND et OR si la condition porte sur plusieurs variables
Analyses statistiques dans un sous-échantillon
61
Décrire un fichier de données parmi une sélection d’individus
▪ Objectif
Fournir des statistiques descriptives (+ tests) dans un sous-échantillon de l’échantillon initial selon des critères bien précis (conditions précises)
▪ Principe
Il faut demander à Epi Info de sélectionner les observations qui répondent aux conditions de sélection du sous-échantillon
▪ Syntaxe pour sélectionner les observations : select condition
▪ Syntaxe pour déselectionner les observations : select
▪ Illustration
Fournir la médiane d’âge des bovins sans tuberculose parmi les vaches de race locale hors période de gestation
Analyses statistiques dans un sous-échantillon
62
Décrire un fichier de données parmi une sélection d’individus
▪ Illustration
Fournir la médiane d’âge des bovins parmi les vaches de race locale hors période de gestation
Médiane : 5,5 ans
Analyses statistiques dans un sous-échantillon
63
Décrire un fichier de données parmi une sélection d’individus
▪ Illustration
Fournir la médiane d’âge des bovins parmi les vaches de race locale hors période de gestation
Retour à l’échantillon initial des 200 bovins
Créer des variables
64
Commandes Epi-Info et syntaxe
▪ Commandes : define , assign , recode
▪ Syntaxe n°1 : création d’une variable sous conditio ns
define new_var
if condition1 then
assign new_var = valeur1
end
if condition2 then
assign new_var = valeur2
end
Créer des variables
65
Commandes Epi-Info et syntaxe
▪ Syntaxe n°2 : recodage d’une variable quantitative en une variable en classes selon des seuils de la variable quantitative
define var_classes
recode var_quant to var_classes
lovalue- seuil1 = valeur1
seuil1-seuil2 = valeur2
seuil2-seuil3 = valeur3
… = …
seuilk-hivalue = valeurp
end
var_quantseuil1
valeur1
seuil2 seuil3
valeur2 valeur3 valeur4 Valeurs de var_classes
Créer des variables
66
Commandes Epi-Info et syntaxe
▪ Pour supprimer une variable d’un fichier de données, il faut taper :
undefine variable
▪ Si une variable est déjà créée, et que l’on veut modifier son codage, il faut la supprimer avant de la redéfinir
Créer des variables
67
Présentation de différents exemples
▪ On veut créer deux variables :
- raceloc_sup3 : variable qui vaut « 1 » si le bovin est de race locale d’un âge supérieur ou égal à 3 ans, et « 0 » sinon (bovin d’autres races ou d’âge inférieur à 3 ans)
- age_cl = variable qui vaut « 1 » si l’animal est âgé ≤ 4 ans, « 2 » si 4-6 ans, « 3 » si 6-8 ans, et « 4 » si > 8 ans
Créer des variables
68
Création de raceloc_sup3 Création de age_cl