Noțiuni de statistică medicală - info.umfcluj.ro
Transcript of Noțiuni de statistică medicală - info.umfcluj.ro
SORANA D. BOLBOACĂ
10/31/2020 1
STATISTICA DESCRIPTIVĂ– INDICATORI SINTETICI
“Welcome to the Alzheimer's information support page...please enter your 17 digit password.”
DESPRE …
10/31/2020 2
STATISTICA DESCRIPTIVĂ
Proporția, rata și raportul
Parametrii de centralitate
Parametrii de dispersie
Parametrii de simetrie și boltire
o f = a:(a+b) sau a/(a+b)
o f∈(0, 1) sau f∈(0%, 100%)
o Alte exemple: Prevaleța, Incidența, Se, Sp, VPP, VPN, A (indicatori de evaluarea a testelor diagnostice)
La serviciul de urgență al unui spital județean au fost consultați 1200 într-o anumită perioadă de timp. 420 au fost internați, 200 fiind de gen feminin
o Care este proporția subiecților de sex masculin dintre subiecții spitalizați?
o 220/420 * 100 = 52%
10/31/2020 3
Proporția, rata și raportul
o Prevalențao Incidența
o Rata = riscul de apariție a unui eveniment în timp (ex. secundă/minut/oră/zi/săptămână/lună/an).
o Ex.: rata de morbiditate, rata de atac, rata de mortalitate, rata de natalitate, riscul atribuabil
10/31/2020 4
Proporția, rata și raportul
Cancer mamar+
Cancer mamar-
Total
Alăptare = Da 20 80 100
Alăptare =Nu 21 79 100
Total 41 159 200
o Riscul de cancer mamar la femeile care au alăptat = 20/100 = 0,20
o Riscul de cancer mamar la femeile care nu au alăptat = 21/100 = 0,21
o Riscul relativ = 0,20/0,21 = 0,95 → Femeile care au alăptat au un risc de a dezvolta cancer mamar cu 5% mai mic comparativ cu cele care nu au alăptat.
[0, ∞]o Riscul relativo Rata șansei
o Se aplică doar în cazul numerelor raționale pozitive a şi b unde b≠0
a:b sau a/b
10/31/2020 5
Proporția, rata și raportul
o Două din 10 persoane consultate într-o zi de un medic de familie au presiunea arterială sistolică (PAS) mai mare decât valoarea normală. Care este valoarea raportului PAS normal/ PAS patologic?
PAS normal/ PAS patologic = 8/2 = 4 → Avem un subiect cu valori patologice ale PAS la fiecare 4 indivizi cu valori PAS normale
10/31/2020 6
Parametrii de centralitate
o Statistica eșantionului = estimator punctual al parametrului populației
Media aritmetică
Mediana
Modulul
Media ponderată
o Media aritmetică
10/31/2020
7
+= n 1
2
Me X+
+
=
n n1
2 2
X X
Me2
Impar (3, 5, 7 …) Par (2, 4, …)
==
n
ii 1
X
Xn
Populație → parametru Eșantion → statistica
Parametrii de centralitate
o Modulul: cea mai frecventă observație a seriei
o Mediana
μ =σ𝑖=1𝑁 𝑋𝑖𝑁
Scorurile obținute la examenul practic de o grupă de 11 studenți:
4, 9, 5, 8, 6, 7, 9, 10, 8, 6, 5
o Media aritmetică = (4+9+5+8+6+7+9+10+8+6+5)/11 = 7
o Modulul: 5, 6, 8, 9 → serie multimodală
o Mediana: 4, 5, 5, 6, 6, 7, 8, 8, 9, 9, 10
o n (volumul eșantionului) = 11
o Me = X(n+1)/2 = X6 = 7
10/31/2020
8
Parametrii de centralitate
Scorurile obținute la examenul practic de o grupă de 12 studenți:
4, 9, 5, 8, 6, 4, 9, 10, 8, 6, 5, 4
o Media = (4+9+5+8+6+4+9+10+8+6+5+4)/12 = 6.5
o Modulul: 4 → serie unimodală
o Mediana: 4, 4, 4, 5, 5, 6, 6, 8, 8, 9, 9, 10
o n (volumul eșantionului) = 12
o Me = (Xn/2+ Xn/2+1)/2 = (X6 +X7)/2= (6+6)/2 = 6
10/31/2020
9
Parametrii de centralitate
Media ponderată
10/31/2020
10
=
=
=
n
i ii 1
X n
ii 1
W X
m
W
==
n
ii 1
X
Xn
Media aritmetică
Media artimetică este un caz special al mediei ponderate (Wi , ponderi egale).
Parametrii de centralitate
Valoarea centrală = (xmin+ xmax)/2
10/31/2020
11
Parametrii de centralitate
10/31/2020 12
Estimator Avantaj Dezavantaj
Media Utilizează toate datele
Ușor de aplicat
Influențată de valori extreme
Nereprezentativă dacă datele nu au o
distribuție simetrică
Mediana Nu e influențată de valori extreme
Neinfluențată de asimetria datelor
Ignoră majoritatea datelor din serie
Modulul Aplicabil și variabilelor calitative Ignoră majoritatea datelor din serie
Media
geometrică
Aplicabilă datelor asimetrice spre dreapta Adecvată dacă logaritmarea datelor
produce o distribuție normală
Media
ponderată
Cuantifică importanța relativă a fiecărei
observații
Ponderile trebuie să fie cunoscute sau
estimate
Parametrii de centralitate
o Dispersie relativ la parametrul de centralitate
o Datele sunt cu atât mai dispersate cu cât valorile seriei sunt mai diferite unele
față de altele
10/31/2020
13
Parametrii de dispersie
Care din cele două metode e mai precisă?
oDatele sunt cu atât mai dispersate cu cât valorile seriei sunt mai diferite
unele față de altele, respectiv față de valoarea centrală
10/31/2020
14
Parametrii de dispersie
AmplitudineaCvartile
PercentileVariația
Deviația standard
Coeficientul de variație
Eroarea standard
10/31/2020 15
Parametrii de dispersie: Amplitudinea
A = Xmax – Xmin
o Metoda 1: A = 221-144 = 77o Metoda 2: A = 205-195 = 10
o Consideră exclusiv valorile extremeo Nu oferă informații cu privire la distribuția
datelor între valorile extreme0
2
4
6
8
10
12
14
16
0 10 20 30 40 50 60 70 80 90 100
Fre
cvența
ab
solu
tă
Scor
M F
10/31/2020 16
Parametrii de dispersie: cvartile
IC = Q3 – Q1
unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila 25%)IC = intervalul cvartilic
Măsură a dispersiei pentru 50% din datele de mijloc.
10/31/2020 17
Variabila:
note la
examenul
practic
Me=[X12/2+X(12/2+1)]/2 = (X6+X7)/2 = (8+8)/2 = 8
Me=8
Ord
on
are
Q3
–Q
1=
9 –
5.5
= 3
.5
A =
10
–4
= 6
Formule Excel:
(Mediana) Me:
=MEDIAN(B1:B12)
(Intervalul dintre cvartila 3 şi 1) IC:
=QUARTILE(B1:B12,3)-QUARTILE(B1:B12,1)
(Amplitudinea) A:
=MAX(B1:B12)-MIN(B1:B12)
Parametrii de dispersie: cvartile
10/31/2020 18
Variabila: note la examenul practic
Me=8Q
3–
Q1
= 9
–5
.5 =
3.5
A =
10
–4
= 6
A: Diferenţa dintre nota maximă şi nota minimă a fost
de 6 puncte
Q1: 25% din studenţi au note ≤ 5.5Q3: 75% din studenţi au note ≤ 9IC: 50% din studenţi au note care nu diferă una faţă de alta cu mai
mult de 3,5 puncte
Parametrii de dispersie: cvartile
o Populație
10/31/2020 19
Parametrii de dispersie: variația și deviația standard
o Eșantion
σ2 =σ𝑖=1𝑁 (𝑥𝑖 − μ)2
𝑁𝑠2 =
σ𝑖=1𝑛 (𝑥𝑖 − ത𝑋)2
𝑛 − 1
σ = σ2 =σ𝑖=1𝑁 (𝑥𝑖 − μ)2
𝑁s = s2 =
σ𝑖=1𝑛 (𝑥𝑖 − ത𝑋)2
𝑛 − 1
10/31/2020 20
Parametrii de dispersie: media și deviația standard
o s ↓ ⟶ datele seriei au valori apropiate de ale mediei
o s ↑ ⟶ datele seriei sunt depărtate faţă de valoarea mediei
10/31/2020
21
Parametrii de dispersie: media și deviația standard
1. Care din grupurile de mai jos prezintă o compozie a culorilor mai diversă?
2. Care din grupurile de mai jos prezintă o variabilitate mai mare a orelor de utilizare?
10/31/2020 22
Parametrii de dispersie: Variabilitate vs. Diversitate
Grup 1➔ s = 15,81
Grup 2 ➔ s = 21,91
o Dispersie relativăo Nu are unitate de măsurăo Se calculează doar pentru variabilele cantitative de tip raţie care iau doar valori pozitiveo Compararea variabilităţii a două populaţii când unităţile de măsură sunt diferite (mg/dL
vs mmol/L – colesterol)
10/31/2020 23
Parametrii de dispersie: coeficientul de variație
𝐶𝑉(%) =𝑠
ത𝑋× 100 𝐶𝑄𝑉(%) =
𝑄3 − 𝑄1𝑄3 + 𝑄1
× 100
OmogenRelative omogen
Relativ eterogen
Eterogen
10/31/2020 24
o Se dorește evaluarea variabilității presiunii arteriale sistolice (PAS) comparativ cu cea a
indicelui de masă corporală (IMC). Datele aparținând la 10 subiecți sunt redate în
tabelul de mai jos:
o PAS: CV(%) = 36,58/144×100 = 25,40
o IMC: CV(%) = 3,8/25×100 = 15,20
Parametrii de dispersie: coeficientul de variație
1 2 3 4 5 6 7 8 9 10
PAS (mmHg) 220 182 100 130 120 100 140 160 120 160
IMC (kg/m2) 28 30 21 27 25 20 30 25 24 20
100 220
120
130
140
182
100
120
160
160
20
20
21
24
25
25
27
28 30
30
SEM (standard error of the mean)
o Indicator al acurateţii mediei: SEM = s/√n
oRelaţie invers proporţională dintre volumul eşantionului şi SEM
10/31/2020
25
Parametrii de dispersie: eroarea standard
25
10/31/2020
26
Parametrii de dispersie
Estimator Avantaj Dezavantaj
Amplitudinea Ușor de calculat Utilizează doar datele a două observațiiInfluențată de valori extremeTinde să aibă valoare mai mare odată cu creșterea volumului eșantionului
IC Neafectată de valorile extremeIndependentă de volumul eșantionuluiAdecvată pentru date cu distribuție asimetrică
Dificil de calculatNeadecvată pentru eșantioane miciUtilizează doar două observații
Variația Utilizează toate datele seriei statistice Influențată de valorile extremeNeadecvată pentru datele asimetrice
Deviația standard
Utilizează toate datele seriei statisticeUnitatea de măsură este identică cu cea a datelor bruteSe interpretează ușor
Influențată de valorile extremeNeadecvată pentru datele asimetrice
CV Independent de unitățile de măsurăPermite compararea serilor statistice cu diferite unități de măsură
Media aproape de zero → CV se apropie de infinitfiind sensibil la modificări mici ale mediei
26
Intepretarea [Bulmer MG, Principles of Statistics, Dover, 1979] – aplicată populației
o Asimetria <−1 sau > +1 →
distribuție înalt asimetrică
o (-1; -0,5] sau [0,5; 1)→moderat
asimetrică
o (-0,5; 0,5) → aproximativ
simetrică
10/31/2020 27
Asimetrie < 0 Asimetrie > 0Asimetrie = 0
Parametrii de simetrie și boltire
10/31/2020
28
Asimetrie negativă
Modulul > Mediana > Media
2
45
10 1011
8
0
2
4
6
8
10
12
14
4 5 6 7 8 9 10
Nu
măr
su
bie
cți
Scor durere (10 = durere insuportabilă)
Direcţie negativă
media
mediana
modulul
Parametrii de simetrie și boltire
22
33
15 1411
86
42
0
5
10
15
20
25
30
35
40
Nu
măr
su
bie
cți
Clase de venit (lei)
Direcţie pozitivă
media
mediana modulul
Asimetrie pozitivă
Modulul < Mediana < Media
o Distribuția normală are boltirea înjurul valorii 3.
o Excesul de boltire (funcția KURT) = (Boltire – 3)
o Distribuția normală: boltirea ≅ 3 (excesul de boltire ≅ 0) →mezocurtic
o Distribuția cu boltirea <3 (excesulde boltire < 0) 0) → platicurtică
o Distribuția cu boltirea >3 (excesulde boltire >0) 0) → leptocurtică
10/31/2020 29
Parametrii de simetrie și boltire
Examinarea simetriei unei distribuții cu ajutorul cvartilelor
o Q2-Q1 ≈ Q3-Q2 (≈ aproape egal) → distribuția este aproximativ simetrică
o Q2-Q1 ≠ Q3-Q2 → distribuția este asimetrică
10/31/2020 30
Parametrii de simetrie și boltire
o Q1 = 3,03
o Q2 = 3,43
o Q3= 4,15
2,80 2,97 3,05 3,25 3,40 3,45 3,80 4,10 4,30 4,40
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
Cum interpretăm acest rezultat?
Q2-Q1= 3,43 – 3,03 = 0,40
Q3-Q2 = 4,15 – 3,43 = 0,72
o Datele calitative se sumarizează ca:
o proporții, rate, rapoarte
o metrica de centralitate? modulul
o Datele de tip interval/rație se sumarizează ca
o medie ± deviație standard dacă urmează distribuția normală
o mediană și interval cvartilic dacă nu urmează distribuția normală (aplicat și pentru atele calitative scala ordinală)
o Dacă datele urmează distribuția normală, mă aștept ca
o media ≈ mediana ≈ modulul
o asimetria și boltirea ∈ (-0,5; +0,5)
10/31/2020 31
10/31/2020 32
Tip Scala de măsură Indicator centralitate Indicator dispersie
Calitativ Nominal Modulul
Ordinal MedianaModulul
Valoarea minimă și maximăAmplitudineaIntervalul cvartilic
Cantitativ Interval/rație MediaMedianaModulul
VariațiaDeviația standardAmplitudineIntervalul cvartilic
10/31/2020 33