1
Analiza moči in
velikost učinka
Doktorski študij Humanistika in družboslovje, psihološke smeri
Raziskovalna metodologija v psihologiji
Izr. prof. dr. Anja Podlesek
Kakšno moč ima naš test?
Kako velik naj bo vzorec?
Na vzorcu izračunamo statistiko, da bi ocenili
populacijski parameter. Zaradi napake vzorčenja
je statistika le redko enaka parametru.
Večji kot je N, manjša je napaka vzorčenja oz.
bolj natančna je ocena parametra.
Kako velik naj bo N, da bo napaka vzorčenja
zadovoljivo majhna in da ne bomo za zbiranje
podatkov potrošili preveč?
Analiza moči in ocena velikosti vzorca
2
Testiranje ničelne hipoteze (NHST)
“Fisherjanski” pristop:
Kako močno statistika odstopa od vrednosti H0?
Kakšen je p?
Pristop Neymana in Pearsona
(= Reject-Support Testing):
Postavimo H0 in H1.
Če statistika pade v območje kritične a (vnaprej
določene), je verjetnost pravilnosti H0 nizka, zato jo
zavrnemo in sprejmemo H1.
Poudarek tega pristopa je na izogibanju a napaki.
Iz: Marewski, J. N. in Olson, H. (2009). Beyond the null ritual: Formal modeling of psychological processes. Zeitschrift für Psychologie, 217(1), 49-60. doi: 10.1027/0044-3409.217.1.49
3
Testiranje ničelne hipoteze (NHST) Problemi:
Moč testa je pogosto prenizka, da bi sploh lahko zavrnili nepravilno H0.
Binarnost odločitve o statistični pomembnosti
Navadno, a ne povsem upravičeno, večji poudarek dajemo a kot b napaki.
Poljubnost a
Statistična pomembnost vs. praktična pomembnost: p ni odvisen le od učinka q, pač pa tudi od N
odnos med q in p ni linearen
Včasih je težko nabrati dovolj velik N (denimo v klinični y).
Po drugi strani je včasih moč testa tako visoka (velik N), da H0 skoraj v vsakem primeru zavrnemo. To je problem predvsem pri accept-support testiranjih, kjer bi želeli sprejeti H0 za potrditev teorije (denimo sprejeti hipotezo, da nek model dobro predstavlja podatke).
Bonferronijev problem oz. problem multiplih analiz Verjetnost, da bomo zavrnili vsaj eno H0, če preverjamo več H0 hkrati, je
1 - (1-a)k, pri čemer je k število neodvisnih H0 in je (1-a)k verjetnost, da bomo zavrnili vse H0.
Bonferronijev popravek: αc = α/k
Priporočila APA
Pri objavi rezultatov je potrebno:
natančno poročati o vseh problemih, ki so se pojavili med zbiranjem podatkov (npr. o manjkajočih podatkih ali osamelcih), s priporočili za preprečitev njihovega ponovnega pojavljanja;
zbrati preproste in parsimonične analize, ne pa sofisticiranih metod, če k znanju te le malo dodajo;
odpovedati se dihotomni izbiri med sprejetjem in zavrnitvijo H0 ter podati le vrednost p,
še bolje pa je podati intervale zaupanja in indekse velikosti učinka
pri prikazovanju rezultatov uporabljati slike z grafično predstavitvijo intervalov zaupanja.
analizirati moč testa.
4
Velikost učinka
Vsak statistični test ima svoj indeks velikosti
učinka (ES – population effect size).
Nestandardizirani indeksi
Kadar je merska lestvica pomembna, npr. število
cigaret na dan, uporabljamo absolutne mere ES, npr.
povprečno razliko ali regresijski koeficient b.
Standardizirani indeksi
So od lestvice neodvisni in zvezni.
vrednosti od 0 navzgor (H0: ES = 0)
Uporabni so v metaanalizah (relativne mere, ki so
neodvisne od lestvice, razpršitve in N).
Velikost učinka
8
θ =μ1 − μ2
σ
5
Velikost učinka
9
θ =μ1 − μ2
σ
Učinek d N
Majhen 0,20 393
Srednji 0,50 64
Velik 0,80 26
Velikost vzorca, pri kateri bo 1-b = 0,80 pri a = 0,05
Mere velikosti učinka
Mere, ki temeljijo na sredinah
Analiziramo razliko med povprečji. Pri H0
je razlika ničelna.
Dva neodvisna vzorca:
Mere temeljijo na standardiziranih
razlikah med povprečji.
Cohenov d
Za en vzorec: d = M / s
Za dva neodvisna vzorca:
Pri homogenih variancah v imenovalec
vstavimo s ene od skupin, pri
nehomogenih pa združeno s (pooled SD):
d = (M1 - M2) / sskupna
Za dva odvisna vzorca: d = Mrazlik / srazlik
Hedgesov g
Glassov D
kontr
kontreksp
21
21
zn
21
napaka
21
21
21
c
21
2
22
2
11
21
21
σ
/MS
? ,1
94
31
11
σ
MM
nn
nntg
dfN
dMMg
df
Fd
nndf
nntd
nndd
nn
snsn
MMd
MMd
D
Popravek za majhne vzorce
Pri neenakih variancah
6
Mere velikosti učinka
Mere, ki temeljijo na sredinah
Dva odvisna vzorca:
Cohenov d – enačba s t ali F za ponovljene meritve
Cohenov f
Drugi indeksi velikosti učinka
Cohenov q - razlike med koeficienti korelacije
Cohenov h – razlike med proporci
Indeks w – preverjanje prileganja porazdelitve in pri analizi kontingenčnih tabel
Indeks f – razširitev indeksa d na primere, v katerih imamo več kot dve skupini (ANOVO)
Indeks f2 – velikost učinka v multipli regresiji in ANOVI
21
2
2
2
1
21
razlik
razlik
σ2rσσσσ
μ
MMf
2
22
napaka
k
1i
2
i
m
1i i0
2
0i1i
21
1 variancerezidualne delez
ucinka variancedelez
σ
k
μμ
sin arcsin arc
21
R
Rf
f
p
ppw
pph
zzq rr
Mere velikosti učinka
Mere povezanosti Korelacija:
Koeficienti korelacije so mera velikosti učinka.
Bravais-Pearsonov r, rpb, f iz vrednosti t ali c2
r iz Cohenovega d in Hedgesovega g (glej Bachmann, Luccio in Salvadori, 2005)
V kontingenčnih tabelah: Pearsonov koeficient
kontingence C (0 do 1)
Fi koeficient
Cramerjev f oz. V
OR (odds ratio) in
RR (relative risk)
1,min
χ
χ
χ
χ
)1(χ
2
2
2
2
2
2
2
VSNV
N
NC
dft
tr
Nr
f
7
Mere velikosti učinka
Mere povezanosti
odstotek pojasnjene variance OV Pri regresiji: determinacijski koeficient r2
Pri ANOVI:
eta kvadrat (η2) in delni eta kvadrat (ηp2)
Sta oceni stopnje povezanosti, računane na vzorcu.
Odvisna sta od števila in velikosti ostalih učinkov.
omega kvadrat (ω2)
Temelji na ocenah populacijskih parametrov.
Samo za načrte z neponovljenimi meritvami.
intraklasna korelacija (ρi)
ocenjuje povezanost med NV in OV v populaciji za model naključnih učinkov; ocenjuje delež variance med skupinami; http://en.wikipedia.org/wiki/Intraclass_correlation
napakaucinekucinek
napakaucinek
I
2
napakaucinek
ucinek2
p
tot
ucinek2
tot
ucinek2
ρ
)1)(1(
)1)(1(ω
η
η
MSdfMS
MSMS
knFk
Fk
SSSS
SS
SS
SS
SS
SSr
Interpretacija velikosti učinka
Za posamezne mere velikosti učinka lahko izračunamo pričakovano vrednost, varianco in interval zaupanja (za necentralne parametre).
Cohen (konvencija od 1977 dalje):
majhen, srednji, velik ES
srednji ES je razviden že “na oko” (povprečen efekt na različnih področjih); majhen je manjši od tega, a še vedno netrivialen; velik je enako večji od srednjega, kot je majhen od srednjega manjši.
8
Interpretacija velikosti učinka
Vir tabele: Cohen, J. (1992). A power primer. Psychological Bulletin, 112(1), 155-159.
5. c2(1)
7. sm … SD sredin skupin (f je koren w2)
Interpretacija velikosti učinka
Ob Cohenovem predlogu moramo biti previdni.
Indeksi so relativni in njihove opredelitve (kot majhen/srednji/velik ES) ne smemo jemati kot definicijo pojava.
Interpretacija naj bi temeljila tudi na rezultatih predhodnih študij in naj ne bi bila rigidna.
Cohen (1988): interpretacija na osnovi prekrivanja porazdelitev dosežkov dveh vzorcev (eksperimentalnega in kontrolnega)
9
Interpretacija velikosti učinka
Cohenov d
d
% ene skupine
pod sredino
druge skupine
% neprekrivanja
0,0 50 0
0,2 58 14,7
0,4 66 27,4
0,6 73 38,2
0,8 79 47,4
1,0 84 55,4
1,5 93,3 70,7
2,0 97,7 81,1
Intervali zaupanja Včasih želimo vedeti zgolj,
kakšen je učinek, ne, ali je pomembno različen od 0.
p-jev v različnih raziskavah ne moremo direktno primerjati (razlike v N).
Pri preverjanju ustreznosti modelov (“accept-support” testiranju) se ni smiselno zanašati na a.
Intervali zaupanja
Z njimi lahko tudi testiramo hipoteze učinek je statistično pomemben, če IZ ne zajema 0.
Vir: StatSoft; http://www.statsoft.com/textbook/stathome.html
10
Intervali zaupanja Intervalna ocena
Parameter
Točkovna ocena
Standardna napaka
vzorčne distribucije Majhni vzorci Veliki vzorci
Aritmetična
sredina
M SEN
M s
M SE tM
M SE zM
Standardna
deviacija
1'
1'
2
2
N
NSD
N
XX
s
s
SEN
s
s
2
ocena spodnje meje:
2
22 1
p
sp
N
c
ss
df = N-1
ocena zgornje meje:
2
1
22 1
p
zg
N
c
ss df = N-1
zSEss
Delež
p
SE
p p
Np 1
ocena spodnje meje:
p
p
sppp
p
sp
ndf
nndf
Fnnn
np
2
12
1
100
2
1
ocena zgornje meje:
p
p
zgpp
zgp
zg
nndf
ndf
Fnnn
Fnp
2
12
1
1100
2
1
p SE zp
Korelacijski
koeficient
r
SENzr
1
3
z SE zr zr
z SE zr zr
Intervali zaupanja
Pri ANOVI – IZ za RMSSE (Root Mean
Square Standardized Effect), ki kaže skupno
raven učinkov in je kvadratni koren vsote
kvadriranih standardiziranih učinkov, deljen s
številom prostostnih stopenj za učinek.
Pri multipli regresiji – IZ za R2
Problemi za uporabo IZ:
Pogosto so IZ zelo veliki.
Izračun intervala je ustrezen le ob
določenih predpostavkah.
metode prevzorčenja (npr. bootstrap)
11
Analiza statistične moči
Odnos med štirimi spremenljivkami:
velikostjo vzorca (N),
kriterijem statistične pomembnosti (a)
velikostjo učinka v populaciji (ES)
statistično močjo.
Vsaka spremenljivka je funkcija preostalih treh. Npr., za vsak statistični test lahko določimo moč pri danih a, ES in N. Za načrtovanje raziskave je najbolj koristno določanje N, potrebnega za določeno moč ob določenih a in ES.
Kriterij statistične pomembnosti a
Je verjetnost (tveganje), da bomo pri zavrnitvi Ho
naredili napako tipa I.
Navadno izberemo a = ,05.
Multipli testi:
Če testiramo več H0, je priporočljivo, da izberemo a =
,01 za vsako hipotezo, da se izognemo preveliki
skupni a (Cohen, 1992).
Uporaba drugih vrst nadzora a napake (npr.
Bonferronijev popravek, uporaba določenih testov, kot
je npr. Sidakov test)
12
Moč testa
Je “dolgoročna” verjetnost zavrnitve H0 pri
določenem ES, a in N.
Napaka tipa II ali b napaka = če ne uspemo
zavrniti H0, ko je ta napačna (ko je ES različen
od 0). Tudi verjetnost b napake naj bi bila, tako
kot verjetnost a napake, čim manjša.
Moč testa = 1 – b verjetnost zavrnitve
nepravilne H0 oz. verjetnost prepoznave učinka,
kadar pride do njega) naj bi bila čim višja.
z
zkrit. zkrit.
z
zkrit. zkrit.
dejansko stanje
ničelna hipoteza
Moč testa
b napaka
Moč testa
a napaka
Zavrnitev H0
13
Moč testa
Najpogosteje se odločimo, naj bo moč testa
enaka ,80.
Pri a ,05 in moči ,80: 1
4
α
β
zkrit. zkrit.
b napaka Moč testa
Oz. zavrnitev ničelne hipoteze zaradi napake je štirikrat hujša od njenega zmotnega sprejetja.
Zavrnitev H0
a napaka
Moč testa
Na moč testa vpliva:
Velikost učinka tudi velikost napak
merjenja
Izbira statističnega
testa neparametrični testi
imajo nižjo moč
Izbrana a tudi usmerjenost H0
Velikost vzorca 27
14
Analiza statistične moči
A priori analiza moči: uporabljamo jo za določitev velikosti
vzorca, ki je potrebna za določeno moč testa.
A posteriori analizo moči uporabljamo, da bi ugotovili,
kakšna je bila moč testa, ki smo ga uporabili.
Uporabljamo posebne tabele oz. statistične programe, npr.
www.Power-Analysis.com (plačljiv)
http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3
(prosto dostopen)
http://davidmlane.com/hyperstat/Statistical_analyses.html#power
(povezave do prosto dostopnih programov)
SPSS nudi a posteriorne analize za GLM + poseben modul
Sample Power
Analiza statistične moči
GPower
15
A priori analiza moči
Pri načrtovanju raziskave moramo vedeti,
kakšen N potrebujemo, da bomo dosegli
določeno moč testa za določeno a in ocenjeni
ES.
Določitev ES je najtežji del a priori analize moči,
ker slabo poznamo pojave.
Potrebna velikost vzorca
Vir tabele: Cohen, J. (1992). A power primer. Psychological Bulletin, 112(1), 155-159.
Primer: r = ,30 a = ,05 1-b = ,80
N = 85
Če pri takem ali večjem N t ni statistično pomemben, je ali r manjši od ,30 ali pa
smo imeli smolo in je prišlo do b napake (ki je bila 20 %
verjetna).
16
Grafični pristop k analizi moči
V grafični analizi združimo različne dejavnike:
Moč testa vs. N (pri različnih q)
Vir: StatSoft; http://www.statsoft.com/textbook/stathome.html
Grafični pristop k analizi moči
V grafični analizi združimo različne dejavnike:
N vs. q
Vir: StatSoft; http://www.statsoft.com/textbook/stathome.html
17
Koraki pri analizi moči in oceni
velikosti vzorca
Določimo tip analize in H0.
Pregledamo moč in zahtevani N za smiseln razpon učinkov.
Izračunamo velikost vzorca, s katero bomo lahko z določeno smiselno ravnjo moči detektirali smiselno velik učinek (tj., odstopanje od H0) ob dopuščeni smiselni vrednosti napake (upoštevati pa moramo tudi veljavnost in zanesljivost merskega pripomočka, raznolikost merjenega pojava in druge kontekstne dejavnike).
Literatura Bachmann, C., Luccio, R., & Salvadori, E. (2005). Statistična
pomembnost in njen pomen [Statistical significance and its meaning]. Psihološka obzorja, 14(3), 7–40.
Cankar, G., & Bajec, B. (2003). Velikost učinka kot dopolnilo testiranju statistične pomembnosti razlik. Psihološka obzorja, 12(2), 97–112.
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2. izd.). Mahwah, NJ: Lawrence Erlbaum Associates.
Cohen, J. (1992). A power primer. Psychological Bulletin, 112(1), 155–159.
Cohen, J. (1994). The earth is round (p < .05). American Psychologist, 49(12), 997–1003.
http://en.wikipedia.org/wiki/Effect_size