Analiza moči in velikost učinka - University of...

1

Analiza moči in

velikost učinka

Doktorski študij Humanistika in družboslovje, psihološke smeri

Raziskovalna metodologija v psihologiji

Izr. prof. dr. Anja Podlesek

Kakšno moč ima naš test?

Kako velik naj bo vzorec?

Na vzorcu izračunamo statistiko, da bi ocenili

populacijski parameter. Zaradi napake vzorčenja

je statistika le redko enaka parametru.

Večji kot je N, manjša je napaka vzorčenja oz.

bolj natančna je ocena parametra.

Kako velik naj bo N, da bo napaka vzorčenja

zadovoljivo majhna in da ne bomo za zbiranje

podatkov potrošili preveč?

Analiza moči in ocena velikosti vzorca

2

Testiranje ničelne hipoteze (NHST)

“Fisherjanski” pristop:

Kako močno statistika odstopa od vrednosti H0?

Kakšen je p?

Pristop Neymana in Pearsona

(= Reject-Support Testing):

Postavimo H0 in H1.

Če statistika pade v območje kritične a (vnaprej

določene), je verjetnost pravilnosti H0 nizka, zato jo

zavrnemo in sprejmemo H1.

Poudarek tega pristopa je na izogibanju a napaki.

Iz: Marewski, J. N. in Olson, H. (2009). Beyond the null ritual: Formal modeling of psychological processes. Zeitschrift für Psychologie, 217(1), 49-60. doi: 10.1027/0044-3409.217.1.49

3

Testiranje ničelne hipoteze (NHST) Problemi:

Moč testa je pogosto prenizka, da bi sploh lahko zavrnili nepravilno H0.

Binarnost odločitve o statistični pomembnosti

Navadno, a ne povsem upravičeno, večji poudarek dajemo a kot b napaki.

Poljubnost a

Statistična pomembnost vs. praktična pomembnost: p ni odvisen le od učinka q, pač pa tudi od N

odnos med q in p ni linearen

Včasih je težko nabrati dovolj velik N (denimo v klinični y).

Po drugi strani je včasih moč testa tako visoka (velik N), da H0 skoraj v vsakem primeru zavrnemo. To je problem predvsem pri accept-support testiranjih, kjer bi želeli sprejeti H0 za potrditev teorije (denimo sprejeti hipotezo, da nek model dobro predstavlja podatke).

Bonferronijev problem oz. problem multiplih analiz Verjetnost, da bomo zavrnili vsaj eno H0, če preverjamo več H0 hkrati, je

1 - (1-a)k, pri čemer je k število neodvisnih H0 in je (1-a)k verjetnost, da bomo zavrnili vse H0.

Bonferronijev popravek: αc = α/k

Priporočila APA

Pri objavi rezultatov je potrebno:

natančno poročati o vseh problemih, ki so se pojavili med zbiranjem podatkov (npr. o manjkajočih podatkih ali osamelcih), s priporočili za preprečitev njihovega ponovnega pojavljanja;

zbrati preproste in parsimonične analize, ne pa sofisticiranih metod, če k znanju te le malo dodajo;

odpovedati se dihotomni izbiri med sprejetjem in zavrnitvijo H0 ter podati le vrednost p,

še bolje pa je podati intervale zaupanja in indekse velikosti učinka

pri prikazovanju rezultatov uporabljati slike z grafično predstavitvijo intervalov zaupanja.

analizirati moč testa.

4

Velikost učinka

Vsak statistični test ima svoj indeks velikosti

učinka (ES – population effect size).

Nestandardizirani indeksi

Kadar je merska lestvica pomembna, npr. število

cigaret na dan, uporabljamo absolutne mere ES, npr.

povprečno razliko ali regresijski koeficient b.

Standardizirani indeksi

So od lestvice neodvisni in zvezni.

vrednosti od 0 navzgor (H0: ES = 0)

Uporabni so v metaanalizah (relativne mere, ki so

neodvisne od lestvice, razpršitve in N).

Velikost učinka

8

θ =μ1 − μ2

σ

5

Velikost učinka

9

θ =μ1 − μ2

σ

Učinek d N

Majhen 0,20 393

Srednji 0,50 64

Velik 0,80 26

Velikost vzorca, pri kateri bo 1-b = 0,80 pri a = 0,05

Mere velikosti učinka

Mere, ki temeljijo na sredinah

Analiziramo razliko med povprečji. Pri H0

je razlika ničelna.

Dva neodvisna vzorca:

Mere temeljijo na standardiziranih

razlikah med povprečji.

Cohenov d

Za en vzorec: d = M / s

Za dva neodvisna vzorca:

Pri homogenih variancah v imenovalec

vstavimo s ene od skupin, pri

nehomogenih pa združeno s (pooled SD):

d = (M1 - M2) / sskupna

Za dva odvisna vzorca: d = Mrazlik / srazlik

Hedgesov g

Glassov D

kontr

kontreksp

21

21

zn

21

napaka

21

21

21

c

21

2

22

2

11

21

21

σ

/MS

? ,1

94

31

11

σ

MM

nn

nntg

dfN

dMMg

df

Fd

nndf

nntd

nndd

nn

snsn

MMd

MMd

D

Popravek za majhne vzorce

Pri neenakih variancah

6


Mere, ki temeljijo na sredinah

Dva odvisna vzorca:

Cohenov d – enačba s t ali F za ponovljene meritve

Cohenov f

Drugi indeksi velikosti učinka

Cohenov q - razlike med koeficienti korelacije

Cohenov h – razlike med proporci

Indeks w – preverjanje prileganja porazdelitve in pri analizi kontingenčnih tabel

Indeks f – razširitev indeksa d na primere, v katerih imamo več kot dve skupini (ANOVO)

Indeks f2 – velikost učinka v multipli regresiji in ANOVI

21

2

2

2

1

21

razlik

razlik

σ2rσσσσ

μ

MMf

2

22

napaka

k

1i

2

i

m

1i i0

2

0i1i

21

1 variancerezidualne delez

ucinka variancedelez

σ

k

μμ

sin arcsin arc

21

R

Rf

f

p

ppw

pph

zzq rr


Mere povezanosti Korelacija:

Koeficienti korelacije so mera velikosti učinka.

Bravais-Pearsonov r, rpb, f iz vrednosti t ali c2

r iz Cohenovega d in Hedgesovega g (glej Bachmann, Luccio in Salvadori, 2005)

V kontingenčnih tabelah: Pearsonov koeficient

kontingence C (0 do 1)

Fi koeficient

Cramerjev f oz. V

OR (odds ratio) in

RR (relative risk)

1,min

χ

χ

χ

χ

)1(χ

2

2

2

2

2

2

2

VSNV

N

NC

dft

tr

Nr

f

7


Mere povezanosti

odstotek pojasnjene variance OV Pri regresiji: determinacijski koeficient r2

Pri ANOVI:

eta kvadrat (η2) in delni eta kvadrat (ηp2)

Sta oceni stopnje povezanosti, računane na vzorcu.

Odvisna sta od števila in velikosti ostalih učinkov.

omega kvadrat (ω2)

Temelji na ocenah populacijskih parametrov.

Samo za načrte z neponovljenimi meritvami.

intraklasna korelacija (ρi)

ocenjuje povezanost med NV in OV v populaciji za model naključnih učinkov; ocenjuje delež variance med skupinami; http://en.wikipedia.org/wiki/Intraclass_correlation

napakaucinekucinek

napakaucinek

I

2

napakaucinek

ucinek2

p

tot

ucinek2

tot

ucinek2

ρ

)1)(1(

)1)(1(ω

η

η

MSdfMS

MSMS

knFk

Fk

SSSS

SS

SS

SS

SS

SSr

Interpretacija velikosti učinka

Za posamezne mere velikosti učinka lahko izračunamo pričakovano vrednost, varianco in interval zaupanja (za necentralne parametre).

Cohen (konvencija od 1977 dalje):

majhen, srednji, velik ES

srednji ES je razviden že “na oko” (povprečen efekt na različnih področjih); majhen je manjši od tega, a še vedno netrivialen; velik je enako večji od srednjega, kot je majhen od srednjega manjši.

http://en.wikipedia.org/wiki/Intraclass_correlation

8


Vir tabele: Cohen, J. (1992). A power primer. Psychological Bulletin, 112(1), 155-159.

5. c2(1)

7. sm … SD sredin skupin (f je koren w2)


Ob Cohenovem predlogu moramo biti previdni.

Indeksi so relativni in njihove opredelitve (kot majhen/srednji/velik ES) ne smemo jemati kot definicijo pojava.

Interpretacija naj bi temeljila tudi na rezultatih predhodnih študij in naj ne bi bila rigidna.

Cohen (1988): interpretacija na osnovi prekrivanja porazdelitev dosežkov dveh vzorcev (eksperimentalnega in kontrolnega)

9


Cohenov d

d

% ene skupine

pod sredino

druge skupine

% neprekrivanja

0,0 50 0

0,2 58 14,7

0,4 66 27,4

0,6 73 38,2

0,8 79 47,4

1,0 84 55,4

1,5 93,3 70,7

2,0 97,7 81,1

Intervali zaupanja Včasih želimo vedeti zgolj,

kakšen je učinek, ne, ali je pomembno različen od 0.

p-jev v različnih raziskavah ne moremo direktno primerjati (razlike v N).

Pri preverjanju ustreznosti modelov (“accept-support” testiranju) se ni smiselno zanašati na a.

Intervali zaupanja

Z njimi lahko tudi testiramo hipoteze učinek je statistično pomemben, če IZ ne zajema 0.

Vir: StatSoft; http://www.statsoft.com/textbook/stathome.html

10

Intervali zaupanja Intervalna ocena

Parameter

Točkovna ocena

Standardna napaka

vzorčne distribucije Majhni vzorci Veliki vzorci

Aritmetična

sredina

M SEN

M s

M SE tM

M SE zM

Standardna

deviacija

1'

1'

2

2

N

NSD

N

XX

s

s

SEN

s

s

2

ocena spodnje meje:

2

22 1

p

sp

N

c

ss

df = N-1

ocena zgornje meje:

2

1

22 1

p

zg

N

c

ss df = N-1

zSEss

Delež

p

SE

p p

Np 1

ocena spodnje meje:

p

p

sppp

p

sp

ndf

nndf

Fnnn

np

2

12

1

100

2

1

ocena zgornje meje:

p

p

zgpp

zgp

zg

nndf

ndf

Fnnn

Fnp

2

12

1

1100

2

1

p SE zp

Korelacijski

koeficient

r

SENzr

1

3

z SE zr zr

z SE zr zr

Intervali zaupanja

Pri ANOVI – IZ za RMSSE (Root Mean

Square Standardized Effect), ki kaže skupno

raven učinkov in je kvadratni koren vsote

kvadriranih standardiziranih učinkov, deljen s

številom prostostnih stopenj za učinek.

Pri multipli regresiji – IZ za R2

Problemi za uporabo IZ:

Pogosto so IZ zelo veliki.

Izračun intervala je ustrezen le ob

določenih predpostavkah.

metode prevzorčenja (npr. bootstrap)

11

Analiza statistične moči

Odnos med štirimi spremenljivkami:

velikostjo vzorca (N),

kriterijem statistične pomembnosti (a)

velikostjo učinka v populaciji (ES)

statistično močjo.

Vsaka spremenljivka je funkcija preostalih treh. Npr., za vsak statistični test lahko določimo moč pri danih a, ES in N. Za načrtovanje raziskave je najbolj koristno določanje N, potrebnega za določeno moč ob določenih a in ES.

Kriterij statistične pomembnosti a

Je verjetnost (tveganje), da bomo pri zavrnitvi Ho

naredili napako tipa I.

Navadno izberemo a = ,05.

Multipli testi:

Če testiramo več H0, je priporočljivo, da izberemo a =

,01 za vsako hipotezo, da se izognemo preveliki

skupni a (Cohen, 1992).

Uporaba drugih vrst nadzora a napake (npr.

Bonferronijev popravek, uporaba določenih testov, kot

je npr. Sidakov test)

12

Moč testa

Je “dolgoročna” verjetnost zavrnitve H0 pri

določenem ES, a in N.

Napaka tipa II ali b napaka = če ne uspemo

zavrniti H0, ko je ta napačna (ko je ES različen

od 0). Tudi verjetnost b napake naj bi bila, tako

kot verjetnost a napake, čim manjša.

Moč testa = 1 – b verjetnost zavrnitve

nepravilne H0 oz. verjetnost prepoznave učinka,

kadar pride do njega) naj bi bila čim višja.

z

zkrit. zkrit.

z

zkrit. zkrit.

dejansko stanje

ničelna hipoteza

Moč testa

b napaka

Moč testa

a napaka

Zavrnitev H0

13

Moč testa

Najpogosteje se odločimo, naj bo moč testa

enaka ,80.

Pri a ,05 in moči ,80: 1

4

α

β

zkrit. zkrit.

b napaka Moč testa

Oz. zavrnitev ničelne hipoteze zaradi napake je štirikrat hujša od njenega zmotnega sprejetja.

Zavrnitev H0

a napaka

Moč testa

Na moč testa vpliva:

Velikost učinka tudi velikost napak

merjenja

Izbira statističnega

testa neparametrični testi

imajo nižjo moč

Izbrana a tudi usmerjenost H0

Velikost vzorca 27

14


A priori analiza moči: uporabljamo jo za določitev velikosti

vzorca, ki je potrebna za določeno moč testa.

A posteriori analizo moči uporabljamo, da bi ugotovili,

kakšna je bila moč testa, ki smo ga uporabili.

Uporabljamo posebne tabele oz. statistične programe, npr.

www.Power-Analysis.com (plačljiv)

http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3

(prosto dostopen)

http://davidmlane.com/hyperstat/Statistical_analyses.html#power

(povezave do prosto dostopnih programov)

SPSS nudi a posteriorne analize za GLM + poseben modul

Sample Power


GPower

http://www.power-analysis.com/






http://davidmlane.com/hyperstat/Statistical_analyses.html

15

A priori analiza moči

Pri načrtovanju raziskave moramo vedeti,

kakšen N potrebujemo, da bomo dosegli

določeno moč testa za določeno a in ocenjeni

ES.

Določitev ES je najtežji del a priori analize moči,

ker slabo poznamo pojave.

Potrebna velikost vzorca

Vir tabele: Cohen, J. (1992). A power primer. Psychological Bulletin, 112(1), 155-159.

Primer: r = ,30 a = ,05 1-b = ,80

N = 85

Če pri takem ali večjem N t ni statistično pomemben, je ali r manjši od ,30 ali pa

smo imeli smolo in je prišlo do b napake (ki je bila 20 %

verjetna).

16

Grafični pristop k analizi moči

V grafični analizi združimo različne dejavnike:

Moč testa vs. N (pri različnih q)


Grafični pristop k analizi moči

V grafični analizi združimo različne dejavnike:

N vs. q


17

Koraki pri analizi moči in oceni

velikosti vzorca

Določimo tip analize in H0.

Pregledamo moč in zahtevani N za smiseln razpon učinkov.

Izračunamo velikost vzorca, s katero bomo lahko z določeno smiselno ravnjo moči detektirali smiselno velik učinek (tj., odstopanje od H0) ob dopuščeni smiselni vrednosti napake (upoštevati pa moramo tudi veljavnost in zanesljivost merskega pripomočka, raznolikost merjenega pojava in druge kontekstne dejavnike).

Literatura Bachmann, C., Luccio, R., & Salvadori, E. (2005). Statistična

pomembnost in njen pomen [Statistical significance and its meaning]. Psihološka obzorja, 14(3), 7–40.

Cankar, G., & Bajec, B. (2003). Velikost učinka kot dopolnilo testiranju statistične pomembnosti razlik. Psihološka obzorja, 12(2), 97–112.

Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2. izd.). Mahwah, NJ: Lawrence Erlbaum Associates.

Cohen, J. (1992). A power primer. Psychological Bulletin, 112(1), 155–159.

Cohen, J. (1994). The earth is round (p < .05). American Psychologist, 49(12), 997–1003.

http://en.wikipedia.org/wiki/Effect_size

Date post:	30-Apr-2020
Category:	Documents
Upload:	others
View:	5 times
Download:	0 times

Analiza moči in velikost učinka - University of...

Documents