+ All Categories
Home > Documents > Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda...

Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda...

Date post: 13-Feb-2020
Category:
Upload: others
View: 0 times
Download: 0 times
Share this document with a friend
41
Pokroˇ cil´ e statistick´ e metody Filip Zl´ amal Opakov´ an´ ı Anal´ yza rozptylu (ANOVA) Kontingenˇ cn´ ı tabulky Anal´ yza reˇ zit´ ı Shlukov´ a anal´ yza Pokroˇ cil´ e statistick´ e metody Filip Zl´ amal ´ Ustav patologick´ e fyziologie LF MU 22.–25. 4. 2014 Filip Zl´ amal ( ´ Ustav patologick´ e fyziologie LF MU) Pokroˇ cil´ e statistick´ e metody 22.–25. 4. 2014 1 / 41
Transcript
Page 1: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Pokrocile statisticke metody

Filip Zlamal

Ustav patologicke fyziologie LF MU

22.–25. 4. 2014

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 1 / 41

Page 2: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Obsah

1 Opakovanı

2 Analyza rozptylu (ANOVA)

3 Kontingencnı tabulky

4 Analyza prezitı

5 Shlukova analyza

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 2 / 41

Page 3: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Opakovanı

PRINCIP STATISTICKE INDUKCE

TESTOVANI HYPOTEZ- k overenı predem stanovenych hypotez- H0 : µ1 = µ2 × H1 : µ1 6= µ2

- testovanı ⇒ bud’ H0 zamıtneme, nebo H0 nezamıtneme

H0 nezamıtneme H0 zamıtneme

H0 platı OK chyba I. druhu (α)H0 neplatı chyba II. druhu (β) OK

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 3 / 41

Page 4: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Analyza rozptylu (ANOVA)

MotivaceDvouvyberovy t–test

POUZITI: porovnanı strednıch hodnot dvou souboru

PREDPOKLADY: nezavislost, normalita, homoskedasticita (shodarozptylu)

overenı normality: exaktne (Shapiro-Wilk, Kolmogorov-Smirnov), N–Pgrafyoverenı homoskedasticity: F-test

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 4 / 41

Page 5: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Analyza rozptylu (ANOVA)

MotivaceDvouvyberovy t–test - prıklad

Normalita Krabicove grafy

t-test

⇒ zamıtame hypotezu o shode strednıch hodnot na hladine vyznamnostiα = 0, 05

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 5 / 41

Page 6: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Analyza rozptylu (ANOVA)

Analyza rozptylu - rozsırenı t–testu

z angl. ANalysis Of VAriance

POUZITI: porovnava strednı hodnoty vıce vyberu (I )

H0 : µ1 = µ2 = · · · = µI × H1 : alespon dve strednı hodnoty se lisı

PREDPOKLADY: nezavislost, normalita, homoskedasticitaoverenı normality: exaktne (Shapiro-Wilk, Kolmogorov-Smirnov), N–Pgrafyoverenı homoskedasticity: Bartlettuv test, Levenuv test

VYSLEDKY → ANOVA tabulka:Zdroj Soucet Pocet stupnu Strednı soucet F p-hodnota

variability ctvercu volnosti ctvercu

skupiny SA I − 1 SA/(I − 1)SA/(I−1)

Se/(n−I )p

rezidualnı Se n − I Se/(n − I ) – –celkovy ST n − 1 – – –

V prıpade platnosti H0 ma testova statistika F ∼ F (I − 1, n − I ).

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 6 / 41

Page 7: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Analyza rozptylu (ANOVA)

Mnohonasobna porovnanı

Pokud H0 zamıtneme, chceme vedet, mezi kterymi soubory je vyznamnyrozdıl.

VYVAZENE TRIDENI- rozsahy souboru jsou stejne- Tukeyova metoda

NEVYVAZENE TRIDENI- rozsahy souboru jsou ruzne- Scheffeho metoda, modifikace Tukeyovy metody - Tukeyova-Kramerova(Tukey HSD)

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 7 / 41

Page 8: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Analyza rozptylu (ANOVA)

Prıklad15 plodu broskvı, 3 stupne zralosti

Normalita

Homoskedasticita

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 8 / 41

Page 9: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Analyza rozptylu (ANOVA)

Prıklad

ANOVA tabulka

⇒ zamıtame hypotezu o shode strednıch hodnot

⇒ mnohonasobna porovnanı: Tukeyova metoda

Zaver: Byly zjisteny statisticky vyznamne rozdıly mezi skupinaminezralych a prezralych broskvı a mezi skupinami zralych a prezralychbroskvı.

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 9 / 41

Page 10: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Analyza rozptylu (ANOVA)

Vyznam predpokladu

NEZAVISLOST: Velmi dulezity predpoklad, musı byt splnen, jinakbudou vysledky nesmyslne.

NORMALITA: ANOVA nenı prılis citliva na porusenı normality, zvlasteje–li rozsah kazdeho vyberu vetsı nez 20. Pri vetsım porusenı sedoporucuje pouzıt Kruskaluv–Wallisuv test.

HOMOSKEDASTICITA: Mırne porusenı nevadı, pri vetsım porusenı sedoporucuje pouzıt Kruskaluv–Wallisuv test. Test shody rozptylu masmysl provadet az po overenı normality.

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 10 / 41

Page 11: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Analyza rozptylu (ANOVA)

Modifikace ANOVy

One-way ANOVA - jednocestna ANOVA, jednofaktorova ANOVA,analyza rozptylu jednoducheho trıdenı (dosud)

Two-way ANOVA - dvoucestna ANOVA, dvoufaktorova ANOVA,analyza rozptylu dvojneho trıdenı

- bez interakcı- s interakcemi

Three-way ANOVA - . . .

. . .

ANCOVA - Analysis Of Covariance

MANOVA - Multinomial Analysis Of Variance

RMANOVA - Repeated Measures Analysis Of Variance

Kruskaluv-Wallisuv test - neparametricka ANOVA- zalozena na poradı hodnot v celem souboru- testuje se hypoteza o shode medianu- mnohonasobna porovnanı - obdoba Scheffeho a Tukeyovy metody

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 11 / 41

Page 12: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Analyza rozptylu (ANOVA)

Shrnutı

Analyza rozptylu (ANOVA) je statisticky test overujıcı simultannı shodustrednıch hodnot sledovane veliciny mezi nezavislymi soubory, je–li rozdelenıteto veliciny v ramci kazdeho souboru normalnı a majı–li soubory shodnerozptyly.

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 12 / 41

Page 13: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Analyza rozptylu (ANOVA)

ANOVA (jednocestna) v programu Statistica

Po spustenı programu Statistica a nactenı dat postupujeme nasledovne:

Statistics → ANOVA → One-way ANOVA → OK → Variables (vyber

promennych): Dependent variable list (zavisla promenna), Categorical predictor(skupinova promenna) → OK → More results →

→ Assumptions (overenı predpokladu) →

→ normalita → Normal p-p (v casti Distribution of vars within groups) →(vyber skupin) → OK

→ shoda rozptylu → Levene’s test (ANOVA), prıpadne Cochran C, Hartley,Bartlett

→ Summary → All effects/Graphs (ANOVA tabulka)

→ (pokud zamıtneme H0) → Post-hoc → Scheffe, prıpadne Tukey HSD,prıpadne dalsı metody

Poznamka: Zkoumame–li vliv vıce kategorialnıch promennych na hodnotu zavisle promenne,pouzijeme vıcecestnou ANOVu (dvoucestnou, trojcestnou atd.). V programu Statistica jirealizujeme stejne jako je uvedeno vyse s jednou obmenou:

pro ANOVu bez interakcı: Statistics → ANOVA → Main effects ANOVA → . . .

pro ANOVu s interakcemi: Statistics → ANOVA → Factorial ANOVA → . . .

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 13 / 41

Page 14: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Kontingencnı tabulky

Kontingencnı tabulky

Dve nahodne veliciny X , Y nominalnıho typu (X . . . r urovnı, Y . . . surovnı).

n . . . rozsah vyberu

KONTINGENCNI TABULKA - cetnostnı tabulka

Y \X x[1] x[2] . . . x[r ] soucet

y[1] n11 n12 . . . n1r n1.y[2] n21 n22 . . . n2r n2....

......

. . ....

...y[s] ns1 ns2 . . . nsr ns.

soucet n.1 n

.2 . . . n.r n

Testujeme hypotezu

H0: X a Y jsou nezavisle × H1: X a Y jsou zavisle

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 14 / 41

Page 15: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Kontingencnı tabulky

Testovanı nezavislostiPearsonuv χ2 test

asymptoticky test

porovnava zjistene cetnosti s teoretickymi (za platnosti H0)

v prıpade platnosti H0 ma statistika

χ2 =

r∑

i=1

s∑

j=1

(

nij −ni.n.j

n

)2

ni.n.jn

∼ χ2((r − 1)(s − 1))

podmınka dobre aproximace:ni.n.j

n> 5

Crameruv koeficient (Cramerovo V)

V =√

χ2

n(min{r ,s}−1)

Rozmezı V Zavislost

0–0, 1 zanedbatelna0, 1–0, 3 slaba0, 3–0, 7 strednı0, 7–1, 0 silna

- jedna se o obdobu korelacnıho koeficientu pro nominalnı veliciny- nabyva hodnot mezi 0 a 1- urcuje mıru asociace mezi X a Y

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 15 / 41

Page 16: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Kontingencnı tabulky

Testovanı nezavislostiFisheruv exaktnı test

Pro tabulky 2× 2

Y \X x[1] x[2] soucet

y[1] a b a+ by[2] c d c + d

soucet a+ c b + d n

Pravdepodobnost, ze nahodnym vyberem vznikne tato tabulkas fixovanymi marginalnımi cetnostmi:

P =

(

a+bb

)(

c+dc

)

(

na+c

)

p-hodnota testu nezavislosti = soucet vsech P, ktere”vıce“ odporujı H0

pri fixovanych marginalnıch cetnostech

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 16 / 41

Page 17: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Kontingencnı tabulky

Prıklad 1

Kontingencnı tabulka

Overenı podmınky dobre aproximace: 131.304/758.= 52, 54 > 5 ⇒

Pearsonuv χ2 test

Vysledky:

Zaver: Nezamıtame hypotezu o nezavislosti obezity a genotypu.

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 17 / 41

Page 18: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Kontingencnı tabulky

Prıklad 2

Kontingencnı tabulka

Overenı podmınky dobre aproximace: 8.7/18.= 3, 11 ≯ 5 ⇒ Fisheruv

exaktnı test

Vysledky:

Zaver: Zamıtame hypotezu o nezavislosti pohlavı a diagnozy.

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 18 / 41

Page 19: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Kontingencnı tabulky

Shrnutı

Testovanı nezavislosti v kontingencnıch tabulkach slouzı ke zjistenı mozneasociace mezi nahodnymi velicinami nominalnıho typu. Mıru teto asociace lze

”merit“.

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 19 / 41

Page 20: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Kontingencnı tabulky

Kontingencnı tabulky v programu Statistica

Po spustenı programu Statistica a nactenı dat postupujeme nasledovne:

Statistics → Basic Statistics/Tables → Tables and banners → OK → Specifytables (select variables) (vyber promennych): List1 (1. promenna), List2 (2.

promenna) → OK → OK →

→ (kontingencnı tabulka) → Summary

→ (overenı podmınky dobre aproximace pro pouzitı Pearsonova χ2 testu) →Options → zatrhnout Expected frequencies → Summary

→ (Pearsonuv χ2 test) → Options → zatrhnout Pearson & M-L Chi-square,prıpadne jeste Phi(2×2) & Cramer’s V & C → Advanced → Detailedtwo-way tables

→ (Fisheruv exaktnı test) → Options → zatrhnout Fisher exact, Yates,McNemar (2×2) → Advanced → Detailed two-way tables

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 20 / 41

Page 21: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Analyza prezitı

Vymezenı pojmu

Analyza prezitı je soubor statistickych metod pouzıvanych k popisu aanalyze dat, ktere majı charakter casoveho intervalu.

Puvodne vyvinuta pro epidemiologicke studie - predmetem zajmu byladoba zahajenı lecby pacienta a jeho umrtı.

Je pouzıvana napr. v sociologii, ekonomii, strojırenstvı (jako doba prezitıje napr. cas mezi ztratou zamestnanı a zıskanı noveho, cas od zavedenıstroje do jeho poruchy).

Casovy interval ma jasne stanoveny zacatek (vstupnı udalost) a konec(sledovana udalost).

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 21 / 41

Page 22: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Analyza prezitı

Cenzorovanı

Pri dlouhodobem sledovanı pacientu bychom zıskali skutecnou dobuprezitı kazdeho z nich.

Bohuzel, z technicky, ekonomickych a jinych duvodu je takove sledovanıobtızne, nebo prımo nemozne.

Pozorovanı probıha jen po urcitou dobu (delka studie).

Pro cast pacientu je doba prezitı neznama, a to v dusledku:- behem doby pozorovanı se sledovana udalost u pacienta nevyskytla- pacient je ztracen z pozorovanı (napr. v dusledku migrace)- pacient v dobe pozorovanı zemrel z jine prıciny, nez je sledovana udalost

Proto dale pracujeme jen z castecnou informacı - tomuto jevu se rıkacenzorovanı.

Ve vyse uvedenych prıpadech vıme pouze to, ze doba prezitı pacienta jevetsı nez doba, po nız byl pozorovan ⇒ cenzorovanı zprava(right-censoring).

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 22 / 41

Page 23: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Analyza prezitı

Doba prezitı T

Doba mezi vstupnı a sledovanou udalostı se oznacuje jako doba prezitıT .

- nahodna velicina nabyvajıcı kladnych hodnot ⇒ distribucnı funkceF (t) = P(T ≤ t)

F (t) je pravdepodobnost, ze doba prezitı je mensı nebo rovna t

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 23 / 41

Page 24: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Analyza prezitı

Funkce prezitı S(t)

Vhodnejsı a castejsı k popisu analyzy prezitı je funkce prezitı

S(t) = 1− F (t) = P(T > t)

S(t) je pravdepodobnost, ze pacient prezije cas t, tj. jeho doba prezitı jevetsı nez t (v case t pro nej sledovana udalost nenastane)

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 24 / 41

Page 25: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Analyza prezitı

Rizikova funkce h(t)

Dalsı dulezita charakteristika v analyze prezitı je rizikova funkce.

Jedna se o intenzitu vyskytu sledovane udalosti v case zavislou na delceprezitı (mıra umrtnosti pacientu v case t za predpokladu, ze se titopacienti casu t dozili).

Mezi S(t) a h(t) existuje jednoznacny vztah.

Na rozdıl od S(t) muze byt rizikova funkce:- rostoucı (napr. pro lidskou populaci strası 65 let)- klesajıcı (napr. novorozenecka umrtnost, vetsina onkologickychonemocnenı)

- konstantnı (napr. umrtnost v produktivnım veku, pokrocila chronickaonemocnenı)

- vanickova - kombinuje klesajıcı, konstantnı i rostoucı prubeh (typickapro umrtnost v cele lidske populaci, kdy po narozenı klesa a ve starı roste)

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 25 / 41

Page 26: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Analyza prezitı

Metody analyzy prezitı

1. Metody parametricke- vyzadujı splnenı predpokladu o pravdepodobnostnım rozdelenı doby prezitıT

2. Metody neparametricke- nevyzadujı zvlastnı predpoklady o rozdelenı pravdepodobnosti doby prezitıT

- nejcasteji pouzıvane- mezi nejpouzıvanejsı patrı Kaplanova-Meierova metoda a metoda odhaduprezitı pomocı umrtnostnıch tabulek (life-table)

3. Metody semi-parametricke- nevyzadujı predpoklady o rozdelenı pravdepodobnosti doby prezitı T- pracujı s parametry a regresnımi koeficienty- nejznamejsı Coxuv regresnı model proporcionalnıch rizik

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 26 / 41

Page 27: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Analyza prezitı

Metody analyzy prezitıKaplanova-Meierova metoda

Neparametricky odhad prezitı prostrednictvım dob prezitı ti v prıpadecenzorovanych pozorovanı.n pacientu, u k z nich dojde behem pozorovanı k vyskytu sledovaneudalosti (k z nich behem pozorovanı zemrelo)Casove okamziky: t1 < t2 < · · · < tk

Odhad funkce prezitı: S(tj) =∏k

j=1

(

1−njdj

)

- nj . . . pocet pacientu, kterı jsou jeste nazivu v case tj- dj . . . pocet umrtı v case tj

Grafem je schodovita funkce

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 27 / 41

Page 28: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Analyza prezitı

Metody analyzy prezitıLife-table odhad prezitı

Tato metoda je principialne stejna jako Kaplanova-Meierova metoda.

Rozdıl: definovany casove intervaly pevne dane velikosti.

Odhad funkce prezitı: S(j) =∏j

i=1

(

1−dj

nj−12cj

)

- nj . . . pocet pacientu, kterı jsou jeste nazivu na pocatku j–teho intervalu- dj . . . pocet umrtı behem intervalu j- cj . . . pocet cenzorovanı v intervalu j

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 28 / 41

Page 29: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Analyza prezitı

Metody analyzy prezitıPorovnanı obou metod

Predpoklady:

Kaplanova-Meierova metoda Life-table odhad prezitı

v riziku vsichni pacienti v riziku polovina pacientus cenzorovanym casem s cenzorovanym casem

Vyskytuje–li se ve stejnem casovem okamziku umrtı i cenzorovanı, jenepresne predpokladat, ze vsechna umrtı predchazı vsem cenzorovanım(jak predpoklada Kaplanova-Meierova metoda), proto je vhodnejsıpouzitı metody life-table.

⇒ v prıpade vyskytu umrtı i cenzorovanı ve stejnem caseKaplanova-Meierova metoda pravdepodobnost prezitı oproti life-tablemetode mırne nadhodnocuje

Kaplanuv-Meieruv odhad prezitı je vhodnejsı pouzıt pro klinicke studie(kde jsou k dispozici presne udaje o dobe prezitı pacientu).

Metody umrtnostnıch tabulek je vhodnejsı pouzıt v populacnıchanalyzach (kde je vyskyt umrtı a cenzorovanı ve stejnem case castejsı -velky pocet pacientu, mene presne zaznamenavanı dob prezitı pacientu).

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 29 / 41

Page 30: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Analyza prezitı

Metody analyzy prezitıLog-rank test

Bezny problem v klinickych studiıch je porovnanı dvou a vıce krivekprezitı, napr. pri zkoumanı vlivu noveho leciva na dobu prezitıonkologickych pacientu.

Pro tato srovnanı existuje nekolik statistickych testu:- log-rank test- obecny Wilcoxonuv test- Tarone-Ware test- Peto-Peto test- Fleming-Harrington test

Vsimneme si log-rank testu.

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 30 / 41

Page 31: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Analyza prezitı

Metody analyzy prezitıLog-rank test

Jedna se v podstate o χ2 test.

Log-rank statistika χ2 = (Oi−Ei )2

Var(Oi−Ei ), i = 1, 2

Oi − Ei =∑n

j=1(mij − eij )

- mij . . . pocet pozorovanych jevu v case j v souboru i- eij . . . ocekavany pocet jevu v case j v souboru i

- eij =(

nijn1j+n2j

)

(m1j +m2j )

Var(Oi − Ei ) =∑n

j=1n1j n2j (m1j+m2j )(n1j+n2j−m1j−m2j )

(n1j+n2j )2(n1j+n2j−1)

H0: Neexistuje rozdıl mezi krivkami prezitı × H1: Neplatı H0

V prıpade platnosti H0 ma testova statistika χ2 ∼ χ2(1).

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 31 / 41

Page 32: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Analyza prezitı

Log-rank testPrıklad

Data a krivky prezitı

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 32 / 41

Page 33: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Analyza prezitı

Log-rank testPrıklad

Data a vysledek log-rank testu

Zaver: Zamıtame hypotezu o shode krivek prezitı mezi skupinami A a B.

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 33 / 41

Page 34: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Analyza prezitı

Analyza prezitı v programu Statistica

Po spustenı programu Statistica a nactenı dat postupujeme nasledovne:

Statistics → Advanced Linear/Nonlinear Models → Survival Analysis →

→ (Kaplanova-Meierova metoda) Kaplan & Meier product limit method →OK → Variables (survival times & censoring indicator) (vyber

promennych): Survival times (or dates) (promenna obsahujıcı doby prezitı),Censoring indicator (promenna obsahujıcı informace o cenzorovanı) →OK → doplnit do Code for complete responses hodnotu, kteroukodujeme necenzorovana data, a do Code for censored responseshodnotu, kterou kodujeme cenzorovana data → Survival times vs. cum.proportion surviving, prıpadne dalsı moznosti

→ (life–table metoda) Life tables & Distributions → (vyber promennych stejny

jako u Kaplanovy-Meierovy metody) + moznost zvolit pocet intervaluv casti Compute table based on: Number of intervals → OK → Functionplots → Plot of survival function, prıpadne dalsı moznosti

→ (log–rank test) Comparing two samples → OK → (vyber promennych jakou Kaplanovy-Meierovy metody) + zvolit Grouping variable (skupinovapromenna) → OK→ (vysledek testu) → Two-sample tests → Log-rank test→ (krivky prezitı) → Function plots → Cum. prop. surviving by group

(Kaplan Meier)

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 34 / 41

Page 35: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Shlukova analyza

Cıle a pouzitı

Jedna z vıcerozmernych statistickych metod (analyza hlavnıchkomponent, faktorova analyza, diskriminacnı analyza, korespondencnıanalyza,. . . ).

CIL: roztrıdenı n objektu, z nichz kazdy je popsan p znaky, do pokudmozno stejnorodych skupin (shluku, clusteru)

shlukování

POZADAVEK: aby si objekty uvnitr shluku byly podobne co nejvıce,naopak objekty z ruznych shluku co nejmene

Pouzıva se spıse jako pruzkumova metoda, slouzı jako vodıtko k dalsımuzpracovanı dat (napr. k odhalenı odlehlych objektu).

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 35 / 41

Page 36: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Shlukova analyza

Podobnost objektu

Posuzujeme podle ruznych mer vzdalenosti mezi objekty.

Vzdalenost je vyjadrena pomocı metriky, napr.Eukleidovska vzdalenost

dij =√

∑pk=1(xik − xjk)2

A

B

manhattanska (taxikarska) vzdalenost

dij =∑p

k=1 |xik − xjk |A

B

napr.Objekt Vek (l) Vyska (cm) Vaha (kg)

1 24 159 772 45 171 79

Eukl. vzdal.: d12 =√

(24− 45)2 + (159− 171)2 + (77− 79)2 = 31, 89manh. vzdal.: d12 = |24− 45|+ |159 − 171| + |77− 79| = 35

Vzdalenosti mezi objekty se usporadajı do matice vzdalenostı.

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 36 / 41

Page 37: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Shlukova analyza

Hierarchicke shlukovanı

Nejcasteji pouzıvana je aglomerativnı hierarchicka procedura - postupneslucovanı objektu od nejblizsıch ke stale vzdalenejsım.

Navod:1. Kazdy objekt - samostatny shluk.2. Nalezneme dva shluky, jejichz vzdalenost je minimalnı.3. Ty sloucıme do noveho, vetsıho shluku a prepocıtame matici vzdalenostı.

1. krok 2. krok

4. krok

3. krok

(n-3). krok

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 37 / 41

Page 38: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Shlukova analyza

Hierarchicke shlukovanıVzdalenosti mezi shluky

Metoda nejblizsıho souseda: vzdalenost mezi shluky je dana jakonejmensı vzdalenost mezi jejich objekty

Metoda nejvzdalenejsıho souseda: vzdalenost mezi shluky je dana jakonejvetsı vzdalenost mezi jejich objekty

Metoda prumerne vazby: vzdalenost mezi shluky je prumerem ze vsechvzdalenostı mezi jejich objekty

Odstranenı vlivu merıtka velicin: standardizacı.Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 38 / 41

Page 39: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Shlukova analyza

Dendrogram

Vysledky aglomerativnıho hierarchickeho shlukovanı se zpravidla grafickyvyjadrujı pomocı dendrogramu.

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 39 / 41

Page 40: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Shlukova analyza

Dalsı metody shlukovanı

Shlukovanı metodou nejblizsıch tezist’ (K-Means)- musı byt predem znam pocet shluku- postup zalozen na nejblizsım tezisti - do shluku je zarazen objekt, jehozvzdalenost od teziste je nejmensı

- nezname–li teziste shluku, pak se urcujı iterativnım vypoctem z dat

Shlukovanı metodou optimalnıch stredu (medoidu)- optimalnı stred shluku (medoid) - takovy strednı objekt, pro nejz platı, zeprumerna vzdalenost k ostatnım objektum v tomto shluku je minimalnı

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 40 / 41

Page 41: Pokrocilˇ ´e statistick ´e metody - Masaryk University · 2014-04-22 · - Tukeyova metoda NEVYV´AˇZEN ´E T ˇR´IDˇEN ´I - rozsahy soubor˚u jsou r˚uzn´e - Scheff´eho

Pokrocilestatistickemetody

Filip Zlamal

Opakovanı

Analyzarozptylu(ANOVA)

Kontingencnıtabulky

Analyzaprezitı

Shlukovaanalyza

Shlukova analyza

Shlukova analyza v programu Statistica

Po spustenı programu Statistica a nactenı dat postupujeme nasledovne:

Statistics → Multivariate Exploratory Techniques → Cluster Analysis →Joining (tree clustering) → OK → Variables (vyber promennych) - zvolıme,ktere promenne chceme zahrnout do analyzy → OK → Advanced → v castiCluster zvolıme Cases (rows), v casti Amalgamation (linkage) rule zvolımemetodu pro urcenı vzdalenostı mezi shluky, v casti Distance measure zvolımetyp metriky (vzdalenosti) → OK → Verticle icile plot nebo Horizontalhierarchical tree plot, v prıpadne dalsı moznosti

Poznamka: Standardizaci velicin pred provedenım shlukove analyzy provedeme napr. tak, ze

prımo oznacıme sloupce, ktere chceme standardizovat, a zvolıme Data → Standardize.

Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 22.–25. 4. 2014 41 / 41


Recommended