4ST201 STATISTIKA 2. cvičení 4.8 · 2018-10-18 · Na případné faktické chyby v této...

Post on 23-Jul-2020

2 views 0 download

transcript

Tomáš Karel

LS 2012/2013

Doplňkový materiál ke cvičení z předmětu 4ST201.

Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji.

Tyto slidy berte pouze jako doplňkový materiál – není v nich obsaženo

zdaleka všechno, co byste měli umět. Dalším studijním materiálem je učebnice, cvičebnice a také poznámky z přednášek a cvičení!

21.11.2013 Tomáš Karel - 4ST201 2

cv. Program cvičení

1. Úvod, popisná statistika

2. Popisná statistika

3. Míry variability, pravděpodobnost

4. Pravděpodobnost, náhodné veličiny a jejich charakteristiky

5. Pravděpodobnostní rozdělení

6. TEST, odhady parametrů

7. Testování hypotéz

8. Chí – kvadrát test dobré shody,

9. kontingenční tabulky, ANOVA, Regrese

10. Regrese, korelace

11. TEST, časové řady (bazické a řetězové indexy)

12. Časové řady

13. Indexní analýza

dosud jsme se zabývali testy o parametrech nějakého rozdělení předpokládali jsme tedy, že náhodný výběr pochází z určitého rozdělení ale i tento předpoklad musíme ověřit

testy o tvaru rozdělení testy dobré shody

testovaná hypotéza: test shody mezi teoretickým a empirickým rozdělením četností

hlavní podmínky použití: ◦ nezávislost jevů

◦ velký rozsah výběrového souboru

]1[)(

2

1 ,0

2

,0

kn

nnG

k

i i

ii

Předpokládá se, že v České republice má: ◦ 41 % obyvatel krevní skupinu A ◦ 14 % obyvatel krevní skupinu B ◦ 7 % obyvatel krevní skupinu AB ◦ 38 % obyvatel krevní skupinu 0

V jistém týdnu darovalo krev celkem 215 dárců, kteří měli následující krevní skupiny:

◦ 82 mělo krevní skupinu A ◦ 38 mělo krevní skupinu B ◦ 26 mělo krevní skupinu AB ◦ 69 mělo krevní skupinu 0

Na 1% hladině významnosti rozhodněte, zda tyto zjištěné údaje jsou v souladu s předpokladem o poměrném zastoupení krevních skupin v České republice.

]1[)(

2

1 ,0

2

,0

kn

nnG

k

i i

ii

kontingence = závislost 2 kvalitativních proměnných ◦ zkoumá závislost mezi kvalitativními znaky

k ověření závislosti se používá Chí-kvadrát test nezávislosti, založený na porovnání empirických teoretických četností

1) stanovení hypotézy H0: X a Y jsou nezávislé H1: non H0

2) výpočet testového kritéria

U 6800 osob byla zjišťována barva očí a vlasů.

Výsledky jsou zaneseny v tabulce.

Rozhodněte, zda barva očí a barva vlasů jsou závislé znaky.

Barva vlasů

Barva očí světlá kaštanová černá zrzavá celkem

světle modrá 1768 807 189 47 2811

šedá nebo zelená 946 1387 746 53 3132

tmavohnědá 115 438 288 16 857

celkem 2829 2632 1223 116 6800

kontingenční tabulka

3 obměny prvního kvalitativního znaku(barvy očí) 4 obměny druhého kvalitativního znaku(barvy vlasů)

Barva vlasů

Barva očí světlá kaštanová černá zrzavá celkem

světle modrá n11 n12 n13 n14 n1•

šedá nebo zelená n21 n22 n23 n24 n2•

tmavohnědá n31 n32 n33 n34 n3•

celkem n•1 n•2 n•3 n•4 n

pokud by znaky byly nezávislé, potom bychom v průměru očekávali následující hodnoty:

Barva vlasů

Barva očí světlá kaštanová černá zrzavá celkem

světle modrá 1169,46 1088,02 505,57 47,95 2811

šedá nebo zelená 1303,00 1212,27 563,30 53,43 3132

tmavohnědá 356,54 331,71 154,13 14,62 857 celkem 2829 2632 1223 116 6800

sílu závislosti dvou kvalitativních proměnných můžeme vyjádřit pomocí:

Pearsonova koeficientu kontingence:

Cramérova koeficientu kontingence:

pro zcela nezávislé veličiny: jsou C i V =0

1. vytvoření kontingenční tabulky karta Vložení kontingenční tabulka

2. očekávané relativní četnosti v případě nezávislosti

3. testová statistika G

4. Pearsonův koeficient kontingence

5. Cramérův koeficient kontingence

Z provedeného průzkumu máme informace o pohlaví a preferenci bydliště. Na základě těchto údajů rozhodněte, zda závisí preference trvalého bydlení na pohlaví.

Pohlaví

Bydliště

Město Venkov

Muž 71 91

Žena 82 56

závislost kvalitativní (slovní) a kvantitativní (číselné) proměnné

nejčastější případ – potřebujeme posoudit, zda má na určitou kvantitativní veličinu vliv kvalitativní nebo kvantitativní faktor

metoda vychází z rozkladu rozptylu (součtu čtvercových odchylek) na vnitroskupinovou a meziskupinovou variabilitu

je-li uvažovaná numerická proměnná nezávislá na zmíněné kategoriální proměnné, platí, že:

Je třeba rozhodnout, zda varianty testu (označíme je jako A, B, C) jsou stejně náročné. Každou variantu si napsali 4 náhodně vybraní studenti. Jejich výsledky jsou zaneseny v tabulce. Rozhodněte, zda se průměrný počet bodů získaný za různé varianty testu významně liší. (Řešte ručně a v Excelu)

Varianta testu Dosažené body

A 91 81 74 57

B 83 72 63 47

C 71 69 58 40

2P R-square 0,2178