Post on 23-Jul-2020
transcript
Tomáš Karel
LS 2012/2013
Doplňkový materiál ke cvičení z předmětu 4ST201.
Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji.
Tyto slidy berte pouze jako doplňkový materiál – není v nich obsaženo
zdaleka všechno, co byste měli umět. Dalším studijním materiálem je učebnice, cvičebnice a také poznámky z přednášek a cvičení!
21.11.2013 Tomáš Karel - 4ST201 2
cv. Program cvičení
1. Úvod, popisná statistika
2. Popisná statistika
3. Míry variability, pravděpodobnost
4. Pravděpodobnost, náhodné veličiny a jejich charakteristiky
5. Pravděpodobnostní rozdělení
6. TEST, odhady parametrů
7. Testování hypotéz
8. Chí – kvadrát test dobré shody,
9. kontingenční tabulky, ANOVA, Regrese
10. Regrese, korelace
11. TEST, časové řady (bazické a řetězové indexy)
12. Časové řady
13. Indexní analýza
dosud jsme se zabývali testy o parametrech nějakého rozdělení předpokládali jsme tedy, že náhodný výběr pochází z určitého rozdělení ale i tento předpoklad musíme ověřit
testy o tvaru rozdělení testy dobré shody
testovaná hypotéza: test shody mezi teoretickým a empirickým rozdělením četností
hlavní podmínky použití: ◦ nezávislost jevů
◦ velký rozsah výběrového souboru
]1[)(
2
1 ,0
2
,0
kn
nnG
k
i i
ii
Předpokládá se, že v České republice má: ◦ 41 % obyvatel krevní skupinu A ◦ 14 % obyvatel krevní skupinu B ◦ 7 % obyvatel krevní skupinu AB ◦ 38 % obyvatel krevní skupinu 0
V jistém týdnu darovalo krev celkem 215 dárců, kteří měli následující krevní skupiny:
◦ 82 mělo krevní skupinu A ◦ 38 mělo krevní skupinu B ◦ 26 mělo krevní skupinu AB ◦ 69 mělo krevní skupinu 0
Na 1% hladině významnosti rozhodněte, zda tyto zjištěné údaje jsou v souladu s předpokladem o poměrném zastoupení krevních skupin v České republice.
]1[)(
2
1 ,0
2
,0
kn
nnG
k
i i
ii
kontingence = závislost 2 kvalitativních proměnných ◦ zkoumá závislost mezi kvalitativními znaky
k ověření závislosti se používá Chí-kvadrát test nezávislosti, založený na porovnání empirických teoretických četností
1) stanovení hypotézy H0: X a Y jsou nezávislé H1: non H0
2) výpočet testového kritéria
U 6800 osob byla zjišťována barva očí a vlasů.
Výsledky jsou zaneseny v tabulce.
Rozhodněte, zda barva očí a barva vlasů jsou závislé znaky.
Barva vlasů
Barva očí světlá kaštanová černá zrzavá celkem
světle modrá 1768 807 189 47 2811
šedá nebo zelená 946 1387 746 53 3132
tmavohnědá 115 438 288 16 857
celkem 2829 2632 1223 116 6800
kontingenční tabulka
3 obměny prvního kvalitativního znaku(barvy očí) 4 obměny druhého kvalitativního znaku(barvy vlasů)
Barva vlasů
Barva očí světlá kaštanová černá zrzavá celkem
světle modrá n11 n12 n13 n14 n1•
šedá nebo zelená n21 n22 n23 n24 n2•
tmavohnědá n31 n32 n33 n34 n3•
celkem n•1 n•2 n•3 n•4 n
pokud by znaky byly nezávislé, potom bychom v průměru očekávali následující hodnoty:
Barva vlasů
Barva očí světlá kaštanová černá zrzavá celkem
světle modrá 1169,46 1088,02 505,57 47,95 2811
šedá nebo zelená 1303,00 1212,27 563,30 53,43 3132
tmavohnědá 356,54 331,71 154,13 14,62 857 celkem 2829 2632 1223 116 6800
sílu závislosti dvou kvalitativních proměnných můžeme vyjádřit pomocí:
Pearsonova koeficientu kontingence:
Cramérova koeficientu kontingence:
pro zcela nezávislé veličiny: jsou C i V =0
1. vytvoření kontingenční tabulky karta Vložení kontingenční tabulka
2. očekávané relativní četnosti v případě nezávislosti
3. testová statistika G
4. Pearsonův koeficient kontingence
5. Cramérův koeficient kontingence
Z provedeného průzkumu máme informace o pohlaví a preferenci bydliště. Na základě těchto údajů rozhodněte, zda závisí preference trvalého bydlení na pohlaví.
Pohlaví
Bydliště
Město Venkov
Muž 71 91
Žena 82 56
závislost kvalitativní (slovní) a kvantitativní (číselné) proměnné
nejčastější případ – potřebujeme posoudit, zda má na určitou kvantitativní veličinu vliv kvalitativní nebo kvantitativní faktor
metoda vychází z rozkladu rozptylu (součtu čtvercových odchylek) na vnitroskupinovou a meziskupinovou variabilitu
je-li uvažovaná numerická proměnná nezávislá na zmíněné kategoriální proměnné, platí, že:
Je třeba rozhodnout, zda varianty testu (označíme je jako A, B, C) jsou stejně náročné. Každou variantu si napsali 4 náhodně vybraní studenti. Jejich výsledky jsou zaneseny v tabulce. Rozhodněte, zda se průměrný počet bodů získaný za různé varianty testu významně liší. (Řešte ručně a v Excelu)
Varianta testu Dosažené body
A 91 81 74 57
B 83 72 63 47
C 71 69 58 40
2P R-square 0,2178