4ST201 STATISTIKA 2. cvičení 4.8 · o pohlaví a preferenci bydliště. Na základě těchto...

Post on 11-Nov-2020

1 views 0 download

transcript

Tomáš Karel

LS 2012/2013

Doplňkový materiál ke cvičení z předmětu 4ST201.

Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji.

Tyto slidy berte pouze jako doplňkový materiál – není v nich obsaženo

zdaleka všechno, co byste měli umět. Dalším studijním materiálem je učebnice, cvičebnice a také poznámky z přednášek a cvičení!

2.12.2013 Tomáš Karel - 4ST201 2

cv. Program cvičení

1. Úvod, popisná statistika

2. Popisná statistika

3. Míry variability, pravděpodobnost

4. Pravděpodobnost, náhodné veličiny a jejich charakteristiky

5. Pravděpodobnostní rozdělení

6. TEST, odhady parametrů

7. Testování hypotéz

8. Chí – kvadrát test dobré shody, kontingenční tabulky, ANOVA

9. Regrese

10. Regrese

11. Korelace, časové řady (bazické a řetězové indexy)

12. TEST, Časové řady

13. Indexní analýza

Z provedeného průzkumu máme informace o pohlaví a preferenci bydliště. Na základě těchto údajů rozhodněte, zda závisí preference trvalého bydlení na pohlaví.

Pohlaví

Bydliště

Město Venkov

Muž 71 91

Žena 82 56

- McNemarova statistika

pro n12+n21>30 má Chí kvadrát s 1 st. Volnosti

Z tabulky: 95% kvantil 3,84 Nezamítáme na 5% hladině významnosti

testovanou hypotézu o nezávislosti

2

12 21MN

12 21

(n n )Q

n n

2

MN

(91 82)Q 0,468

91 82

Je třeba rozhodnout, zda varianty testu (označíme je jako A, B, C) jsou stejně náročné. Každou variantu si napsali 4 náhodně vybraní studenti. Jejich výsledky jsou zaneseny v tabulce. Rozhodněte, zda se průměrný počet bodů získaný za různé varianty testu významně liší. (Řešte ručně a v Excelu)

Varianta testu Dosažené body

A 91 81 74 57

B 83 72 63 47

C 71 69 58 40

Na zvolené 5% hladině významnosti přijímáme testovanou hypotézu o rovnosti středních hodnot

slouží k popisu jednostranné závislosti dvou číselných proměnných, kdy proti sobě stojí vysvětlující (nezávislá) proměnná jako „příčina“ a vysvětlovaná (závislá) proměnná jako „následek“

regresní funkce = „idealizující“ matematická funkce, která co nejlépe vyjadřuje charakter závislosti

V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tisících dolarů):

a) modelujte závislost nákladů na údržbu na ceně regresní

přímkou b) zhodnoťte kvalitu modelu pomocí koeficientu determinace c) interpretujte věcně hodnotu regresního koeficientu b1 d) odhadněte střední hodnotu nákladů u domů za 80. tisíc

dolarů e) ověřte pomocí testu, zda se jedná o významnou závislost

Náklady 835 63 240 1005 184 213 313 658 195 545

Cena 136 24 52 143 42 43 67 106 61 99

i yi xi xiyi xi2

1 835 136 113560 18496

2 63 24 1512 576

3 240 52 12480 2704

4 1005 143 143715 20449

5 184 42 7728 1764

6 213 43 9159 1849

7 313 67 20971 4489

8 658 106 69748 11236

9 195 61 11895 3721

10 545 99 53955 9801

suma 4251 773 444723 75085

průměr 425,1 77,3 44472,3 7508,5

Výpočet pomocí EXCELU a metody nejmenších čtverců

závislost nákladů na údržbu na ceně můžeme modelovat následující přímkou:

MS excel: 1) data analýza dat regrese

2) Vstupní oblast y– sloupec „Náklady“

3) Vstupní oblast x – sloupec „Cena“

4) Nic jiného neupravovat (max. popisky)- OK

bo - konstanta

b1 – směrnice přímky, regresní koeficient

významnost koeficientu < alfa

významnost koeficientu < alfa

T.K. pro významnost koeficientu

b) zhodnoťte kvalitu modelu pomocí koeficientu determinace

vztah je tím silnější a regresní funkce je tím lepší, čím více jsou empirické hodnoty vysvětlované proměnné soustředěné kolem odhadnuté regresní funkce, a naopak tím slabší, čím více jsou vzdálené od odhadnuté regresní funkce

závislost y a x bude tím silnější, čím větší bude podíl rozptylu vyrovnaných hodnot na celkovém rozptylu

i yi xi Yi yi-Yi (yi-Yi)2 (yi-y_)2

1 835 136 869,68 -34,68 1202,43 168018,01

2 63 24 21,42 41,58 1728,74 131116,41

3 240 52 233,49 6,51 42,44 34262,01

4 1005 143 922,69 82,31 6774,61 336284,01

5 184 42 157,75 26,25 689,14 58129,21

6 213 43 165,32 47,68 2273,18 44986,41

7 313 67 347,09 -34,09 1162,19 12566,41

8 658 106 642,47 15,53 241,33 54242,41

9 195 61 301,65 -106,65 11373,95 52946,01

10 545 99 589,45 -44,45 1975,74 14376,01

suma - 0 27463,75 906926,90

SR Sy

2.12.2013 26

R2 = I2 – Index determinace

Upravený index determinace

c) interpretujte věcně hodnotu regresního koeficientu b1

d) odhadněte střední hodnotu nákladů u domů za 80. tisíc dolarů

e.) Ověřte pomocí testu, zda se jedná o významnou závislost.

Výběrový regresní koeficient b1 je náhodná veličina v tom smyslu, že jeho hodnota závisí na konkrétním výběru (tj. na konkrétních datech, jimiž jsme prokládali přímku). V našem případě vyšla hodnota

Teoretický regresní koeficient β1, který neznáme (a je konstantou), může být přesto roven nule. V tom případě by mezi cenou a náklady neexistovala lineární závislost. Otestujme proto hypotézu o nulové hodnotě teoretického regresního koeficientu β1.

e) ověřte pomocí testu, zda se jedná o významnou závislost

Test. kritérium P- hodnota

Teoretický součet čtverců

Reziduální součet čtverců

Celkový součet čtverců

P-hodnota 0,00 je menší než hladina významnosti (α=0,05). Zamítáme tedy nulovou hypotézu. Lineární závislost je statisticky významná.

Na 5% hladině významnosti můžeme na základě testu o modelu zamítnout hypotézu o nulové hodnotě regresního parametru β1. Lineární závislost je tedy statisticky významná