Tomáš Karel
LS 2012/2013
Doplňkový materiál ke cvičení z předmětu 4ST201.
Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji.
Tyto slidy berte pouze jako doplňkový materiál – není v nich obsaženo
zdaleka všechno, co byste měli umět. Dalším studijním materiálem je učebnice, cvičebnice a také poznámky z přednášek a cvičení!
2.12.2013 Tomáš Karel - 4ST201 2
cv. Program cvičení
1. Úvod, popisná statistika
2. Popisná statistika
3. Míry variability, pravděpodobnost
4. Pravděpodobnost, náhodné veličiny a jejich charakteristiky
5. Pravděpodobnostní rozdělení
6. TEST, odhady parametrů
7. Testování hypotéz
8. Chí – kvadrát test dobré shody, kontingenční tabulky, ANOVA
9. Regrese
10. Regrese
11. Korelace, časové řady (bazické a řetězové indexy)
12. TEST, Časové řady
13. Indexní analýza
Z provedeného průzkumu máme informace o pohlaví a preferenci bydliště. Na základě těchto údajů rozhodněte, zda závisí preference trvalého bydlení na pohlaví.
Pohlaví
Bydliště
Město Venkov
Muž 71 91
Žena 82 56
- McNemarova statistika
pro n12+n21>30 má Chí kvadrát s 1 st. Volnosti
Z tabulky: 95% kvantil 3,84 Nezamítáme na 5% hladině významnosti
testovanou hypotézu o nezávislosti
2
12 21MN
12 21
(n n )Q
n n
2
MN
(91 82)Q 0,468
91 82
Je třeba rozhodnout, zda varianty testu (označíme je jako A, B, C) jsou stejně náročné. Každou variantu si napsali 4 náhodně vybraní studenti. Jejich výsledky jsou zaneseny v tabulce. Rozhodněte, zda se průměrný počet bodů získaný za různé varianty testu významně liší. (Řešte ručně a v Excelu)
Varianta testu Dosažené body
A 91 81 74 57
B 83 72 63 47
C 71 69 58 40
Na zvolené 5% hladině významnosti přijímáme testovanou hypotézu o rovnosti středních hodnot
slouží k popisu jednostranné závislosti dvou číselných proměnných, kdy proti sobě stojí vysvětlující (nezávislá) proměnná jako „příčina“ a vysvětlovaná (závislá) proměnná jako „následek“
regresní funkce = „idealizující“ matematická funkce, která co nejlépe vyjadřuje charakter závislosti
V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tisících dolarů):
a) modelujte závislost nákladů na údržbu na ceně regresní
přímkou b) zhodnoťte kvalitu modelu pomocí koeficientu determinace c) interpretujte věcně hodnotu regresního koeficientu b1 d) odhadněte střední hodnotu nákladů u domů za 80. tisíc
dolarů e) ověřte pomocí testu, zda se jedná o významnou závislost
Náklady 835 63 240 1005 184 213 313 658 195 545
Cena 136 24 52 143 42 43 67 106 61 99
i yi xi xiyi xi2
1 835 136 113560 18496
2 63 24 1512 576
3 240 52 12480 2704
4 1005 143 143715 20449
5 184 42 7728 1764
6 213 43 9159 1849
7 313 67 20971 4489
8 658 106 69748 11236
9 195 61 11895 3721
10 545 99 53955 9801
suma 4251 773 444723 75085
průměr 425,1 77,3 44472,3 7508,5
Výpočet pomocí EXCELU a metody nejmenších čtverců
závislost nákladů na údržbu na ceně můžeme modelovat následující přímkou:
MS excel: 1) data analýza dat regrese
2) Vstupní oblast y– sloupec „Náklady“
3) Vstupní oblast x – sloupec „Cena“
4) Nic jiného neupravovat (max. popisky)- OK
bo - konstanta
b1 – směrnice přímky, regresní koeficient
významnost koeficientu < alfa
významnost koeficientu < alfa
T.K. pro významnost koeficientu
b) zhodnoťte kvalitu modelu pomocí koeficientu determinace
vztah je tím silnější a regresní funkce je tím lepší, čím více jsou empirické hodnoty vysvětlované proměnné soustředěné kolem odhadnuté regresní funkce, a naopak tím slabší, čím více jsou vzdálené od odhadnuté regresní funkce
závislost y a x bude tím silnější, čím větší bude podíl rozptylu vyrovnaných hodnot na celkovém rozptylu
i yi xi Yi yi-Yi (yi-Yi)2 (yi-y_)2
1 835 136 869,68 -34,68 1202,43 168018,01
2 63 24 21,42 41,58 1728,74 131116,41
3 240 52 233,49 6,51 42,44 34262,01
4 1005 143 922,69 82,31 6774,61 336284,01
5 184 42 157,75 26,25 689,14 58129,21
6 213 43 165,32 47,68 2273,18 44986,41
7 313 67 347,09 -34,09 1162,19 12566,41
8 658 106 642,47 15,53 241,33 54242,41
9 195 61 301,65 -106,65 11373,95 52946,01
10 545 99 589,45 -44,45 1975,74 14376,01
suma - 0 27463,75 906926,90
SR Sy
2.12.2013 26
R2 = I2 – Index determinace
Upravený index determinace
c) interpretujte věcně hodnotu regresního koeficientu b1
d) odhadněte střední hodnotu nákladů u domů za 80. tisíc dolarů
e.) Ověřte pomocí testu, zda se jedná o významnou závislost.
Výběrový regresní koeficient b1 je náhodná veličina v tom smyslu, že jeho hodnota závisí na konkrétním výběru (tj. na konkrétních datech, jimiž jsme prokládali přímku). V našem případě vyšla hodnota
Teoretický regresní koeficient β1, který neznáme (a je konstantou), může být přesto roven nule. V tom případě by mezi cenou a náklady neexistovala lineární závislost. Otestujme proto hypotézu o nulové hodnotě teoretického regresního koeficientu β1.
e) ověřte pomocí testu, zda se jedná o významnou závislost
Test. kritérium P- hodnota
Teoretický součet čtverců
Reziduální součet čtverců
Celkový součet čtverců
P-hodnota 0,00 je menší než hladina významnosti (α=0,05). Zamítáme tedy nulovou hypotézu. Lineární závislost je statisticky významná.
Na 5% hladině významnosti můžeme na základě testu o modelu zamítnout hypotézu o nulové hodnotě regresního parametru β1. Lineární závislost je tedy statisticky významná