+ All Categories
Home > Documents > SEMINÁRNÍ PRÁCEnb.vse.cz/~arltova/vyuka/DU_4ST201.pdf · 2) Kontingenční tabulka – analýza...

SEMINÁRNÍ PRÁCEnb.vse.cz/~arltova/vyuka/DU_4ST201.pdf · 2) Kontingenční tabulka – analýza...

Date post: 09-Aug-2020
Category:
Upload: others
View: 2 times
Download: 0 times
Share this document with a friend
20
SEMINÁRNÍ PRÁCE
Transcript
Page 1: SEMINÁRNÍ PRÁCEnb.vse.cz/~arltova/vyuka/DU_4ST201.pdf · 2) Kontingenční tabulka – analýza kategoriálních dat Na základě průzkumu provedeného u vybraných 30 osob, které

SEMINÁRNÍ PRÁCE

Page 2: SEMINÁRNÍ PRÁCEnb.vse.cz/~arltova/vyuka/DU_4ST201.pdf · 2) Kontingenční tabulka – analýza kategoriálních dat Na základě průzkumu provedeného u vybraných 30 osob, které

Zadání: Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Data: Minimálně 6 proměnných o 30 pozorováních (z toho 2 proměnné kategoriální,

alespoň 2 proměnné číselné spojité a 2 proměnné číselné nespojité). Statistické metody: 1) Vypočítejte a popište základní charakteristiky jedné číselné spojité a jedné číselné

nespojité proměnné, nakreslete vhodné grafy. 2) Pro zkoumání vztahů mezi proměnnými použijte:

a) kontingenční tabulku b) analýzu rozptylu (nepovinné) c) korelační tabulku d) jednoduchou regresní analýzu e) vícenásobnou regresní analýzu

3) Výsledky okomentujte a doplňte vhodnými grafy.

Průzkum dovolených, strávených v zahraničí v roce 2006, provedený v obci Vysoké Mýto

Pozorování Cestovní kancelář Destinace

Délka pobytu v zahraničí

Věk Cena pobytu v zahraničí

Měsíční příjem

1 žádná Chorvatsko 12 39 4 900,00 Kč 12 600,00 Kč2 žádná Irsko 13 28 18 500,00 Kč 25 600,00 Kč3 CK Union Francie 10 53 6 330,00 Kč 9 400,00 Kč4 CK Sunny Day Španělsko 12 48 11 990,00 Kč 12 400,00 Kč5 žádná Norsko 20 24 20 000,00 Kč 22 400,00 Kč6 CK Sunny Day Chorvatsko 10 37 14 790,00 Kč 14 400,00 Kč7 CK Jiří Kalousek Španělsko 10 44 7 789,00 Kč 24 200,00 Kč8 žádná Francie 12 39 6 500,00 Kč 16 800,00 Kč9 CK Uion Chorvatsko 12 41 6 580,00 Kč 10 200,00 Kč

10 žádná Norsko 25 26 22 500,00 Kč 23 800,00 Kč11 CK Sunny Day Španělsko 12 35 15 390,00 Kč 17 400,00 Kč12 žádná Francie 5 25 4 000,00 Kč 13 000,00 Kč13 žádná Chorvatsko 13 28 4 300,00 Kč 11 400,00 Kč14 CK Union Francie 10 31 5 800,00 Kč 15 400,00 Kč15 CK Union Španělsko 10 42 8 999,00 Kč 14 600,00 Kč16 CK Jiří Kalousek Chorvatsko 10 37 8 699,00 Kč 21 500,00 Kč17 CK Sunny Day Francie 15 55 6 590,00 Kč 14 400,00 Kč18 CK Union Norsko 10 47 10 380,00 Kč 16 400,00 Kč19 CK Jiří Kalousek Španělsko 10 50 5 989,00 Kč 10 600,00 Kč20 žádná Irsko 29 22 23 000,00 Kč 23 800,00 Kč21 CK Jiří Kalousek Francie 5 33 6 999,00 Kč 16 000,00 Kč22 žádná Chorvatsko 13 46 5 500,00 Kč 14 600,00 Kč23 CK Sunny Day Španělsko 10 38 9 790,00 Kč 16 800,00 Kč24 CK Union Francie 11 20 6 330,00 Kč 12 800,00 Kč25 CK Jiří Kalousek Španělsko 10 34 7 299,00 Kč 13 800,00 Kč26 žádná Chorvatsko 11 46 4 000,00 Kč 12 400,00 Kč27 CK Union Norsko 10 27 10 380,00 Kč 11 600,00 Kč28 žádná Francie 11 29 5 500,00 Kč 18 400,00 Kč29 CK Union Chorvatsko 11 49 6 580,00 Kč 17 000,00 Kč30 CK Sunny Day Španělsko 12 38 12 490,00 Kč 19 600,00 Kč

Page 3: SEMINÁRNÍ PRÁCEnb.vse.cz/~arltova/vyuka/DU_4ST201.pdf · 2) Kontingenční tabulka – analýza kategoriálních dat Na základě průzkumu provedeného u vybraných 30 osob, které

1) Vypočítejte a popište základní charakteristiky jedné číselné nespojité a jedné číselné spojité proměnné, nakreslete vhodné grafy.

Pozorování Délka

pobytu v zahraničí

Cena pobytuv zahraničí Pozorování Délka pobytu

v zahraničí Cena pobytuv zahraničí

1 12 4 900,00 Kč 16 10 8 699,00 Kč2 13 18 500,00 Kč 17 15 6 590,00 Kč3 10 6 330,00 Kč 18 10 10 380,00 Kč4 12 11 990,00 Kč 19 10 5 989,00 Kč5 20 20 000,00 Kč 20 29 23 000,00 Kč6 10 14 790,00 Kč 21 5 6 999,00 Kč7 10 7 789,00 Kč 22 13 5 500,00 Kč8 12 6 500,00 Kč 23 10 9 790,00 Kč9 12 6 580,00 Kč 24 11 6 330,00 Kč

10 25 22 500,00 Kč 25 10 7 299,00 Kč11 12 15 390,00 Kč 26 11 4 000,00 Kč12 5 4 000,00 Kč 27 24 10 380,00 Kč13 13 4 300,00 Kč 28 11 5 500,00 Kč14 10 5 800,00 Kč 29 11 6 580,00 Kč15 10 8 999,00 Kč 30 12 12 490,00 Kč

a) Délka pobytu v zahraničí – číselná nespojitá proměnná

One-Way Frequencies

délka pobytu Frequency Percent CumulativeFrequency

Cumulative Percent

5 2 6.67 2 6.67

10 10 33.33 12 40.00

11 4 13.33 16 53.33

12 6 20.00 22 73.33

13 3 10.00 25 83.33

15 1 3.33 26 86.67

20 1 3.33 27 90.00

24 1 3.33 28 93.33

25 1 3.33 29 96.67

29 1 3.33 30 100.00 Původně nesetříděná data jsme uspořádali do tabulky rozdělení četností. Z ní můžeme vyvodit např. následující závěry: - v souboru jsou 2 osoby, které strávili v zahraničí 5 dní, 10 osob, které pobývali v zahraničí 10

dní, 4 osoby, které strávili v cizině11 dní atd. - osoby, které pobývali na dovolené 5 dní tvoří 6,67% všech dotázaných osob, osoby, které

strávili v zahraničí 10 dní, tvoří 33,33% všech dotázaných atd.

Page 4: SEMINÁRNÍ PRÁCEnb.vse.cz/~arltova/vyuka/DU_4ST201.pdf · 2) Kontingenční tabulka – analýza kategoriálních dat Na základě průzkumu provedeného u vybraných 30 osob, které

- 2 osoby strávili v zahraničí 5 dní, což je 6, 67% všech dotázaných, 12 osob strávilo v zahraničí 5 nebo 10 dní, což je 40 % všech dotázaných, ani jedna osoba nestrávila v zahraničí více než 29 dní, což znamená, že všechny dotázané osoby pobývali v zahraničí 29 a méně dní.

Tento graf znázorňuje vertikální sloupcový graf četností pro znak délka pobytu v zahraničí.

V následujících tabulkách se uvádějí míry úrovně a to v tomto pořadí:

- největší hodnota, aritmetický průměr, nejmenší hodnota, dolní kvartil, medián, horní kvartil, variační rozpětí, výběrová směrodatná odchylka, součet a výběrový rozptyl

Jak vidíme, maximální doba strávená v zahraničí je 29 dní, a nejkratší 5 dní. V průměru stráví lidé v zahraničí 12,6 dní. Variační rozpětí, které se vypočítá jako rozdíl nejvyšší a nejmenší hodnoty, je 24. Směrodatná odchylka je 5,282 dní. Umocníme-li směrodatnou odchylku, dostaneme rozptyl. Rozptyl je tedy 27,9. Dolní kvartil odděluje čtvrtinu nejnižších hodnot znaku délka pobytu a jeho hodnota je 10 dní. Medián neboli prostřední hodnota je 50 % kvantil, který člení statistický soubor na dvě stejně četné poloviny, je v našem případě 11 dní. Horní kvartil odděluje 75 % nejnižších hodnot znaku od zbývajících 25 % hodnot znaku a v našem případě je 13 dní. Celkem všech 30 dotázaných osob strávilo v roce 2006 v zahraničí 378 dní.

Analysis Variable : délka pobytu

Range Std Dev Sum Variance

24.0000000 5.2823715 378.0000000 27.9034483

Analysis Variable : délka pobytu

Maximum Mean Minimum Lower Quartile Median Upper Quartile

29.0000000 12.6000000 5.0000000 10.0000000 11.0000000 13.0000000

Page 5: SEMINÁRNÍ PRÁCEnb.vse.cz/~arltova/vyuka/DU_4ST201.pdf · 2) Kontingenční tabulka – analýza kategoriálních dat Na základě průzkumu provedeného u vybraných 30 osob, které

Krabičkový graf, který vidíme níže, nám znázorňuje extrémní hodnoty souboru a kvartily. Spodní horizontální čára určuje dolní kvartil, střední je medián a nejvyšší znázorňuje horní kvartil. Hodnoty délky pobytu se pohybují nejvíce v oblasti „krabičky“ a dále podél vertikální úsečky. Body, které vidíme na obou stranách grafu nejsou spojeny úsečkou, protože mezi poslední hodnotou na úsečce a těmito body nejsou žádné hodnoty. Jsou to extrémní hodnoty, které mohou zkreslovat například průměrnou délku pobytu v zahraničí. Proto je objektivnějším hodnocením medián než aritmetický průměr.

b) Cena pobytu v zahraničí – číselná spojitá proměnná Původně nesetříděná data jsem opět uspořádala do tabulky intervalových rozdělení četností.

Cena pobytu v zahraničí

(hranice intervalu) Četnost Kumulativní četnost Interval

dolní horní

Střed intervalu

absolutni relativni absolutní relativní 1 3500 7000 5250 14 0,467 14 0,467 2 7000 10500 8750 8 0,267 22 0,733 3 10500 14000 12250 2 0,067 24 0,800 4 14000 17500 15750 2 0,067 26 0,867 5 17500 21000 19250 2 0,067 28 0,933 6 21000 24500 22750 2 0,067 30 1,000

Celkem x x x 30 1,000 x x

Z tabulky můžeme vyvodit např. následující závěry: - v souboru je 14 osob, jež zaplatily za pobyt v zahraničí od 3 500 do 7 000 Kč, 2 osoby, které

zaplatily od 10 500 do 14 000 Kč, 2 osoby, které dovolená stála v rozmezí od 21 000 až 24 500 Kč atd.

- osoby, které zaplatily za dovolenou od 7 000 do 10 500 Kč tvoří 26,7% všech dotázaných osob, osoby, které zaplatily od 17 500 do 21 000 Kč tvoří 6,7 % atd.

- 14 osob, zaplatilo za pobyt od 3 500 do 7 000 Kč, což je 46,7% všech dotázaných, 26 osob zaplatilo od 14 000 do 17 500 Kč, což je 86,7 % všech dotázaných, ani jedna osoba nezaplatila za pobyt v zahraničí více než 24 500 Kč, což znamená, že všech 30 dotázaných osob zaplatilo za pobyt v zahraničí 24 500 Kč a méně.

Page 6: SEMINÁRNÍ PRÁCEnb.vse.cz/~arltova/vyuka/DU_4ST201.pdf · 2) Kontingenční tabulka – analýza kategoriálních dat Na základě průzkumu provedeného u vybraných 30 osob, které

V následujících tabulkách se uvádějí míry úrovně a to v tomto pořadí:

- největší hodnota, aritmetický průměr, nejmenší hodnota, dolní kvartil, medián, horní kvartil, variační rozpětí, výběrová směrodatná odchylka, součet a výběrový rozptyl

Jak vidíme, maximální cena pobytu činí 23 000 Kč, a nejnižší 4 000 Kč. V průměru zaplatí lidé za pobyt v zahraničí 9 596,47 Kč. Variační rozpětí, které se vypočítá jako rozdíl nejvyšší a nejmenší hodnoty, je 19 000 Kč. Směrodatná odchylka je 5 439,08 Kč. Umocníme-li směrodatnou odchylku, dostaneme rozptyl. Rozptyl je tedy 29 583 636,95. Dolní kvartil odděluje čtvrtinu nejnižších hodnot znaku cena pobytu a jeho hodnota je 5 989 Kč. Medián neboli prostřední hodnota je 50 % kvantil, který člení statistický soubor na dvě stejně četné poloviny, je v našem případě 7 149 Kč. Horní kvartil odděluje 75 % nejnižších hodnot znaku od zbývajících 25 % hodnot znaku a je 11 990 Kč. Celkem všech 30 dotázaných osob zaplatilo v roce 2006 za pobyt v zahraničí 287 894 Kč. Krabičkový graf, který vidíme níže, nám opět znázorňuje extrémní hodnoty souboru a kvartily. Spodní horizontální čára určuje dolní kvartil, střední je medián a nejvyšší znázorňuje horní kvartil. Hodnoty délky pobytu se pohybují nejvíce v oblasti „krabičky“ a dále podél vertikální úsečky. Body, které vidíme na v horní části grafu nejsou spojeny úsečkou, protože mezi poslední hodnotou na úsečce a těmito body nejsou žádné hodnoty. Jsou to extrémní hodnoty, které mohou zkreslovat například průměrnou cenu pobytu v zahraničí. Proto je objektivnějším hodnocením medián než aritmetický průměr.

Analysis Variable : cena pobytu

Maximum Mean Minimum Lower Quartile Median Upper Quartile

23000.00 9596.47 4000.00 5989.00 7149.00 11990.00

Analysis Variable : cena pobytu

Range Std Dev Sum Variance

19000.00 5439.08 287894.00 29583636.95

Page 7: SEMINÁRNÍ PRÁCEnb.vse.cz/~arltova/vyuka/DU_4ST201.pdf · 2) Kontingenční tabulka – analýza kategoriálních dat Na základě průzkumu provedeného u vybraných 30 osob, které

2) Kontingenční tabulka – analýza kategoriálních dat Na základě průzkumu provedeného u vybraných 30 osob, které vycestovaly v roce 2006 do ciziny byla sestavena následující kontingenční tabulka.

Francie, Chorvatsko a Španělsko sloučíme do skupiny přímořské destinace a Norsko a Irsko do skupiny poznávací destinace. Máme rozhodnout, zda výběr cestovní kanceláře závisí na vybrané destinaci.

Table Analysis

Frequency Expected Col Pct

Table of radek by sloupec

sloupec radek 1 2 3 4 Total

1 54

100.00

64.8

100.00

66.4

75.00

7 8.8

63.64

24

2 01

0.00

01.2

0.00

21.6

25.00

4 2.2

36.36

6

Total 5 6 8 11 30

Na prvním místě v buňce jsou zobrazeny sdružené absolutní četnosti, na druhém očekávané četnosti a na třetím místě jsou zobrazeny sdružené relativní četnosti v procentech. Pomocí Chí-kvadrát testu testujeme hypotézu H0: výběr cestovní kanceláře nezávisí na vybrané destinaci. Alternativní hypotéza je H1: non H0.

Destinace/CK CK Jiří Kalousek (1) CK Sunny Day (2) CK Union (3) Žádná CK (4) Celkem Přímořské (1) 5 6 6 7 24 Poznávací (2) 0 0 2 4 6

Celkem 5 6 8 11 30

Page 8: SEMINÁRNÍ PRÁCEnb.vse.cz/~arltova/vyuka/DU_4ST201.pdf · 2) Kontingenční tabulka – analýza kategoriálních dat Na základě průzkumu provedeného u vybraných 30 osob, které

V této tabulce nalezneme výsledek testované hypotézy.

Statistics for Table of radek by sloupec

Hodnota v řádku Chi-Square a sloupci Value udává hodnotu testového kritéria a je tedy 4,7159. Hodnota ve sloupci Prob je vyšší než 0,05, tj. 0,1938, a proto na 5% hladně významnosti testovanou hypotézu H0 nezamítáme. Výběr cestovní kanceláře nezávisí na vybrané destinaci. 3) Korelační tabulka – korelační analýza Předmětem korelační analýzy je zkoumání lineárních vztahů mezi dvěma nebo více proměnnými. Mírou těsnosti těchto vztahů jsou korelační koeficienty. Korelační koeficient může nabývat hodnot z intervalu <-1, +1>, přičemž znaménko určuje směr závislosti. Hodnoty blízké nule znamenají slabou lineární závislost mezi pozorovanými hodnotami proměnných X1 a X2, hodnoty blízké +1 znamenají vysokou kladnou korelaci (body odpovídající dvojicím X1 a X2 leží v blízkosti přímky s kladnou směrnicí), hodnoty blízké -1 znamenají vysokou zápornou korelaci (body odpovídající dvojicím hodnot X1 a X2 leží v blízkosti přímky se zápornou směrnicí). Máme výběr 30 obyvatel města Vysoké Mýto, kteří v roce 2006 vycestovali do zahraničí. Zajímá nás jak spolu souvisí délka pobytu v zahraničí s cenou pobytu.

Délka pobytu v zahraničí

Cena pobytu v zahraničí

Délka pobytu v zahraničí

Cena pobytu v zahraničí

12 4 900,00 Kč 10 8 699,00 Kč 13 18 500,00 Kč 15 6 590,00 Kč 10 6 330,00 Kč 10 10 380,00 Kč 12 11 990,00 Kč 10 5 989,00 Kč 20 20 000,00 Kč 29 23 000,00 Kč 10 14 790,00 Kč 5 6 999,00 Kč 10 7 789,00 Kč 13 5 500,00 Kč 12 6 500,00 Kč 10 9 790,00 Kč 12 6 580,00 Kč 11 6 330,00 Kč 25 22 500,00 Kč 10 7 299,00 Kč 12 15 390,00 Kč 11 4 000,00 Kč 5 4 000,00 Kč 24 10 380,00 Kč

13 4 300,00 Kč 11 5 500,00 Kč 10 5 800,00 Kč 11 6 580,00 Kč 10 8 999,00 Kč 12 12 490,00 Kč

Statistic DF Value Prob

Chi-Square 3 4.7159 0.1938

Likelihood Ratio Chi-Square 3 6.6062 0.0856

Mantel-Haenszel Chi-Square 1 4.1763 0.0410

Phi Coefficient 0.3965

Contingency Coefficient 0.3686

Cramer's V 0.3965 Sample Size = 30

Page 9: SEMINÁRNÍ PRÁCEnb.vse.cz/~arltova/vyuka/DU_4ST201.pdf · 2) Kontingenční tabulka – analýza kategoriálních dat Na základě průzkumu provedeného u vybraných 30 osob, které

Testovaná hypotéza H0: ς = 0 (neexistuje lineární vztah mezi X1 a X2) Alternativní hypotéza H1: ς ≠ 0 (existuje lineární vztah mezi X1 a X2)

1 With Variables: cena pobytu

1 Variables: delka pobytu

Pearson Correlation Coefficients, N = 30 Prob > |r| under H0: Rho=0

delka pobytu

cena pobytu 0.73516<.0001

V tabulce je uvedena hodnota korelačního koeficientu (0,73516) a P-hodnota (<.0001), která odpovídá hodnotě testové statistiky. Protože α = 0,05 je větší než P-value, testovanou hypotézu H0 zamítáme. Jak je vidět mezi proměnnými délka pobytu a cena pobytu lze pozorovat přímou silnou lineární závislost (korelaci), což vyplývá i z grafu uvedeného níže. Lze tedy říci, že s rostoucími hodnotami jedné proměnné střední hodnota druhé proměnné také roste.

Page 10: SEMINÁRNÍ PRÁCEnb.vse.cz/~arltova/vyuka/DU_4ST201.pdf · 2) Kontingenční tabulka – analýza kategoriálních dat Na základě průzkumu provedeného u vybraných 30 osob, které

Hodnoty korelačního koeficientu a test hypotézy H0: ς = 0 proti H1: ς ≠ 0 lze určit i z výstupu lineární regrese. Pokud cena pobytu je vysvětlovaná proměnná a délka pobytu je vysvětlující proměnná, pak dostaneme tyto výstupy:

Linear Regression Dependent Variable: cena pobytu

Parameter Estimates

Variable DF Parameter

Estimate Standard

Error t Value Pr > |t|

Intercept 1 -428.73214 1876.42191 -0.23 0.8209

delka pobytu 1 826.17023 143.97146 5.74 <.0001

Z tabulky odečteme hodnotu regresního koeficientu b12 = 826,17023. Korelační koeficient souvisí s koeficientem determinace modelu regresní přímky. Absolutní hodnotu korelačního koeficientu dostaneme odmocněním koeficientu determinace, který je uveden v následující tabulce.

Root MSE 3752.84382 R-Square 0.5405

Dependent Mean 9595.46667 Adj R-Sq 0.5240

Coeff Var 39.11059 Korelační koeficient: r = √R2 = √0,5405 = 0,735187. Z hodnoty koeficientu determinace plyne, že modelem regresní přímky je vysvětleno 54,05 % variability závislé proměnné (cena pobytu). Pokud za vysvětlovanou proměnnou zvolíme délku pobytu a vysvětlující proměnnou bude cena pobytu, pak obdržíme tyto výstupy:

Linear Regression Dependent Variable: delka pobytu

Z tabulky odečteme hodnotu regresního koeficientu b21 = 0,00065417. Korelační koeficient souvisí s koeficientem determinace modelu regresní přímky. Absolutní hodnotu korelačního koeficientu dostaneme odmocněním koeficientu determinace, který je uveden v následující tabulce.

Parameter Estimates

Variable DF Parameter

Estimate Standard

Error t Value Pr > |t|

Intercept 1 5.85630 1.25230 4.68 <.0001

cena pobytu 1 0.00065417 0.00011400 5.74 <.0001

Page 11: SEMINÁRNÍ PRÁCEnb.vse.cz/~arltova/vyuka/DU_4ST201.pdf · 2) Kontingenční tabulka – analýza kategoriálních dat Na základě průzkumu provedeného u vybraných 30 osob, které

Korelační koeficient: r = √R2 = √0,5405 = 0,735187. Z hodnoty koeficientu determinace opět plyne, že modelem regresní přímky je vysvětleno 54,05 % variability závislé proměnné (délka pobytu). Závěrem lze shrnout: Korelační koeficient je symetrickou mírou lineární závislosti a jeho odhad získáme odmocněním koeficientu determinace modelu regresní přímky, případně doplněním záporného znaménka. Závisle proměnnou přitom může být kterákoli ze dvou uvažovaných proměnných. K testu hypotézy H0: ς = 0 proti H1: ς ≠ 0 můžeme použít ekvivalentní test H0: βj = 0 proti H1: βj ≠ 0, jehož výsledek najdeme na příslušném výstupu lineární regrese. 4) Jednoduchou regresní analýza Cílem regresní analýzy je nalezení vztahu mezi vysvětlovanou nebo závisle proměnnou Y a jednou nebo více vysvětlujícími proměnnými (nezávisle proměnnými) X1, X2, … , Xk a konstrukce vhodného modelu. Nejznámější charakteristikou kvality regresního modelu je koeficient determinace R2. Koeficient determinace nabývá hodnot z intervalu <0;1> a udává, jakou část celkové variability pozorovaných hodnot lze vysvětlit daným modelem. Každý dotázaný je již vydělávající osobou. Chceme zjistit, zda cena, kterou vybrané osoby zaplatily za pobyt v zahraničí závisí na výši jejich měsíčních příjmů. a) Regresní přímka: y=β0 + β1 + ε

Linear Regression Dependent Variable: cena pobytu

Parameter Estimates

Variable DF Parameter

Estimate Standard

Error t Value Pr > |t|

Intercept 1 -3609.16087 2781.32495 -1.30 0.2050

mesícní príjem 1 0.81965 0.16643 4.93 <.0001 Tabulka obsahuje odhady parametrů regresní přímky, směrodatné chyby těchto odhadů, hodnoty testové statistiky při testování hypotéz H0: βj = 0 proti H1: βj ≠ 0 pro j = 0, 1, příslušné P-hodnoty a meze intervalů spolehlivosti pro βj. β0 = -3609,16087 P-Value = 0,2050 ›0,05 → H0 nezamítáme, β0 je statisticky

nevýznamný parametr β1 = 0,81965 P-Value <.0001, tj. 0 ‹ 0,05 → H0 zamítáme, β1 je statistiky

významný parametr Tato funkce (přímka) není vhodná pro vystižení závislosti.

Root MSE 3.33941 R-Square 0.5405

Dependent Mean 12.13333 Adj R-Sq 0.5240

Coeff Var 27.52262

Page 12: SEMINÁRNÍ PRÁCEnb.vse.cz/~arltova/vyuka/DU_4ST201.pdf · 2) Kontingenční tabulka – analýza kategoriálních dat Na základě průzkumu provedeného u vybraných 30 osob, které

b) Parabola: Yi = β0 + β1 xi + β2 xi2

Linear Regression

Dependent Variable: cena pobytu

Parameter Estimates

Variable DF Parameter

Estimate Standard

Error t Value Pr > |t|

Intercept 1 11683 10852 1.08 0.2912

mesicni prijem 1 -1.06167 1.30254 -0.82 0.4222

mesicni prijem2 1 0.00005376 0.00003693 1.46 0.1570 Tabulka obsahuje odhady parametrů regresní paraboly, směrodatné chyby těchto odhadů, hodnoty testové statistiky při testování hypotéz H0: βj = 0 proti H1: βj ≠ 0 pro j = 0, 1, 2, příslušné P-hodnoty a meze intervalů spolehlivosti pro βj. β0 = 11 683 P-Value = 0,2912 ›0,05 → H0 nezamítáme, β0 je statisticky

nevýznamný parametr β1 = 0,81965 P-Value = 0,4222 › 0,05 → H0 nezamítáme, β1 je statistiky

nevýznamný parametr β2 = 0,00005376 P-Value = 0,1570 › 0,05 → H0 nezamítáme, β2 je statistiky

nevýznamný parametr Tato funkce (parabola) není vhodná pro vystižení závislosti. 3) Exponenciála: Yi = β0 x β1

xi → ln Yi = ln β0 x xi ln β1

Linear Regression Results Dependent Variable: ln cena pobytu

Parameter Estimates

Variable DF Parameter

Estimate Standard

Error t Value Pr > |t|

Intercept 1 7.85797 0.26543 29.61 <.0001

mesicni prijem 1 0.00007322 0.00001588 4.61 <.0001 Tabulka obsahuje odhady parametrů regresní paraboly, směrodatné chyby těchto odhadů, hodnoty testové statistiky transformovaného exponenciálního modelu při testování hypotéz H0: βj = 0 proti H1: βj ≠ 0 pro j = 0, 1, příslušné P-hodnoty a meze intervalů spolehlivosti pro βj. β0 = 7,85797 P-Value = <.0001 ‹ 0,05 → H0 zamítáme, β0 je statisticky významný

parametr β1 = 0,00007322 P-Value = <.0001 ‹ 0,05 → H0 zamítáme, β1 je statisticky významný

parametr Tato funkce (exponenciála) je vhodná pro vystižení závislosti.

Page 13: SEMINÁRNÍ PRÁCEnb.vse.cz/~arltova/vyuka/DU_4ST201.pdf · 2) Kontingenční tabulka – analýza kategoriálních dat Na základě průzkumu provedeného u vybraných 30 osob, které

→ ln Yi = 7,85797 + 0,00007322 xi → Yi = exp (7,85797 + 0,00007322 xi)

Analysis of Variance

Source DF Sum of

Squares Mean

Square F Value Pr > F

Model 1 3.17897 3.17897 21.26 <.0001

Error 28 4.18750 0.14955

Corrected Total 29 7.36647 Testové kritérium F-Value = 21,26. P-Value = <.0001, tj. 0 ‹ 0,05 → testovanou hypotézu o nezávislosti H0 zamítáme. Cena, kterou vybrané osoby zaplatily za pobyt v zahraničí závisí na výši měsíčního příjmu těchto osob. Jak moc?

Root MSE 0.38672 R-Square 0.4315

Dependent Mean 9.03762 Adj R-Sq 0.4112

Coeff Var 4.27902 Koeficient determinace R2 = 0,4315. To znamená, že tento model vysvětluje 43,15 % celkové variability závisle proměnné.

Linear Regression Dependent Variable: ln cena pobytu

Durbin-Watson D 1.940

Number of Observations 30

1st Order Autocorrelation 0.018

Durbin-Watsonův test testuje nezávislost reziduí. Je-li výsledná hodnota blízká číslu 2 (jako je tomu v našem případě, kdy D-W = 1,940), rezidua nejsou autokorelovaná (nejsou vzájemně lineárně závisle) a model byl zvolen správně. Níže je uvedeno grafické znázornění závislosti.

Page 14: SEMINÁRNÍ PRÁCEnb.vse.cz/~arltova/vyuka/DU_4ST201.pdf · 2) Kontingenční tabulka – analýza kategoriálních dat Na základě průzkumu provedeného u vybraných 30 osob, které

Regression Analysis Plots

4) Hyperbola: Y = b0 + b1 1/x

Linear Regression Dependent Variable: cena pobytu

Parameter Estimates

Variable DF Parameter

Estimate Standard

Error t Value Pr > |t|

Intercept 1 21821 3183.39572 6.85 <.0001

inv_mesicni prijem 1 -183256611 46152615 -3.97 0.0005 Tabulka obsahuje odhady parametrů regresní hyperboly, směrodatné chyby těchto odhadů, hodnoty testové statistiky transformovaného exponenciálního modelu při testování hypotéz H0: βj = 0 proti H1: βj ≠ 0 pro j = 0, 1, příslušné P-hodnoty a meze intervalů spolehlivosti pro βj. β0 = 21 821 P-Value = <.0001, tj. 0 ‹ 0,05 → H0 zamítáme, β0 je statisticky

významný parametr β1 = -183 256 611 P-Value = 0,0005 ‹ 0,05 → H0 zamítáme, β1 je statisticky významný

parametr Tato funkce (hyperbola) je vhodná pro vystižení závislosti. → Yi = 21 821 -183 256 611 xi

Page 15: SEMINÁRNÍ PRÁCEnb.vse.cz/~arltova/vyuka/DU_4ST201.pdf · 2) Kontingenční tabulka – analýza kategoriálních dat Na základě průzkumu provedeného u vybraných 30 osob, které

Analysis of Variance

Source DF Sum of

Squares Mean

Square F Value Pr > F

Model 1 309127164 309127164 15.77 0.0005

Error 28 548995165 19606970

Corrected Total 29 858122329 Testové kritérium F-Value = 15,77. P-Value = 0,0005 ‹ 0,05 → testovanou hypotézu o nezávislosti H0 zamítáme. Cena, kterou vybrané osoby zaplatily za pobyt v zahraničí závisí na výši měsíčního příjmu těchto osob. Jak moc?

Root MSE 4427.97586 R-Square 0.3602

Dependent Mean 9595.46667 Adj R-Sq 0.3374

Coeff Var 46.14654 Koeficient determinace R2 = 0,3602. To znamená, že tímto modelem je vysvětleno 36,02 % celkové variability závisle proměnné.

Linear Regression Dependent Variable: cena pobytu

Durbin-Watson D 1.500

Number of Observations 30

1st Order Autocorrelation 0.245 Durbin-Watsonův test testuje nezávislost reziduí. Je-li výsledná hodnota blízká číslu 2 (jako je tomu v našem případě, kdy D-W = 1,500), rezidua nejsou autokorelovaná (nejsou vzájemně lineárně závisle) a model byl zvolen správně. Níže je uvedeno grafické znázornění závislosti.

Page 16: SEMINÁRNÍ PRÁCEnb.vse.cz/~arltova/vyuka/DU_4ST201.pdf · 2) Kontingenční tabulka – analýza kategoriálních dat Na základě průzkumu provedeného u vybraných 30 osob, které

Regression Analysis Plots

5) Logaritmická regrese: Y = b0 + b1 ln(x)

Linear Regression Dependent Variable: cena pobytu

Parameter Estimates

Variable DF Parameter

EstimateStandard

Error t Value Pr > |t|

Intercept 1 -114564 27624 -4.15 0.0003

ln_mesicni prijem 1 12866 2861.30682 4.50 0.0001 Tabulka obsahuje odhady parametrů logaritmické regrese, směrodatné chyby těchto odhadů, hodnoty testové statistiky transformovaného exponenciálního modelu při testování hypotéz H0: βj = 0 proti H1: βj ≠ 0 pro j = 0, 1, příslušné P-hodnoty a meze intervalů spolehlivosti pro βj. β0 = -114 564 P-Value = 0,0003 ‹ 0,05 → H0 zamítáme, β0 je statisticky významný

parametr β1 = 12 866 P-Value = 0,0001 ‹ 0,05 → H0 zamítáme, β1 je statisticky významný

parametr Tato funkce (logaritmická) je vhodná pro vystižení závislosti. → Y = -114 564 + 12 866 ln(x)

Page 17: SEMINÁRNÍ PRÁCEnb.vse.cz/~arltova/vyuka/DU_4ST201.pdf · 2) Kontingenční tabulka – analýza kategoriálních dat Na základě průzkumu provedeného u vybraných 30 osob, které

Analysis of Variance

Source DF Sum of

Squares Mean

Square F Value Pr > F

Model 1 359810948 359810948 20.22 0.0001

Error 28 498311381 17796835

Corrected Total 29 858122329 Testové kritérium F-Value = 20,22. P-Value = 0,0001 ‹ 0,05 → testovanou hypotézu o nezávislosti H0 zamítáme. Cena, kterou vybrané osoby zaplatily za pobyt v zahraničí závisí na výši měsíčního příjmu těchto osob. Jak moc?

Root MSE 4218.62952 R-Square 0.4193

Dependent Mean 9595.46667 Adj R-Sq 0.3986

Coeff Var 43.96482 Koeficient determinace R2 = 0,4193. To znamená, že tímto modelem je vysvětleno 41,93 % celkové variability závisle proměnné.

Linear Regression Dependent Variable: cena pobytu

Durbin-Watson D 1.585

Number of Observations 30

1st Order Autocorrelation 0.203 Durbin-Watsonův test testuje nezávislost reziduí. Je-li výsledná hodnota blízká číslu 2 (jako je tomu v našem případě, kdy D-W = 1,585), rezidua nejsou autokorelovaná (nejsou vzájemně lineárně závisle) a model byl zvolen správně.

Page 18: SEMINÁRNÍ PRÁCEnb.vse.cz/~arltova/vyuka/DU_4ST201.pdf · 2) Kontingenční tabulka – analýza kategoriálních dat Na základě průzkumu provedeného u vybraných 30 osob, které

Níže je uvedeno grafické znázornění závislosti.

Regression Analysis Plots

Závěr: ejvhodnější regresní funkcí pro modelování závislosti ceny pobytu na výši měsíčních příjmů je exponenciála. 5) Vícenásobnou regresní analýza Zkoumá závislost y nejen na vysvětlující proměnné x1 ale též na dalších vysvětlujících proměnných x2 , x3 , x4,… Jsou dána data o délce pobytu v zahraničí, věku osob a měsíčním příjmu. Chceme zjistit, zda délka pobytu v zahraničí závisí na ostatních proměnných.

Délka pobytu v zahraničí

(y) Věk (x1)

Měsíční příjem (x2)

Délka pobytu v zahraničí (y) Věk (x1)

Měsíční příjem (x2)

12 39 12 600,00 Kč 10 37 21 500,00 Kč13 28 25 600,00 Kč 15 55 14 400,00 Kč10 53 9 400,00 Kč 10 47 16 400,00 Kč12 48 12 400,00 Kč 10 50 10 600,00 Kč20 24 22 400,00 Kč 29 22 23 800,00 Kč10 37 14 400,00 Kč 5 33 16 000,00 Kč10 44 24 200,00 Kč 13 46 14 600,00 Kč12 39 16 800,00 Kč 10 38 16 800,00 Kč12 41 10 200,00 Kč 11 20 12 800,00 Kč25 26 23 800,00 Kč 10 34 13 800,00 Kč12 35 17 400,00 Kč 11 46 12 400,00 Kč5 25 13 000,00 Kč 10 27 11 600,00 Kč

13 28 11 400,00 Kč 11 29 18 400,00 Kč10 31 15 400,00 Kč 11 49 17 000,00 Kč10 42 14 600,00 Kč 12 38 19 600,00 Kč

Page 19: SEMINÁRNÍ PRÁCEnb.vse.cz/~arltova/vyuka/DU_4ST201.pdf · 2) Kontingenční tabulka – analýza kategoriálních dat Na základě průzkumu provedeného u vybraných 30 osob, které

Testovaná hypotéza H0: I2 = 0 (nezávislost) Alternativní hypotéza H1: I2 ≠ 0 (závislost) → Yi = β0 + βyx1.x2X1 + βyx2.x1X2 + εi

Linear Regression Dependent Variable: delka pobytu

Parameter Estimates

Variable DF Parameter

Estimate Standard

Error t Value Pr > |t|

Intercept 1 6.69860 5.23994 1.28 0.2120

vek 1 -0.06740 0.08788 -0.77 0.4498

mesicni prijem 1 0.00049229 0.00018806 2.62 0.0143 Z tabulky můžeme opět vyčíst hodnoty regresních parametrů. β0 = 6,69860 P-Value = 0,2120 › 0,05 → H0 nezamítáme, β0 je statisticky nevýznamný

parametr β1 = - 0,06740 P-Value = 0,4498 › 0,05 → H0 nezamítáme, β1 je statisticky nevýznamný

parametr β2 = 0, 00049229 P-Value = 0,0143 ‹ 0,05 → H0 zamítáme, β2 je statisticky významný

parametr Parametry β0 a β1 musíme z modelu vyřadit, jelikož jsou statisticky nevýznamné. Nejprve vyřadíme konstantu β0. Tím získáme následující hodnoty:

Linear Regression

Dependent Variable: delka pobytu

Parameter Estimates

Variable DF Parameter

Estimate Standard

Error t Value Pr > |t|

vek 1 0.02569 0.04975 0.52 0.6097

mesicni prijem 1 0.00068488 0.00011383 6.02 <.0001 Protože proměnná β1 i nadále zůstává statisticky nevýznamná, musíme jí také vyřadit z modelu. Nyní již zbývá v modelu jen vysvětlující proměnná měsíční příjem. β2 = 0,00073836 P-Value <.0001, tj. 0 ‹ 0,05 → H0 zamítáme, β2 je statisticky (VIZ níže) významný parametr

Page 20: SEMINÁRNÍ PRÁCEnb.vse.cz/~arltova/vyuka/DU_4ST201.pdf · 2) Kontingenční tabulka – analýza kategoriálních dat Na základě průzkumu provedeného u vybraných 30 osob, které

Linear Regression Dependent Variable: delka pobytu

Parameter Estimates

Variable DF Parameter

Estimate Standard

Error t Value Pr > |t|

mesicni prijem 1 0.00073836 0.00004662 15.84 <.0001 → Yi = 0,00073836X2 + εi

Analysis of Variance

Source DF Sum of

Squares Mean

Square F Value Pr > F

Model 1 4567.93230 4567.93230 250.86 <.0001

Error 29 528.06770 18.20923

Uncorrected Total 30 5096.00000 Testové kritérium F-Value = 250,86. P-Value <.0001, tj. 0 ‹ 0,05 → testovanou hypotézu o nezávislosti H0 zamítáme. Délka pobytu v zahraničí závisí pouze na výši měsíčního příjmu. Jak moc?

Root MSE 4.26723 R-Square 0.8964

Dependent Mean 12.13333 Adj R-Sq 0.8928

Coeff Var 35.16946 Koeficient determinace R2 = 0,8964. To znamená, že tento model vysvětluje 89,64 % celkové variability závisle proměnné.

Linear Regression Dependent Variable: delka pobytu

Durbin-Watson D 2.402

Number of Observations 30

1st Order Autocorrelation -0.213 Durbin-Watsonův test testuje nezávislost reziduí. Je-li výsledná hodnota blízká číslu 2 (jako je tomu v našem případě, kdy D-W = 2,402), rezidua nejsou autokorelovaná (nejsou vzájemně lineárně závisle) a model byl zvolen správně.


Recommended