tatisti a s Ex e m
171
8. K A E V LO T DVOCH
KVA T TAT V CH AKOV
8.1 tatistick z vislos le it loha v etk ch technick ch, ekonomick ch i soci lnych oborov je h ada
a sk ma z vislos medzi premenn mi. oteraz sme pracovali s funk n mi
vz ahmi, kde z visl premenn y je jednozna ne ur en funkciou xfy alebo
nxxxfy ,...,, 21 .
asto v ak, v d sledku p sobenia n hodn ch faktorov, alebo nezoh ad ovania
nejak ho faktora, i v d sledku nepresnosti merania m z visle premenn Y a jej
pozorovan hodnoty nyyy ,...,, 21 povahu n hodnej veli iny, ktor m ist rozde-
lenie pravdepodobnosti. Tak to z vislos sa vol stochastick ( tatistick ) z vis-
los . Nez visl premenn m u by nen hodn (fixn ) alebo tie n hodn veli i-
ny. V tejto asti sa budeme zaobera jednoduchou (p rovou) regresiou, kde
uva ujeme len jednu nez visl premenn X s hodnotami .,...,, 21 nxxx
Uva ujme z vislos ceny ojazden ho auta v autobaz re od veku auta. ist -
me, e aut s rovnak m vekom maj r znu cenu. Preto cenu napr klad tvorro -
n ho auta pova ujeme za n hodn premenn , jej rozdelenie sa vol podmiene-
n rozdelenie. Kedy teda pova ujeme n hodn veli iny za tatisticky z visl
Rozdelenie po etnost jednej veli iny Y (kvantitat vneho znaku), ktor zodpove-
d istej, konkr tnej hodnote druhej veli iny X (kvantitat vneho znaku) sa vol
podmienen rozdelenie po etnost . Ak pri zmen ch hodn t jedn ho znaku do-
ch dza ku zmen m podmienen ho rozdelenia po etnost druh ho znaku, pova-
ujeme znaky za tatisticky z visl . A naopak, ak pri zmen ch jedn ho znaku sa
nemen rozdelenie druh ho znaku, pova ujeme ich za nez visl . O tatistickej
z vislosti mo no hovori aj u kvalitat vnych znakov. Element rny sp sob grafick ho zn zornenia z vislosti dvoch kvantitat vnych
znakov je bodov diagram. o zn zornenia bodov nn yxyxyx ,...,,,,, 2211
tatisti a s Ex e m
172
v rovine, kde ii yx , s konkr tne hodnoty premenn ch X ,Y nameran na i-tej ta-
tistickej jednotke, mo no zisti charakteristick rysy z vislosti. Obr. 8.1A ukazu-
je, e s narastaj cimi hodnotami premennej X rast aj hodnoty premennej Y a na-
vy e, e sa tento rast postupne spoma uje. Schematicky zn zor uje t to tendenciu
krivka prelo en medzi bodmi. Vol me ju regresn krivka. Na Obr.8.1B
s narastaj cim X rast aj hodnoty Y, ale rast sa postupne zr ch uje. vislosti zn -
zornen na obr zkoch maj teda r zny priebeh.
Obr. 8.1 R zne druhy z vislost
0
1
2
3
4
0 1 2 3 0 1 2 3 4
0 1 2 3
r > 0 r < 0
C D
0,5 1
1,5 2
0 1 2 3 4 5
2468
1012
0 1 2 3
tesn z vislos vone ia z vislos
A B
E
0 0,2 0,4 0,6 0,8
1 1,2
- 1,5 - 1 - 0,5 0 0,5 1 1,5 0 1 2 3 4 5
0 1 2 3
r= 0 r= 0
E F
tatisti a s Ex e m
173
Obr zky sa l ia e te z in ho h adiska. Na Obr.8.1B s jednotliv body rozpt len
okolo regresnej krivky ove a viac ako na Obr.8.1A. Medzi X a Y na Obr.8.1B je
vo nej ia z vislos ako na Obr.8.1A. Obe z vislosti sa l ia silou z vislosti.
Pri sk man z vislosti teda treba rie i dve lohy, ktor spolu zko s visia:
Pos di tesnos z vislosti pomocou nejakej charakteristiky, ktor popisuje do akej miery premenn X vysvet uje variabilitu premennej Y (korela n anal -
za).
Charakterizova priebeh tejto z vislosti, to znamen , odhadn funk n vz ah, pod a ktor ho sa men z visl premenn pri zmen ch nez visle premennej (re-
gresn anal za).
Pod a toho, ko ko nez visl ch premenn ch berieme do vahy pri rie en t chto
loh, hovor me
o jednoduchej (p rovej) korel cii a regresii, ak pracujeme len s jednou nez vis-lou premennou,
o viacn sobnej (mnohon sobnej ) korel cii a regresii, ak je po et nez visl ch premenn ch v ako jeden.
Pou itie viacn sobnej regresie s ce vedie k presnej m odhadom, ale ve k po et
premenn ch s a uje anal zu lohy i interpret ciu v sledkov. Preto v modeli treba uva-
ova len tie premenn , ktor maj z sadn vplyv na z visl premenn .
V celej tejto kapitole ide len o zis ovanie matematick ch s vislost , ktor nem eme
zamie a za vz ah pr iny a n sledku, lebo ani vysok stupe tatistickej z vislosti ne-
hovor ni o pr innej s vislosti javov. V inou t to zdanliv s vislos sp sobuje tret
faktor, na ktorom s oba p vodn javy z visl . Pri zlej interpret cii m eme dosta
komick tvrdenia. Napr klad zisten vz ah medzi n zkou augustovou spotrebou plynu
v kotolniach a vysok m predajom opa ovac ch kr mov ovplyv uje tret faktor - po a-
sie.
tatisti a s Ex e m
174
8.2 Korela n anal za Vz ah medzi X, Y m e ma r znu intenzitu, od plnej nez vislosti a po pln
funk n z vislos . Stupe tatistickej z vislosti sa d pop sa r znymi mierami,
my sa budeme venova len kovariancii a korela n mu koeficientu premenn ch
X, Y. Obe charakteristiky s miery line rnej z vislosti premenn ch X, Y. Kova-
riancia medzi X, Y vo v berovom s bore s rozsahom n je slo n
iii yyxxn
xy1
1cov . (8.1)
Vz ah sa d upravi na jednoduch tvar
n
iiiii yxyxyxyxn
xy1
1cov = iiii xnyy
nxyx
n1 1
nyx
= yxxy . (8.2)
Vlastnosti kovariancie:
xycov m e nadobudn ubovo n re lnu hodnotu.
yxxy covcov .
Ak 0cov xy , premenn X, Y s priamo line rne z visl (Obr. 8.1C ).
Ak 0cov xy , premenn X, Y s nepriamo line rne z visl (Obr. 8.1 ).
Ak X,Y s nez visl , potom 0cov xy (Obr. 8.1F ).
Kovariancia je mierou line rnej z vislosti, nehovor ni o in ch typoch z vis-
losti. To, e 0cov xy (hovor me aj, e X, Y s nekorelovan ) e te nezname-
n , e X, Y s nez visl . Aj v pr pade nulovej kovariancie m u by znaky ne-
line rne funk ne z visl (Obr. 8.1E).
Nev hodou kovariancie je, e jej hodnoty s z visl na mierke, v ktorej s vy-jadren X ,Y. Preto vznikla veli ina, ktor tento nedostatok nem , a to korela -
n koeficient.
tatisti a s Ex e m
175
Korela n koeficient je v z kladnom s bore ozna ovan yx, a definovan
yx
yxxy
.cov
, , (8.3)
Ak pou ijeme namiesto z kladn ho s boru v berov s bor a kovarianciu v bero-
v ho s boru a tandardn odch lky v berov ho s boru
21 xxn
s ix a 21 yy
ns iy ,
dostaneme bodov odhad (ale skreslen ) korela n ho koeficientu, ktor sa vol
v berov korela n koeficient yxr , :
22,
. yyxx
yyxxrii
iiyx (8.4)
Vlastnosti korela n ho koeficientu:
1yxr .
xyyx rr , preto sa pou va stru n ozna enie len r (alebo len ) .
Ak 0yxr , premenn X,Y s priamo line rne z visl (Obr. 8.1C).
Ak 0yxr , premenn X, Y s nepriamo line rne z visl (Obr. 8.1 ).
Korela n koeficient je mierou sily line rnej z vislosti, nehovor ni o in ch typoch z vislosti. V pr pade nulov ho korela n ho koeficientu znaky s line-
rne nez visl , m u by ale a neline rne funk ne z visl , o ilustruje Obr.
8.1E.
Ke medzi premenn mi X , Y je funk n line rny vz ah XBBY 10
( 01B ), potom 1yxr pre 01B , ( 1yxr pre 01B ).
nterpret cia konkr tnej hodnoty korela n ho koeficientu z vis od povahy ex-periment lnych dajov a od rozsahu v berov ho s boru. Absol tna hodnota
tatisti a s Ex e m
176
korela n ho koeficientu bl zka jednotke znamen siln z vislos , bl zka nule
slab z vislos .
Hodnota korela n ho koeficientu je nez visl na mern ch jednotk ch.
Ak je v berov korela n koeficient bl zky nule, chceme overi , i je nenulo-
v len v d sledku n hodn ho v beru. Uvedieme len jeden z mnoh ch testov pre
testovanie korela n ho koeficientu.
T-test line rnej nez vislosti premenn ch X, Y overuje platnos :0H 0
oproti alternat vnej hypot ze :1H 0 .
Ekvivalentne mo no formulova test takto:
:0H naky s line rne nez visl .
:1H naky s line rne z visl .
Tab. 8.1 T-test line rnej nez vislosti
Hypot zy ou it
rozdelenie Testovacia
tatistika Oblas
zamietnutia H0
H0: 0
H1: 0
Studentovo
212
rnrT
,21tt
2.. nfd
r klad 8.1
V s bore Autobaz r s daje o veku a cen ch ut z 3 predajn autobaz ru. n -
zornite bodov m diagramom z vislos ceny od veku. Vy etrite pomocou korela -
n ho koeficientu a kovariancie z vislos ceny auta od veku, pou ite daje zo v et-
k ch 3 predajn . Na hladine spo ahlivosti 05,0 otestujte nulov hypot zu
0:0H , oproti alternat vnej hypot ze .0:1H
tatisti a s Ex e m
177
Pou itie EXCELu pri rie en korela nej lohy budeme ilustrova na rie en Pr kla-
du 8.1.
Po vo be lo i graf vislos vytvor me bodov diagram (Obr. 8.2). grafu
vidie , e s narastaj cim vekom mierne kles cena ut. Po vo be s ro-
je nal a dajov orel cia a zadan dajov sa objav v stupn korela n mati-
ca. Na jej uhloprie ke s 1xxr a 1yyr , a okrem toho v berov korela n ko-
eficient 6748,0yxr , o predstavuje nepriamu miernu line rnu z vislos , t.j.
s narastaj cim vekom kles cena auta.
Obr. 8.2 Bodov graf z vislosti ceny ut od veku
Po vo be s roje nal a dajov ovariancia ako v stup dostaneme kova-
rian n ma icu, na jej uhloprie ke s hodnoty n
iix xxn
s1
22 1 a
n
iiy yyn
s1
22 1 a 044,25cov xy . Rovnak v sledky sa daj z ska aj postu-
pom Prilepi funkciu a is ick CORREL (COVAR).
050
100150200250300350
0 2 4 6 8vek
cena
tatisti a s Ex e m
178
Tab. 8.2 Korela n matica Tab. 8.3 Kovarian n matica
cena vek cena vek
cena 1 cena 1080,48391
vek -0,67487 1 vek -25,044 1,27456
Na z ver testujme hypot zu 0:0H oproti alternat vnej hypot ze .0:1H
Hodnota testovacej tatistiky je 267487,01210667487,0t 3265,9 . Porov-
n me ju s kvantilom 983035,1104;975,0t Studentovho rozdelenia. Plat
9830,13265,9 , preto zamietame nulov hypot zu a tvrd me, e na hladine
v znamnosti 05,0 je 0 , alebo e line rna z vislos znakov je tatisticky
v znamn .
8.3 Regresn anal za ednoduch (p rov ) line rna regresia
lohou regresnej anal zy pri sk man tatistickej z vislosti Y na X je n js vhodn ma-
tematick model (funkciu), v ktorom je vyjadren predstava o tejto z vislosti. Ak by sa
n m podarilo odstr ni spolup sobenie ved aj ch vplyvov na vz ah medzi X a Y, le ali
by v etky body ii yx , na krivke s rovnicou xy , o je deterministick model. Na
premenn Y v ak vpl vaj okrem X aj in faktory, preto body ii yx , nele ia na krivke,
ale kol u okolo nej. To sa sna me zachyti aj v matematickom modeli. Preto ka d
hodnotu z visle premennej Y rozlo me na dve zlo ky, na deterministick a n hodn ,
t.j.
.,....,2,1, nixy iii
tatisti a s Ex e m
179
Funkcia x sa vol regresn funkcia. M e to by napr. priamka
xBBy 10 , parabola 2
210 xBxBBy a in zn me funkcie. N model, kto-
r zachyt va line rnu z vislos X, Y bude line rna funkcia regresn priam-
ka. Line rny vz ah medzi Y a X v z kladnom s bore mo no vyjadri modelom
iii xBBy 10 ...,2,1i (8.5)
kde iy i-ta hodnota premennej Y v z kladnom s bore,
0B priese n k osi y s regresnou priamkou,
1B regresn koeficient v z kladnom s bore, ktor ud va o ko ko sa
zmen y , ak sa x zmen o jednu jednotku (je to smernica regresnej
priamky),
ix i-ta hodnota premennej X v z kladnom s bore,
i i-ta n hodn chyba premennej Y.
as iixBB 10 je deterministick as modelu, vol me ju regresn
funkcia. e to n m nedostupn teoretick priamka - regresn priamka
v z kladnom s bore, okolo ktorej kol u skuto n hodnoty Y pre dan hodnoty X.
Preto e k dispoz cii m me len v berov s bor s rozsahom n, prelo me bodmi
v berov ho s boru vyrovn vaj cu regresn priamku, ktor m eme pova o-
va za bodov odhad regresnej priamky v z kladnom s bore. Ozna me ju vz a-
hom
ii xbby 10~ , ni ...,,2,1 (8.6)
kde iy~ - o ak van (vyrovnan ) hodnota premennej Y pre dan hodnotu pre
mennej X,
ix - i-ta hodnota premennej X,
0b - bodov odhad koeficientu 0B ,
1b - bodov odhad koeficientu 1B , vol sa v berov regresn koeficient.
tatisti a s Ex e m
180
Na v po et nezn mych koeficientov 0b a 1b v rovnici vyrovn vaj cej regresnej
priamky sa pou va met da najmen ch tvorcov. Ozna me rozdiely (chyby)
medzi nameran mi hodnotami iy a medzi vyrovnan mi hodnotami iy~ , t.j.
iii eyy ~ ako rez du (rezidu lne odch lky). S to bodov odhady n hodn ch
ch b i regresn ho modelu. Najlep ie prelo en priamka medzi bodmi
ii y,x je t , ktor minimalizuje s et tvorcov rezidu lnych odch lok
21
2 ~ii
n
ii yye . (8.7)
To je podstata met dy najmen ch tvorcov. Pri h adan koeficientov 0b a 1b vy-
u ijeme skuto nos , e h ad me minimum funkcie dvoch premenn ch
10 ,bbf2
1
2 ~ii
n
ii yye
210 xbbyi . (8.8)
Vieme, e extr m funkcie tohto typu m e existova len v stacion rnom bode
funkcie, t.j. mus plati
00b
f a 01b
f .
Teda
02 10 ii xbby (8.9)
02 10 iii xxbby (8.10)
Po prave rovnice (8.9) dostaneme
nbxby ii 01
odtia 0b nx
bny ii
1 = xby 1 .
pravou rovnice (8.10) dostaneme
210 iiii xbxbyx
211 . iiii xbxxbyyx
tatisti a s Ex e m
181
).( 21 iiiii xxxbxyyx
Po vyn soben poslednej rovnice v razom n1 a prave
22
1. xnxbyx
nyx iii 1b 2
.
xsyxxy
2cov
xsxy
x
y
ss
r
1bx
y
ss
r (8.11)
0b xby 1 . (8.12)
Vyrovn vaj ca regresn priamka m rovnicu xbby 10~
y~ xss
rss
rxyy
x
x
y
o po prave je xxss
ryyx
y~ (8.13)
xxbyy 1~ (8.14)
Nebudeme sa zdr iava d kazom, e v tomto stacion rnom bode m funkcia sku-
to ne lok lne minimum. Teoretick regresn priamku sme odhadli priamkou
xbby 10~ , ktor pova ujeme za bodov odhad nezn mej regresnej priamky .
ozn mka 8.1
Na kon trukciu koeficientov 0b a 1b nem eme pou i len s et ch b ie , lebo
v dy plat n
iie
10 , aj pre zle zvolen regresn priamku. V imnime si e te dve
vlastnosti regresnej priamky. Regresn priamka prech dza bodom yx ,
a regresn koeficient m v dy rovnak znamienko ako korela n koeficient.
tatisti a s Ex e m
182
8. 4 k manie tatistickej v znamnosti modelu Po n jden rovnice regresnej priamky treba overi , i tento model je kvalitn , i dob-
re vystihuje z vislos medzi X, Y. Pri rie en regresnej lohy prich dza asto do vahy
viacero typov regresn ch funkci (kvadratick , logaritmick ), preto sa sk ma, ktor
z t chto funkci lep ie prilieha v berov m dajom. To sa d mera r znymi charakte-
ristikami: rezidu lny s et tvorcov, rezidu lny rozptyl, tandardn odch lka rez -
du , koeficient determin cie alebo preveri r znymi testami.
Obr. 8.3 Rozklad celkovej variability premennej Y
Obr. 8.3 Rozklad celkovej variability premennej Y
Na Obr. 8.3 je jasn vz ah:
iiii yyyyyy ~~ , (8.15)
t.j. odch lka od celkov ho priemeru = odch lka vysvetlen regresiou odch lka
nevysvetlen regresiou ( rezidu lna). Prekvapivo plat aj
i i
iiii yyyyyy222 ~~ , (8.16)
SSESSRSSY (8.17)
SSY - je celkov variabilita premennej Y (celkov s et tvorcov, sum of squares
total),
0 xi
yyiiy~
iy
y
yyi~
ii yy ~
tatisti a s Ex e m
183
SSR - je variabilita vysvetlen regresn m modelom (sum of squares due to re-
gression),
SSE - je variabilita nevysvetlen regresn m modelom, rezidu lny s et tvor-
cov (sum of squares due to error).
ok eme vlastnos (8.16). Po umocnen v razu (8.15) a s tan pre v etky
ni ,...,2,1 dostaneme
iii
ii i
iiii yyyyyyyyyy ~~2~~1
222 .
Hodnota posledn ho s tanca je nula, lebo
iiiii yyyyyy ~~~ iiiii xbbyyxbbxbby 101010
010101100 iiiiiii xbbyyxxbbybxbbyb ,
pri om sme pou ili vz ahy (8.9) a (8.10), t.j. parci lne deriv cie
00b
f a 01b
f .
Porovnanie zlo iek SSESSRSSY ,, je jedna mo nos , ako pos di tatistick
v znamnos modelu ako celku:
Pri funk nej z vislosti je SSE = 0, SSY = SSR, lebo v etky body iy le ia na
vyrovn vaj cej priamke.
Pri nez vislosti je SSR = 0, SSY = SSE, lebo vyrovn vaj ca priamka je rovno-
be n s osou x a prech dza napr klad bodom yx ,1 .
vislos X, Y je t m silnej ia, m je v podiel variability SSR na celkovej variabilite SSY. Sila tejto line rnej z vislosti sa meria v berov m koeficien-
tom determin cie, ktor je definovan
SSYSSRr 2 ; 1,02r . (8.18)
Line rny vz ah medzi X,Y je tak vysvetlen na %100.SSYSSR , preto je z viacer ch
modelov kvalitnej model s vy m koeficientom determin cie. V berov ko-
eficient determin cie 2r je bodov m odhadom koeficientu determin cie 2 v
tatisti a s Ex e m
184
z kladnom s bore, ale skreslen m. Neskreslen odhad d va korigovan koefi-
cient determin cie
2111 22
nnrradj . (8.19)
Koeficient determin cie SSYSSRr 2 (8.18) je druh mocnina korela n ho koefi-
cientu r (8.4), ktor bol definovan v asti 8.2. ok eme toto tvrdenie. Vyu ije-
me rovnicu vyrovn vaj cej regresnej priamky (8.14)
xxbyy ii 1~ .
Po umocnen a s tan pre ni ...,,2,1 plat
Po dosaden tohto vz ahu do SSESSRSSY dostaneme:
2yyi22
1 xxb i2~
ii yy . (8.20)
Pod a (8.11), kde r je korela n koeficient, plat 1bx
y
ss
r t.j.
2
22
2
222
1 xxyy
rss
rbi
i
x
y
a po dosaden do (8.20)
SSEyyrSSY i22
SSESSYrSSY 2
SSYSSR
SSYSSESSYr 2 .
Cie om met dy najmen ch tvorcov bolo minimalizova variabilitu nevysvet-
len regresn m modelom, hodnotu 2~ii yySSE , ktor sa vol aj rezidu lny
s et tvorcov. dvoch modelov, ktor by teoreticky prich dzali do vahy, je
lep ten, kde je men SSE . Mierou variability hodn t iy okolo vyrovn vaj cej
regresnej priamky je tandardn odch lka rez du
.~ 2212 xxbyy ii
tatisti a s Ex e m
185
22
~ 2
nSSE
nyy
s iirez . (8.21)
e to neskreslen bodov odhad tandardnej odch lky n hodn ch ch b i v z -
kladnom s bore. ej druh mocnina 2rezs sa naz va rezidu lny rozptyl.
ozn mka 8.2
Koeficient determin cie, tandardn odch lka rez du , korigovan koeficient de-
termin cie tvoria v stup EXCELu po proced re Regresia.
8.5 Testy hypot z pou van pri vo be regresnej funkcie a) test linearity (celkov F-test)
Na za iatku na ich vah sa p tame, i v bec medzi premenn mi X a Y existuje li-
ne rna z vislos . Ak empirick daje zobraz me bodov m diagramom a body
nn yxyxyx ,,,,,, 2211 le ia v p se, ktor sa d pribli ne ohrani i dvomi
priamkami, ktor nie s rovnobe n s osou x, m eme predpoklada line rnu z -
vislos medzi X a Y. Preto sformulujeme nulov a alternat vnu hypot zu takto:
:0H Line rny model nie je tatisticky v znamn (t.j. X,Y nie s line rne z visl ).
:1H Line rny model je tatisticky v znamn (t.j. X,Y s line rne z visl ).
Na overenie platnosti H1 pou ijeme zn mu anal zu rozptylu tak, e odhad 2ys cel-
kov ho rozptylu 2 z visle premennej Y rozlo me na dve zlo ky:
n
iiy yyn
s1
22
11
1nSSE
i iiii yyyyn
22 ~~1
1
SSRSSEn 1
1 , t.j.
SSRSSEsn y21
tatisti a s Ex e m
186
N hodn premenn 2
21 ysn , 2SSE
, 2SSR maj 2 rozdelenia postupne s
1n , 2n a 1 stup om vo nosti. Podiel rozptylov 2/
1/nSSE
SSRF MSEMSR m
Fisherovo rozdelenie s 2,1 n stup ami vo nosti, kde
MSR - priemern tvorec regresie (mean square of regression),
MSE - priemern tvorec ch b (mean square of errors).
Podstata testu je v tom, e sme na li n hodn premenn , ktor je funkciou SSR
a SSE a ktorej rozdelenie pozn me. Model je t m lep , m je v ie slo F, preto
ve k hodnoty testovacej tatistiky F hovoria v prospech alternat vnej hypot zy,
teda padn do oboru zamietnutia 0H .
ver F test je len jednostrann test (pravostrann ). Nulov hypot zu zamieta-
me, ak pri zvolenej hladine v znamnosti je hodnota testovacej tatistiky
2,11 nFF , kde 1F je pr slu n kvantil F-rozdelenia s 2,1 n stup ami
vo nosti. V tomto pr pade teda prij mame alternat vnu hypot zu o line rnom
vz ahu medzi X a Y. N jden regresn priamka je vhodn typ funkcie na vyjad-
renie priebehu z vislosti.
Tab. 8.4 Celkov F-test
Hypot zy ou it rozdelenie Testovacia
tatistika Oblas
zamietnutia H0 :0H X,Y s line rne
nez visl .
:1H X,Y s line rne
z visl .
Fisherovo 2/
1/nSSE
SSRF 1FF
d.f. = 2,1 n
b) t-test o line rnej nez vislosti X, Y
Tento test je zalo en na nasleduj cej my lienke. Regresn koeficient 1B je smer-
nica regresnej priamky a vyjadruje priemern zmenu Y pri zmene X o jednu jed-
tatisti a s Ex e m
187
notku. Ak 01B , regresn priamka je rovnobe n s osou x, teda aj po zmene ne-
z visle premennej X sa nemenia hodnoty Y (presnej ie podmienen stredn hodno-
ty). Preto sa ned hovori o line rnej z vislosti X, Y.
Ak je v berov regresn koeficient 1b bl zky nule, treba overi hypot zu, i
koeficient 1B je r zny od nuly, t.j. overi hypot zu, i medzi X a Y existuje line r-
na z vislos .
0H : 01B (t.j. X,Y s line rne nez visl .)
:1H 01B (t.j. X,Y s line rne z visl .)
Na testovanie pou ijeme testovaciu tatistiku 1
11
bsBb
T , ktor m Studentovo
rozdelenie s 2n stup ami vo nosti a
ii
rez
xx
sbs
21 je tandardn od-
ch lka koeficientu 1b . Ak plat nulov hypot za, vypo tame hodnotu testovacej
tatistiky 1
1
bsb
T .
ver Nulov hypot zu zamietame, ak pri zvolenej hladine v znamnosti je
hodnota testovacej tatistiky 2,21 ntt , kde 21t je kvantil Studentovho
rozdelenia s 2n stup ami vo nosti. V tomto pr pade teda prij mame alterna-
t vnu hypot zu o line rnom vz ahu medzi X a Y.
Tab. 8.5 T-test o line rnej nez vislosti
Hypot zy ou it rozdelenie Testovacia
tatistika Oblas
zamietnutia H0 H0: 01B
H1: 0.1 1B
2. 01B
0.3 1B
Studentovo
1
1
bsb
T
ii
rez
xx
sbs
21
1. ,21tt
2. 1tt
3. 1tt
2.. nfd
tatisti a s Ex e m
188
Podobne sa d testova hypot za 0:,0: 0100 BHBH .
Test line rnej z vislosti vieme urobi tromi ekvivalentn mi sp sobmi, posledn dva s
aj v stupom EXCELu :
testova korela n koeficient
celkov F-test
testova regresn koeficient
Na rie enie regresnej lohy pon ka EXCEL nasleduj ce prostriedky.
Po vo be s roje nal a dajov Regresia a zadan dajov najsk r pre z -
visl Y, potom pre nez visl premenn X sa v tabu k ch objavia daje Tab. 8.6,
pri om niektor s zle pomenovan .
Tab. 8.6 Regresn tatistika
Tabu ka ANOVA poskytuje rozklad celkov ho rozptylu na dve zlo ky a celkov
F-test .
pomenovanie skuto n v znam N sobn R r - absol tna hodnota r Hodnota spo ahlivosti r
2 - koef. determin cie
Nastaven hodnota spo ahlivosti upraven koef. determin cie
Chyba strednej hodnoty rezs
Pozorovania n
tatisti a s Ex e m
189
Tab. 8.7 ANOVA
stupne
vo nosti SS MS F
v znamnos F
p- hodnota
Regresia 1 SSR MSR=SSR/1
Rez du n-2 SSE MSE=SSE/n-2
2rezs
Celkom n-1 SSY
hodnota
testovacej
tatistiky
:0H Line rny mo-
del nie je tatisticky
v znamn .
V porad tretia Tab. 8.8 okrem koeficientov regresnej priamky obsahuje aj t-test
pre nulovos regresn ho koeficientu 1B (druh riadok) a koeficientu 0B (prv ria-
dok).
Tab. 8.8 Testovanie koeficientov regresnej priamky
koefi- cienty
chyba strednej hodnoty
t-stat p-hodnota doln 95%
horn 95%
doln 99%
horn 99%
hranice b0 s(b0) b0 /s(b0) H0: B0=0 intervaly spo ahlivosti pre B0
X b1 s(b1) b1 /s(b1) H0: B1=0 intervaly spo ahlivosti pre B1
Posledn tabu ka obsahuje aj pre ka d prvok ix v berov ho s boru vypo tan
o ak van hodnotu iy~ a aj rez duum iii yye ~ .
r klad 8.2
V s bore Autobaz r s daje o veku a cen ch 106 ut z 3 predajn autobaz ru.
Vy etrite line rnu z vislos ceny auta od veku, pou ite daje zo v etk ch 3 pre-
dajn , n jdite rovnicu regresnej priamky, na hladine v znamnosti 05,0 otestuj-
te tatistick v znamnos line rneho modelu.
V pr klade po vo be s roje nal a dajov Regresia dostaneme nasledu-
j ce v stupn tabu ky:
tatisti a s Ex e m
190
tabuliek vypl va:
Absol tna hodnota korela n ho koeficientu je 675,0r , regresn koefi-
cient je ( 19,649). Korela n koeficient m rovnak znamienko ako re-
gresn koeficient, preto je korela n koeficient 675,0r , o interpretu-
jeme ako nepriamu, miernu line rnu z vislos .
Koeficient determin cie je 455,02r , tzn. len 45,5 % variability ceny ut
sa d vysvetli line rnym vz ahom s vekom ut.
Neskreslen odhad koeficientu determin cie v z kladnom s bore je slo 0,4502.
p-hodnota pre celkov F-test je 2,14 .10-15, o je ve mi mal slo. Na v etk ch be n ch hladin ch v znamnosti zamietame nulov hypot zu, pri-
j mame alternat vnu hypot zu, e dan model je tatisticky v znamn , t.j.
premenn s line rne z visl .
Rovnica vyrovn vaj cej regresnej priamky je 95,233649,19 xy .
e esn st tistiN sobn R 0,675Hodnota spolehlivosti R 0,455Nastaven hodnota spolehlivosti R 0,450Chyba st . hodnoty 24,489
ozorov n 106
ANOVAo n nost
Regrese 1 52163,363 52163 86,98364 2,14942E-15Rezidua 104 62367,931 599,7Celkem 105 114531,294
Koeficienty Chyba st . hodnoty t stat Hodnota oln 95 Horn 95 oln 99 Horn 99Hranice 233,951 8,279 28,257 1,325E-50 217,533 250,369 212,226 255,676vek -19,649 2,107 -9,327 2,1494E-15 -23,827 -15,471 -25,178 -14,121
tatisti a s Ex e m
191
489,24rezs , tzn. skuto n ceny ut sa odchy uj od hodn t regresnej
priamky pribli ne o 5,24 tis c kor n.
p-hodnota pri t-teste hypot zy 0: 10 BH oproti 0: 11 BH je to ist mal
slo 2,14 .10-15, preto na ka dej be nej hladine v znamnosti prij mame al-
ternat vnu hypot zu, e premenn s line rne z visl .
8.6 ou itie regresnej priamky Regresn priamku xbby 10~ pova ujeme za bodov odhad strednej hodnoty
z visle premennej Y a m eme ju pou i na
bodov odhad hodnoty Y pre jednu konkr tnu hodnotu X ,
bodov odhad priemernej hodnoty Y pre ist rove znaku X, ale len na in-
tervale maxmin x,x .
Napr klad, m eme o ak va , e cena jedn ho 2 ro n ho auta je
y = 233,95 19,65.2 = 194,65 tis c Sk.
e to z rove priemern cena v etk ch dvojro n ch ut.
ozn mka 8.3
Vieme v ak ur i aj :
100(1- )% interval spo ahlivosti pre koeficient B0 :
02,210 . bstb n 0B 02,210 . bstb n ,
100(1- )% interval spo ahlivosti pre koeficient B1:
12,211 . bstb n 1B 12,211 . bstb n ,
100(1- )% interval spo ahlivosti pre priemern hodnotu Y v z kladnom
s bore pre dan konkr tnu hodnotu ix , ozna me ju ixy a plat
ini stxbb .)( 2,2110 ixy ini stxbb .)( 2,2110 ,
tatisti a s Ex e m
192
kde
ii
irezi
xx
xxn
ss 2
21. je tandardn odch lka vyrovnan ch hodn t
ii xbby 10~ . rka tohto intervalu je in pre ka d ix a roz iruje sa so vz a-
ovan m ix od .x
100(1- )% interval spo ahlivosti pre individu lnu hodnotu Y v z kladnom
s bore pre dan konkr tnu hodnotu ix , ozna me ju ixY a plat
ini stxbb .)( 2,2110 ixY ini stxbb .)( 2,2110 ,
kde 11. 2
2
ii
irezi
xx
xxn
ss je tandardn odch lka individu lnych
hodn t premennej Y. rka tohto intervalu je v ia ako pre odhad stabilnej-
ej priemernej hodnoty.
v stupn ch tabuliek pre Regresiu sa d pre n Pr klad 8.2 ur i :
95% interval spo ahlivosti pre B0 : 36,25053,217 0B ,
95% interval spo ahlivosti pre B1 : 47,1583,23 1B ,
Podobne z tabuliek s zn me 99% intervaly spo ahlivosti pre B0 a B1.
95% interval spo ahlivosti pre priemern cenu 2 ro n ho auta mus me dopo ta
bez EXCELu.
764,3x , 112,322
x , i
i xx 104,1352
180,021 2
2
ii xx
xn
489,24rezs , 983,12,21 nt , 652,1942.~ 102 bby
tatisti a s Ex e m
193
maxim lne pr pustn chyba odhadu je teda 750,8.2,21 in st , preto 95% in-
terval spo ahlivosti pre priemern cenu 2 ro n ho auta je 750,8652,194 ti-
s c Sk.
ozn mka 8.4
pravami bodov ho diagramu v EXCELi sa d do grafu vlo i regresn kriv-
ka, rovnica regresnej krivky i koeficient determin cie. Klikneme prav m tla-
idlom na niektor bod grafu, zvol me Prida rendov iaru, na z lo ke
yp line rny a na z lo ke o nos i o ra i v grafe rovnicu regresnej
priamky a R2.
Obr. 8.4 pravy bodov ho grafu
8.7 redpoklady pre pou itie met dy najmen ch tvorcov Met da najmen ch tvorcov d va neskreslen odhad regresnej priamky pri splne-
n ist ch predpokladov o rozdelen pravdepodobnosti n hodn ch ch b i v modeli
iii xBBy 10 .
S to tieto predpoklady:
y = -19,649x + 233,95R2 = 0,4555
0
100
200
300
0 2 4 6 8vek
tatisti a s Ex e m
194
Stredn hodnota n hodn ch ch b je nula.
Rozptyl n hodn ch ch b je kon tantn .
Rozdelenie pravdepodobnosti n hodn ch ch b je norm lne .
N hodn chyby s medzi sebou vz jomne nez visl . Splnenie t chto predpokladov sa d overi a po zvolen regresn ho modelu, lebo
a vtedy s zn me rez du , ktor s odhadmi n hodn ch ch b. ch splnenie sa pri-
bli ne over graficky zostrojen m histogramu rozdelenia rez du a z bodov ho dia-
gramu hodn t (yi , ei). Podrobnej ie sa tomuto probl mu nebudeme venova (po-
zri [6]).
8.8 n typy regresn ch funkci Line rna regresn funkcia je v aka ahkej interpret cii preferovan pred in mi
typmi, ale niekedy z povahy probl mu vypl va, e pre popis danej z vislosti by
bola vhodnej ia in regresn funkcia. Uvedieme niektor in modely.
arabolick regresia Regresn funkcia je tvaru 2210 xBxBB , bodov od-
hady koeficientov z skame priamo pou it m met dy najmen ch tvorcov, t.j.
h adan m minima funkcie troch premenn ch 21
2 ~ii
n
ii yye , kde
2210
~iii xbxbby .
ov eobecnen m m e by polynomick regresia vy ieho stup a, v praxi sa stre-
t vame s polyn mami maxim lne 3. a 4. stup a.
Hyperbolick regresia Regresn funkcia je tvaru x
BB 10 . Bodov odhady
koeficientov z skame tie priamo pou it m met dy najmen ch tvorcov.
Logaritmick regresia Regresn funkcia je tvaru xBB log10 . Bodov odha-
dy koeficientov z skame priamo pou it m met dy najmen ch tvorcov.
tatisti a s Ex e m
195
E ponenci lna regresia Regresn funkcia je tvaru xBB 10 . Bodov odhady
koeficientov sa nedaj z ska priamo pou it m met dy najmen ch tvorcov.
Vhodnou pravou (transform ciu) regresnej funkcie ju uprav me na tak tvar, kde
funkcie jej parametrov sa daj odhadn met dou najmen ch tvorcov. V tomto
pr pade logaritmovan m dostaneme :
10 lnlnln BxB
a budeme h ada minimum funkcie 210 lnlnln bxby ii .
n mym sp sobom pou ijeme parci lne deriv cie tejto funkcie a ako rie enie s s-
tavy z skame 0lnb a 1lnb .
ozn mka 8.5
Podobne postupujeme aj v pr pade in ch typov funkci , ktor m sa v ak nebudeme
venova .
Pri v bere vhodn ho typu regresnej funkcie sa v EXCELi orientujeme pod a
hodnoty koeficientu determin cie, ktor je definovan nez visle na type regresnej
funkcie.
r klad 8.3
Pracovn k person lneho oddelenia c ti, e existuje vz ah medzi po tom dn absen-
cie v pr ci a vekom pracovn ka. Vy etrite t to z vislos na z klade dajov v Tab.
8.9. Pre n zornos pr kladu sme pou ili nevyhovuj ci, ve mi mal rozsah v beru.
Tab. 8.9
vek 27 61 37 23 46 58 29 36 64 40
absencia 15 6 10 18 9 7 14 11 5 8
tatisti a s Ex e m
196
S vy it m EXCELu vieme vlo i do bodov ch diagramov graf regresnej iary,
EXCEL poskytuje na v ber line rnu, logaritmick , exponenci lnu, polynomick
( ubovo n ho stup a) alebo mocninov krivku s jej analytick m vyjadren m
i koeficientom determin cie. V tomto pr klade vid me, e z viacer ch mo n ch
rie en je najvhodnej ia parabola s najv m koeficientom determin cie. S m rie-
ite lohy sa mus rozhodn , ktor z t chto mo n ch modelov je pre jeho potre-
by vyhovuj ci.
y = 0,008x2 - 0,9752x + 35,645R2 = 0,9604
0
5
10
15
20
20 30 40 50 60 70vek
abse
ncia
y = -0,2681x + 21,587R2 = 0,8696
0
5
10
15
20
20 30 40 50 60 70vek
abse
ncia
y = 30,07e-0,0273x
R2 = 0,9341
0
5
10
15
20
20 30 40 50 60 70vek
abse
ncia
y = -11,482Ln(x) + 52,599R2 = 0,9367
0
5
10
15
20
20 30 40 50 60 70vek
abse
ncia
Obr. 8.5 R zne modely regresn ch funkci k Pr kladu 8.3
Ak sa podrobnej ie zauj mame aj o celkov F-test tatistickej v znamnosti modelu,
t-testy nulovosti koeficientov regresnej funkcie, o intervalov odhady koeficientov re-
gresnej funkcie pou ijeme v EXCELi funkciu Regresia, kde do vstupnej tabu ky pre
tatisti a s Ex e m
197
nez visl premenn vlo me viac st pcov . V stupn tabu ky pre n pr klad s uvede-
n pre parabolick regresiu, interpret cia tabuliek je rovnak ako pri line rnej regresii.
Tab. 8.10 Kvadratick regresia k Pr kladu 8.3
abs vek vek na druh15 27 7296 61 3721
10 37 136918 23 5299 46 21167 58 3364
14 29 84111 36 12965 64 40968 40 1600
V LE EK
e esn st tistiN sobn R 0,9800Hodnota spolehlivosti R 0,9604Nastaven hodnota spolehlivosti R 0,9491Chyba st . hodnoty 0,9516
ozorov n 10
ANOVAo n nost
Regrese 2 153,7611 76,8805 84,8979 1,23507E-05Rezidua 7 6,3389 0,9056Celkem 9 160,1000
Koeficienty Ch.st . ho noty t st t o not on o nHranice 35,645 3,638 9,799 0,0000 27,043 44,247vek -0,975 0,178 -5,484 0,0009 -1,396 -0,555vek na druhu 0,008 0,002 4,006 0,0052 0,003 0,013
r klady na precvi enie
8.4 ostrojte bodov diagram z vislosti znakov Y na X pre dan v berov s bo-
ry a dan premenn , vlo te do grafu rovnicu regresnej priamky, hodnotu
koeficientu determin cie, vytvorte korela n maticu, pomocou t-testu na
tatisti a s Ex e m
198
hladine v znamnosti 05,0 otestujte line rnu z vislos premenn ch, do
grafu vlo te in typ regresnej krivky.
a) PR MAC E SK KY/1.fakulta, X-matematika, Y- fyzika
Ur ite, ak priemern po et bodov dosiahne tudent z fyziky, ak
z matematiky z skal 15 bodov (21 bodov).
b) PR MAC E SK KY/2.fakulta, X-matematika, Y- fyzika.
Ur ite, ak priemern po et bodov dosiahne tudent z fyziky, ak
z matematiky z skal 15 bodov (21bodov).
c) PR MAC E SK KY/1.fakulta, X-matematika (upr.) Y- priemer
Ur ite, ak priemern zn mku dosiahne tudent po 2.semestri, ak zo sk -
ky z matematiky (up r) mal zn mku 3,2 (2).
d) PR MAC E SK KY/2.fakulta, X-matematika, Y- priemer.
Ur ite, ak priemern zn mku dosiahne tudent po 2.semestri, ak zo sk ky
z matematiky (upr) mal zn mku 3,2 (2).
8.5 Pomocou n stroja Regresia vy etrite line rnu z vislos znakov X, Y
v z kladn ch s boroch, ur ite korela n koeficient, koeficient determin -
cie, n jdite rovnicu regresnej priamky, na hladine v znamnosti
05,0 pomocou celkov ho F-testu, alebo t-testu pos te v znamnos
tatistick ho modelu, n jdite pr slu n intervaly spo ahlivosti pre koefi-
cienty regresnej priamky.
a) PR MAC E SK KY/1.fakulta, X-matematika, Y- fyzika,
b) PR MAC E SK KY/2.fakulta, X-matematika, Y- fyzika.