+ All Categories
Home > Documents > statistika s excelom - Technical University of Košice › wp-content › uploads › 2017 ›...

statistika s excelom - Technical University of Košice › wp-content › uploads › 2017 ›...

Date post: 30-Jan-2021
Category:
Upload: others
View: 0 times
Download: 0 times
Share this document with a friend
28
âtatistiNa s ExFeORm 171 8. 6KÒ0A1,E =ÈV,6LO6T, DVOCH KVA1T,TATËV1<CH =1AKOV 8.1 âtatisticki zivislos '{leåiti ~loha vãetkêch technickêch, ekonomickêch i sociilnych oborov je h ada a sk~ma zivislos medzi premennêmi. 'oteraz sme pracovali s funk nêmi vz ahmi, kde zivisli premenni y je jednozna ne ur eni funkciou x f y alebo n x x x f y ,..., , 2 1 . asto vãak, v d{sledku p{sobenia nihodnêch faktorov, alebo nezoh ad ovania nejakpho faktora, i v d{sledku nepresnosti merania mi zivisle premenni Y a jej pozorovanp hodnoty n y y y ,..., , 2 1 povahu nihodnej veli iny, ktori mi istp rozde- lenie pravdepodobnosti. Takito zivislos sa voli stochasticki (ãtatisticki) zivis- los . Nezivislp premennp m{åu by nenihodnp (fixnp) alebo tieå nihodnp veli i- ny. V tejto asti sa budeme zaobera jednoduchou (pirovou) regresiou, kde uvaåujeme len jednu nezivisl~ premenn~ X s hodnotami . , ... , , 2 1 n x x x Uvaåujme zivislos ceny ojazdenpho auta v autobazire od veku auta. =istt- me, åe auti s rovnakêm vekom maj~ r{znu cenu. Preto cenu naprtklad ãtvorro - npho auta povaåujeme za nihodn~ premenn~, jej rozdelenie sa voli podmiene- np rozdelenie. Kedy teda povaåujeme nihodnp veli iny za ãtatisticky zivislp" Rozdelenie po etnostt jednej veli iny Y (kvantitattvneho znaku), ktorp zodpove- di istej, konkrptnej hodnote druhej veli iny X (kvantitattvneho znaku) sa voli podmienenp rozdelenie po etnostt. Ak pri zmenich hodn{t jednpho znaku do- chidza ku zmenim podmienenpho rozdelenia po etnostt druhpho znaku, pova- åujeme znaky za ãtatisticky zivislp. A naopak, ak pri zmenich jednpho znaku sa nement rozdelenie druhpho znaku, povaåujeme ich za nezivislp. O ãtatistickej zivislosti moåno hovori aj u kvalitattvnych znakov. Elementirny sp{sob grafickpho znizornenia zivislosti dvoch kvantitattvnych znakov je bodovê diagram. =o znizornenia bodov n n y x y x y x , ..., , , , , 2 2 1 1
Transcript
  • tatisti a s Ex e m

    171

    8. K A E V LO T DVOCH

    KVA T TAT V CH AKOV

    8.1 tatistick z vislos le it loha v etk ch technick ch, ekonomick ch i soci lnych oborov je h ada

    a sk ma z vislos medzi premenn mi. oteraz sme pracovali s funk n mi

    vz ahmi, kde z visl premenn y je jednozna ne ur en funkciou xfy alebo

    nxxxfy ,...,, 21 .

    asto v ak, v d sledku p sobenia n hodn ch faktorov, alebo nezoh ad ovania

    nejak ho faktora, i v d sledku nepresnosti merania m z visle premenn Y a jej

    pozorovan hodnoty nyyy ,...,, 21 povahu n hodnej veli iny, ktor m ist rozde-

    lenie pravdepodobnosti. Tak to z vislos sa vol stochastick ( tatistick ) z vis-

    los . Nez visl premenn m u by nen hodn (fixn ) alebo tie n hodn veli i-

    ny. V tejto asti sa budeme zaobera jednoduchou (p rovou) regresiou, kde

    uva ujeme len jednu nez visl premenn X s hodnotami .,...,, 21 nxxx

    Uva ujme z vislos ceny ojazden ho auta v autobaz re od veku auta. ist -

    me, e aut s rovnak m vekom maj r znu cenu. Preto cenu napr klad tvorro -

    n ho auta pova ujeme za n hodn premenn , jej rozdelenie sa vol podmiene-

    n rozdelenie. Kedy teda pova ujeme n hodn veli iny za tatisticky z visl

    Rozdelenie po etnost jednej veli iny Y (kvantitat vneho znaku), ktor zodpove-

    d istej, konkr tnej hodnote druhej veli iny X (kvantitat vneho znaku) sa vol

    podmienen rozdelenie po etnost . Ak pri zmen ch hodn t jedn ho znaku do-

    ch dza ku zmen m podmienen ho rozdelenia po etnost druh ho znaku, pova-

    ujeme znaky za tatisticky z visl . A naopak, ak pri zmen ch jedn ho znaku sa

    nemen rozdelenie druh ho znaku, pova ujeme ich za nez visl . O tatistickej

    z vislosti mo no hovori aj u kvalitat vnych znakov. Element rny sp sob grafick ho zn zornenia z vislosti dvoch kvantitat vnych

    znakov je bodov diagram. o zn zornenia bodov nn yxyxyx ,...,,,,, 2211

  • tatisti a s Ex e m

    172

    v rovine, kde ii yx , s konkr tne hodnoty premenn ch X ,Y nameran na i-tej ta-

    tistickej jednotke, mo no zisti charakteristick rysy z vislosti. Obr. 8.1A ukazu-

    je, e s narastaj cimi hodnotami premennej X rast aj hodnoty premennej Y a na-

    vy e, e sa tento rast postupne spoma uje. Schematicky zn zor uje t to tendenciu

    krivka prelo en medzi bodmi. Vol me ju regresn krivka. Na Obr.8.1B

    s narastaj cim X rast aj hodnoty Y, ale rast sa postupne zr ch uje. vislosti zn -

    zornen na obr zkoch maj teda r zny priebeh.

    Obr. 8.1 R zne druhy z vislost

    0

    1

    2

    3

    4

    0 1 2 3 0 1 2 3 4

    0 1 2 3

    r > 0 r < 0

    C D

    0,5 1

    1,5 2

    0 1 2 3 4 5

    2468

    1012

    0 1 2 3

    tesn z vislos vone ia z vislos

    A B

    E

    0 0,2 0,4 0,6 0,8

    1 1,2

    - 1,5 - 1 - 0,5 0 0,5 1 1,5 0 1 2 3 4 5

    0 1 2 3

    r= 0 r= 0

    E F

  • tatisti a s Ex e m

    173

    Obr zky sa l ia e te z in ho h adiska. Na Obr.8.1B s jednotliv body rozpt len

    okolo regresnej krivky ove a viac ako na Obr.8.1A. Medzi X a Y na Obr.8.1B je

    vo nej ia z vislos ako na Obr.8.1A. Obe z vislosti sa l ia silou z vislosti.

    Pri sk man z vislosti teda treba rie i dve lohy, ktor spolu zko s visia:

    Pos di tesnos z vislosti pomocou nejakej charakteristiky, ktor popisuje do akej miery premenn X vysvet uje variabilitu premennej Y (korela n anal -

    za).

    Charakterizova priebeh tejto z vislosti, to znamen , odhadn funk n vz ah, pod a ktor ho sa men z visl premenn pri zmen ch nez visle premennej (re-

    gresn anal za).

    Pod a toho, ko ko nez visl ch premenn ch berieme do vahy pri rie en t chto

    loh, hovor me

    o jednoduchej (p rovej) korel cii a regresii, ak pracujeme len s jednou nez vis-lou premennou,

    o viacn sobnej (mnohon sobnej ) korel cii a regresii, ak je po et nez visl ch premenn ch v ako jeden.

    Pou itie viacn sobnej regresie s ce vedie k presnej m odhadom, ale ve k po et

    premenn ch s a uje anal zu lohy i interpret ciu v sledkov. Preto v modeli treba uva-

    ova len tie premenn , ktor maj z sadn vplyv na z visl premenn .

    V celej tejto kapitole ide len o zis ovanie matematick ch s vislost , ktor nem eme

    zamie a za vz ah pr iny a n sledku, lebo ani vysok stupe tatistickej z vislosti ne-

    hovor ni o pr innej s vislosti javov. V inou t to zdanliv s vislos sp sobuje tret

    faktor, na ktorom s oba p vodn javy z visl . Pri zlej interpret cii m eme dosta

    komick tvrdenia. Napr klad zisten vz ah medzi n zkou augustovou spotrebou plynu

    v kotolniach a vysok m predajom opa ovac ch kr mov ovplyv uje tret faktor - po a-

    sie.

  • tatisti a s Ex e m

    174

    8.2 Korela n anal za Vz ah medzi X, Y m e ma r znu intenzitu, od plnej nez vislosti a po pln

    funk n z vislos . Stupe tatistickej z vislosti sa d pop sa r znymi mierami,

    my sa budeme venova len kovariancii a korela n mu koeficientu premenn ch

    X, Y. Obe charakteristiky s miery line rnej z vislosti premenn ch X, Y. Kova-

    riancia medzi X, Y vo v berovom s bore s rozsahom n je slo n

    iii yyxxn

    xy1

    1cov . (8.1)

    Vz ah sa d upravi na jednoduch tvar

    n

    iiiii yxyxyxyxn

    xy1

    1cov = iiii xnyy

    nxyx

    n1 1

    nyx

    = yxxy . (8.2)

    Vlastnosti kovariancie:

    xycov m e nadobudn ubovo n re lnu hodnotu.

    yxxy covcov .

    Ak 0cov xy , premenn X, Y s priamo line rne z visl (Obr. 8.1C ).

    Ak 0cov xy , premenn X, Y s nepriamo line rne z visl (Obr. 8.1 ).

    Ak X,Y s nez visl , potom 0cov xy (Obr. 8.1F ).

    Kovariancia je mierou line rnej z vislosti, nehovor ni o in ch typoch z vis-

    losti. To, e 0cov xy (hovor me aj, e X, Y s nekorelovan ) e te nezname-

    n , e X, Y s nez visl . Aj v pr pade nulovej kovariancie m u by znaky ne-

    line rne funk ne z visl (Obr. 8.1E).

    Nev hodou kovariancie je, e jej hodnoty s z visl na mierke, v ktorej s vy-jadren X ,Y. Preto vznikla veli ina, ktor tento nedostatok nem , a to korela -

    n koeficient.

  • tatisti a s Ex e m

    175

    Korela n koeficient je v z kladnom s bore ozna ovan yx, a definovan

    yx

    yxxy

    .cov

    , , (8.3)

    Ak pou ijeme namiesto z kladn ho s boru v berov s bor a kovarianciu v bero-

    v ho s boru a tandardn odch lky v berov ho s boru

    21 xxn

    s ix a 21 yy

    ns iy ,

    dostaneme bodov odhad (ale skreslen ) korela n ho koeficientu, ktor sa vol

    v berov korela n koeficient yxr , :

    22,

    . yyxx

    yyxxrii

    iiyx (8.4)

    Vlastnosti korela n ho koeficientu:

    1yxr .

    xyyx rr , preto sa pou va stru n ozna enie len r (alebo len ) .

    Ak 0yxr , premenn X,Y s priamo line rne z visl (Obr. 8.1C).

    Ak 0yxr , premenn X, Y s nepriamo line rne z visl (Obr. 8.1 ).

    Korela n koeficient je mierou sily line rnej z vislosti, nehovor ni o in ch typoch z vislosti. V pr pade nulov ho korela n ho koeficientu znaky s line-

    rne nez visl , m u by ale a neline rne funk ne z visl , o ilustruje Obr.

    8.1E.

    Ke medzi premenn mi X , Y je funk n line rny vz ah XBBY 10

    ( 01B ), potom 1yxr pre 01B , ( 1yxr pre 01B ).

    nterpret cia konkr tnej hodnoty korela n ho koeficientu z vis od povahy ex-periment lnych dajov a od rozsahu v berov ho s boru. Absol tna hodnota

  • tatisti a s Ex e m

    176

    korela n ho koeficientu bl zka jednotke znamen siln z vislos , bl zka nule

    slab z vislos .

    Hodnota korela n ho koeficientu je nez visl na mern ch jednotk ch.

    Ak je v berov korela n koeficient bl zky nule, chceme overi , i je nenulo-

    v len v d sledku n hodn ho v beru. Uvedieme len jeden z mnoh ch testov pre

    testovanie korela n ho koeficientu.

    T-test line rnej nez vislosti premenn ch X, Y overuje platnos :0H 0

    oproti alternat vnej hypot ze :1H 0 .

    Ekvivalentne mo no formulova test takto:

    :0H naky s line rne nez visl .

    :1H naky s line rne z visl .

    Tab. 8.1 T-test line rnej nez vislosti

    Hypot zy ou it

    rozdelenie Testovacia

    tatistika Oblas

    zamietnutia H0

    H0: 0

    H1: 0

    Studentovo

    212

    rnrT

    ,21tt

    2.. nfd

    r klad 8.1

    V s bore Autobaz r s daje o veku a cen ch ut z 3 predajn autobaz ru. n -

    zornite bodov m diagramom z vislos ceny od veku. Vy etrite pomocou korela -

    n ho koeficientu a kovariancie z vislos ceny auta od veku, pou ite daje zo v et-

    k ch 3 predajn . Na hladine spo ahlivosti 05,0 otestujte nulov hypot zu

    0:0H , oproti alternat vnej hypot ze .0:1H

  • tatisti a s Ex e m

    177

    Pou itie EXCELu pri rie en korela nej lohy budeme ilustrova na rie en Pr kla-

    du 8.1.

    Po vo be lo i graf vislos vytvor me bodov diagram (Obr. 8.2). grafu

    vidie , e s narastaj cim vekom mierne kles cena ut. Po vo be s ro-

    je nal a dajov orel cia a zadan dajov sa objav v stupn korela n mati-

    ca. Na jej uhloprie ke s 1xxr a 1yyr , a okrem toho v berov korela n ko-

    eficient 6748,0yxr , o predstavuje nepriamu miernu line rnu z vislos , t.j.

    s narastaj cim vekom kles cena auta.

    Obr. 8.2 Bodov graf z vislosti ceny ut od veku

    Po vo be s roje nal a dajov ovariancia ako v stup dostaneme kova-

    rian n ma icu, na jej uhloprie ke s hodnoty n

    iix xxn

    s1

    22 1 a

    n

    iiy yyn

    s1

    22 1 a 044,25cov xy . Rovnak v sledky sa daj z ska aj postu-

    pom Prilepi funkciu a is ick CORREL (COVAR).

    050

    100150200250300350

    0 2 4 6 8vek

    cena

  • tatisti a s Ex e m

    178

    Tab. 8.2 Korela n matica Tab. 8.3 Kovarian n matica

    cena vek cena vek

    cena 1 cena 1080,48391

    vek -0,67487 1 vek -25,044 1,27456

    Na z ver testujme hypot zu 0:0H oproti alternat vnej hypot ze .0:1H

    Hodnota testovacej tatistiky je 267487,01210667487,0t 3265,9 . Porov-

    n me ju s kvantilom 983035,1104;975,0t Studentovho rozdelenia. Plat

    9830,13265,9 , preto zamietame nulov hypot zu a tvrd me, e na hladine

    v znamnosti 05,0 je 0 , alebo e line rna z vislos znakov je tatisticky

    v znamn .

    8.3 Regresn anal za ednoduch (p rov ) line rna regresia

    lohou regresnej anal zy pri sk man tatistickej z vislosti Y na X je n js vhodn ma-

    tematick model (funkciu), v ktorom je vyjadren predstava o tejto z vislosti. Ak by sa

    n m podarilo odstr ni spolup sobenie ved aj ch vplyvov na vz ah medzi X a Y, le ali

    by v etky body ii yx , na krivke s rovnicou xy , o je deterministick model. Na

    premenn Y v ak vpl vaj okrem X aj in faktory, preto body ii yx , nele ia na krivke,

    ale kol u okolo nej. To sa sna me zachyti aj v matematickom modeli. Preto ka d

    hodnotu z visle premennej Y rozlo me na dve zlo ky, na deterministick a n hodn ,

    t.j.

    .,....,2,1, nixy iii

  • tatisti a s Ex e m

    179

    Funkcia x sa vol regresn funkcia. M e to by napr. priamka

    xBBy 10 , parabola 2

    210 xBxBBy a in zn me funkcie. N model, kto-

    r zachyt va line rnu z vislos X, Y bude line rna funkcia regresn priam-

    ka. Line rny vz ah medzi Y a X v z kladnom s bore mo no vyjadri modelom

    iii xBBy 10 ...,2,1i (8.5)

    kde iy i-ta hodnota premennej Y v z kladnom s bore,

    0B priese n k osi y s regresnou priamkou,

    1B regresn koeficient v z kladnom s bore, ktor ud va o ko ko sa

    zmen y , ak sa x zmen o jednu jednotku (je to smernica regresnej

    priamky),

    ix i-ta hodnota premennej X v z kladnom s bore,

    i i-ta n hodn chyba premennej Y.

    as iixBB 10 je deterministick as modelu, vol me ju regresn

    funkcia. e to n m nedostupn teoretick priamka - regresn priamka

    v z kladnom s bore, okolo ktorej kol u skuto n hodnoty Y pre dan hodnoty X.

    Preto e k dispoz cii m me len v berov s bor s rozsahom n, prelo me bodmi

    v berov ho s boru vyrovn vaj cu regresn priamku, ktor m eme pova o-

    va za bodov odhad regresnej priamky v z kladnom s bore. Ozna me ju vz a-

    hom

    ii xbby 10~ , ni ...,,2,1 (8.6)

    kde iy~ - o ak van (vyrovnan ) hodnota premennej Y pre dan hodnotu pre

    mennej X,

    ix - i-ta hodnota premennej X,

    0b - bodov odhad koeficientu 0B ,

    1b - bodov odhad koeficientu 1B , vol sa v berov regresn koeficient.

  • tatisti a s Ex e m

    180

    Na v po et nezn mych koeficientov 0b a 1b v rovnici vyrovn vaj cej regresnej

    priamky sa pou va met da najmen ch tvorcov. Ozna me rozdiely (chyby)

    medzi nameran mi hodnotami iy a medzi vyrovnan mi hodnotami iy~ , t.j.

    iii eyy ~ ako rez du (rezidu lne odch lky). S to bodov odhady n hodn ch

    ch b i regresn ho modelu. Najlep ie prelo en priamka medzi bodmi

    ii y,x je t , ktor minimalizuje s et tvorcov rezidu lnych odch lok

    21

    2 ~ii

    n

    ii yye . (8.7)

    To je podstata met dy najmen ch tvorcov. Pri h adan koeficientov 0b a 1b vy-

    u ijeme skuto nos , e h ad me minimum funkcie dvoch premenn ch

    10 ,bbf2

    1

    2 ~ii

    n

    ii yye

    210 xbbyi . (8.8)

    Vieme, e extr m funkcie tohto typu m e existova len v stacion rnom bode

    funkcie, t.j. mus plati

    00b

    f a 01b

    f .

    Teda

    02 10 ii xbby (8.9)

    02 10 iii xxbby (8.10)

    Po prave rovnice (8.9) dostaneme

    nbxby ii 01

    odtia 0b nx

    bny ii

    1 = xby 1 .

    pravou rovnice (8.10) dostaneme

    210 iiii xbxbyx

    211 . iiii xbxxbyyx

  • tatisti a s Ex e m

    181

    ).( 21 iiiii xxxbxyyx

    Po vyn soben poslednej rovnice v razom n1 a prave

    22

    1. xnxbyx

    nyx iii 1b 2

    .

    xsyxxy

    2cov

    xsxy

    x

    y

    ss

    r

    1bx

    y

    ss

    r (8.11)

    0b xby 1 . (8.12)

    Vyrovn vaj ca regresn priamka m rovnicu xbby 10~

    y~ xss

    rss

    rxyy

    x

    x

    y

    o po prave je xxss

    ryyx

    y~ (8.13)

    xxbyy 1~ (8.14)

    Nebudeme sa zdr iava d kazom, e v tomto stacion rnom bode m funkcia sku-

    to ne lok lne minimum. Teoretick regresn priamku sme odhadli priamkou

    xbby 10~ , ktor pova ujeme za bodov odhad nezn mej regresnej priamky .

    ozn mka 8.1

    Na kon trukciu koeficientov 0b a 1b nem eme pou i len s et ch b ie , lebo

    v dy plat n

    iie

    10 , aj pre zle zvolen regresn priamku. V imnime si e te dve

    vlastnosti regresnej priamky. Regresn priamka prech dza bodom yx ,

    a regresn koeficient m v dy rovnak znamienko ako korela n koeficient.

  • tatisti a s Ex e m

    182

    8. 4 k manie tatistickej v znamnosti modelu Po n jden rovnice regresnej priamky treba overi , i tento model je kvalitn , i dob-

    re vystihuje z vislos medzi X, Y. Pri rie en regresnej lohy prich dza asto do vahy

    viacero typov regresn ch funkci (kvadratick , logaritmick ), preto sa sk ma, ktor

    z t chto funkci lep ie prilieha v berov m dajom. To sa d mera r znymi charakte-

    ristikami: rezidu lny s et tvorcov, rezidu lny rozptyl, tandardn odch lka rez -

    du , koeficient determin cie alebo preveri r znymi testami.

    Obr. 8.3 Rozklad celkovej variability premennej Y

    Obr. 8.3 Rozklad celkovej variability premennej Y

    Na Obr. 8.3 je jasn vz ah:

    iiii yyyyyy ~~ , (8.15)

    t.j. odch lka od celkov ho priemeru = odch lka vysvetlen regresiou odch lka

    nevysvetlen regresiou ( rezidu lna). Prekvapivo plat aj

    i i

    iiii yyyyyy222 ~~ , (8.16)

    SSESSRSSY (8.17)

    SSY - je celkov variabilita premennej Y (celkov s et tvorcov, sum of squares

    total),

    0 xi

    yyiiy~

    iy

    y

    yyi~

    ii yy ~

  • tatisti a s Ex e m

    183

    SSR - je variabilita vysvetlen regresn m modelom (sum of squares due to re-

    gression),

    SSE - je variabilita nevysvetlen regresn m modelom, rezidu lny s et tvor-

    cov (sum of squares due to error).

    ok eme vlastnos (8.16). Po umocnen v razu (8.15) a s tan pre v etky

    ni ,...,2,1 dostaneme

    iii

    ii i

    iiii yyyyyyyyyy ~~2~~1

    222 .

    Hodnota posledn ho s tanca je nula, lebo

    iiiii yyyyyy ~~~ iiiii xbbyyxbbxbby 101010

    010101100 iiiiiii xbbyyxxbbybxbbyb ,

    pri om sme pou ili vz ahy (8.9) a (8.10), t.j. parci lne deriv cie

    00b

    f a 01b

    f .

    Porovnanie zlo iek SSESSRSSY ,, je jedna mo nos , ako pos di tatistick

    v znamnos modelu ako celku:

    Pri funk nej z vislosti je SSE = 0, SSY = SSR, lebo v etky body iy le ia na

    vyrovn vaj cej priamke.

    Pri nez vislosti je SSR = 0, SSY = SSE, lebo vyrovn vaj ca priamka je rovno-

    be n s osou x a prech dza napr klad bodom yx ,1 .

    vislos X, Y je t m silnej ia, m je v podiel variability SSR na celkovej variabilite SSY. Sila tejto line rnej z vislosti sa meria v berov m koeficien-

    tom determin cie, ktor je definovan

    SSYSSRr 2 ; 1,02r . (8.18)

    Line rny vz ah medzi X,Y je tak vysvetlen na %100.SSYSSR , preto je z viacer ch

    modelov kvalitnej model s vy m koeficientom determin cie. V berov ko-

    eficient determin cie 2r je bodov m odhadom koeficientu determin cie 2 v

  • tatisti a s Ex e m

    184

    z kladnom s bore, ale skreslen m. Neskreslen odhad d va korigovan koefi-

    cient determin cie

    2111 22

    nnrradj . (8.19)

    Koeficient determin cie SSYSSRr 2 (8.18) je druh mocnina korela n ho koefi-

    cientu r (8.4), ktor bol definovan v asti 8.2. ok eme toto tvrdenie. Vyu ije-

    me rovnicu vyrovn vaj cej regresnej priamky (8.14)

    xxbyy ii 1~ .

    Po umocnen a s tan pre ni ...,,2,1 plat

    Po dosaden tohto vz ahu do SSESSRSSY dostaneme:

    2yyi22

    1 xxb i2~

    ii yy . (8.20)

    Pod a (8.11), kde r je korela n koeficient, plat 1bx

    y

    ss

    r t.j.

    2

    22

    2

    222

    1 xxyy

    rss

    rbi

    i

    x

    y

    a po dosaden do (8.20)

    SSEyyrSSY i22

    SSESSYrSSY 2

    SSYSSR

    SSYSSESSYr 2 .

    Cie om met dy najmen ch tvorcov bolo minimalizova variabilitu nevysvet-

    len regresn m modelom, hodnotu 2~ii yySSE , ktor sa vol aj rezidu lny

    s et tvorcov. dvoch modelov, ktor by teoreticky prich dzali do vahy, je

    lep ten, kde je men SSE . Mierou variability hodn t iy okolo vyrovn vaj cej

    regresnej priamky je tandardn odch lka rez du

    .~ 2212 xxbyy ii

  • tatisti a s Ex e m

    185

    22

    ~ 2

    nSSE

    nyy

    s iirez . (8.21)

    e to neskreslen bodov odhad tandardnej odch lky n hodn ch ch b i v z -

    kladnom s bore. ej druh mocnina 2rezs sa naz va rezidu lny rozptyl.

    ozn mka 8.2

    Koeficient determin cie, tandardn odch lka rez du , korigovan koeficient de-

    termin cie tvoria v stup EXCELu po proced re Regresia.

    8.5 Testy hypot z pou van pri vo be regresnej funkcie a) test linearity (celkov F-test)

    Na za iatku na ich vah sa p tame, i v bec medzi premenn mi X a Y existuje li-

    ne rna z vislos . Ak empirick daje zobraz me bodov m diagramom a body

    nn yxyxyx ,,,,,, 2211 le ia v p se, ktor sa d pribli ne ohrani i dvomi

    priamkami, ktor nie s rovnobe n s osou x, m eme predpoklada line rnu z -

    vislos medzi X a Y. Preto sformulujeme nulov a alternat vnu hypot zu takto:

    :0H Line rny model nie je tatisticky v znamn (t.j. X,Y nie s line rne z visl ).

    :1H Line rny model je tatisticky v znamn (t.j. X,Y s line rne z visl ).

    Na overenie platnosti H1 pou ijeme zn mu anal zu rozptylu tak, e odhad 2ys cel-

    kov ho rozptylu 2 z visle premennej Y rozlo me na dve zlo ky:

    n

    iiy yyn

    s1

    22

    11

    1nSSE

    i iiii yyyyn

    22 ~~1

    1

    SSRSSEn 1

    1 , t.j.

    SSRSSEsn y21

  • tatisti a s Ex e m

    186

    N hodn premenn 2

    21 ysn , 2SSE

    , 2SSR maj 2 rozdelenia postupne s

    1n , 2n a 1 stup om vo nosti. Podiel rozptylov 2/

    1/nSSE

    SSRF MSEMSR m

    Fisherovo rozdelenie s 2,1 n stup ami vo nosti, kde

    MSR - priemern tvorec regresie (mean square of regression),

    MSE - priemern tvorec ch b (mean square of errors).

    Podstata testu je v tom, e sme na li n hodn premenn , ktor je funkciou SSR

    a SSE a ktorej rozdelenie pozn me. Model je t m lep , m je v ie slo F, preto

    ve k hodnoty testovacej tatistiky F hovoria v prospech alternat vnej hypot zy,

    teda padn do oboru zamietnutia 0H .

    ver F test je len jednostrann test (pravostrann ). Nulov hypot zu zamieta-

    me, ak pri zvolenej hladine v znamnosti je hodnota testovacej tatistiky

    2,11 nFF , kde 1F je pr slu n kvantil F-rozdelenia s 2,1 n stup ami

    vo nosti. V tomto pr pade teda prij mame alternat vnu hypot zu o line rnom

    vz ahu medzi X a Y. N jden regresn priamka je vhodn typ funkcie na vyjad-

    renie priebehu z vislosti.

    Tab. 8.4 Celkov F-test

    Hypot zy ou it rozdelenie Testovacia

    tatistika Oblas

    zamietnutia H0 :0H X,Y s line rne

    nez visl .

    :1H X,Y s line rne

    z visl .

    Fisherovo 2/

    1/nSSE

    SSRF 1FF

    d.f. = 2,1 n

    b) t-test o line rnej nez vislosti X, Y

    Tento test je zalo en na nasleduj cej my lienke. Regresn koeficient 1B je smer-

    nica regresnej priamky a vyjadruje priemern zmenu Y pri zmene X o jednu jed-

  • tatisti a s Ex e m

    187

    notku. Ak 01B , regresn priamka je rovnobe n s osou x, teda aj po zmene ne-

    z visle premennej X sa nemenia hodnoty Y (presnej ie podmienen stredn hodno-

    ty). Preto sa ned hovori o line rnej z vislosti X, Y.

    Ak je v berov regresn koeficient 1b bl zky nule, treba overi hypot zu, i

    koeficient 1B je r zny od nuly, t.j. overi hypot zu, i medzi X a Y existuje line r-

    na z vislos .

    0H : 01B (t.j. X,Y s line rne nez visl .)

    :1H 01B (t.j. X,Y s line rne z visl .)

    Na testovanie pou ijeme testovaciu tatistiku 1

    11

    bsBb

    T , ktor m Studentovo

    rozdelenie s 2n stup ami vo nosti a

    ii

    rez

    xx

    sbs

    21 je tandardn od-

    ch lka koeficientu 1b . Ak plat nulov hypot za, vypo tame hodnotu testovacej

    tatistiky 1

    1

    bsb

    T .

    ver Nulov hypot zu zamietame, ak pri zvolenej hladine v znamnosti je

    hodnota testovacej tatistiky 2,21 ntt , kde 21t je kvantil Studentovho

    rozdelenia s 2n stup ami vo nosti. V tomto pr pade teda prij mame alterna-

    t vnu hypot zu o line rnom vz ahu medzi X a Y.

    Tab. 8.5 T-test o line rnej nez vislosti

    Hypot zy ou it rozdelenie Testovacia

    tatistika Oblas

    zamietnutia H0 H0: 01B

    H1: 0.1 1B

    2. 01B

    0.3 1B

    Studentovo

    1

    1

    bsb

    T

    ii

    rez

    xx

    sbs

    21

    1. ,21tt

    2. 1tt

    3. 1tt

    2.. nfd

  • tatisti a s Ex e m

    188

    Podobne sa d testova hypot za 0:,0: 0100 BHBH .

    Test line rnej z vislosti vieme urobi tromi ekvivalentn mi sp sobmi, posledn dva s

    aj v stupom EXCELu :

    testova korela n koeficient

    celkov F-test

    testova regresn koeficient

    Na rie enie regresnej lohy pon ka EXCEL nasleduj ce prostriedky.

    Po vo be s roje nal a dajov Regresia a zadan dajov najsk r pre z -

    visl Y, potom pre nez visl premenn X sa v tabu k ch objavia daje Tab. 8.6,

    pri om niektor s zle pomenovan .

    Tab. 8.6 Regresn tatistika

    Tabu ka ANOVA poskytuje rozklad celkov ho rozptylu na dve zlo ky a celkov

    F-test .

    pomenovanie skuto n v znam N sobn R r - absol tna hodnota r Hodnota spo ahlivosti r

    2 - koef. determin cie

    Nastaven hodnota spo ahlivosti upraven koef. determin cie

    Chyba strednej hodnoty rezs

    Pozorovania n

  • tatisti a s Ex e m

    189

    Tab. 8.7 ANOVA

    stupne

    vo nosti SS MS F

    v znamnos F

    p- hodnota

    Regresia 1 SSR MSR=SSR/1

    Rez du n-2 SSE MSE=SSE/n-2

    2rezs

    Celkom n-1 SSY

    hodnota

    testovacej

    tatistiky

    :0H Line rny mo-

    del nie je tatisticky

    v znamn .

    V porad tretia Tab. 8.8 okrem koeficientov regresnej priamky obsahuje aj t-test

    pre nulovos regresn ho koeficientu 1B (druh riadok) a koeficientu 0B (prv ria-

    dok).

    Tab. 8.8 Testovanie koeficientov regresnej priamky

    koefi- cienty

    chyba strednej hodnoty

    t-stat p-hodnota doln 95%

    horn 95%

    doln 99%

    horn 99%

    hranice b0 s(b0) b0 /s(b0) H0: B0=0 intervaly spo ahlivosti pre B0

    X b1 s(b1) b1 /s(b1) H0: B1=0 intervaly spo ahlivosti pre B1

    Posledn tabu ka obsahuje aj pre ka d prvok ix v berov ho s boru vypo tan

    o ak van hodnotu iy~ a aj rez duum iii yye ~ .

    r klad 8.2

    V s bore Autobaz r s daje o veku a cen ch 106 ut z 3 predajn autobaz ru.

    Vy etrite line rnu z vislos ceny auta od veku, pou ite daje zo v etk ch 3 pre-

    dajn , n jdite rovnicu regresnej priamky, na hladine v znamnosti 05,0 otestuj-

    te tatistick v znamnos line rneho modelu.

    V pr klade po vo be s roje nal a dajov Regresia dostaneme nasledu-

    j ce v stupn tabu ky:

  • tatisti a s Ex e m

    190

    tabuliek vypl va:

    Absol tna hodnota korela n ho koeficientu je 675,0r , regresn koefi-

    cient je ( 19,649). Korela n koeficient m rovnak znamienko ako re-

    gresn koeficient, preto je korela n koeficient 675,0r , o interpretu-

    jeme ako nepriamu, miernu line rnu z vislos .

    Koeficient determin cie je 455,02r , tzn. len 45,5 % variability ceny ut

    sa d vysvetli line rnym vz ahom s vekom ut.

    Neskreslen odhad koeficientu determin cie v z kladnom s bore je slo 0,4502.

    p-hodnota pre celkov F-test je 2,14 .10-15, o je ve mi mal slo. Na v etk ch be n ch hladin ch v znamnosti zamietame nulov hypot zu, pri-

    j mame alternat vnu hypot zu, e dan model je tatisticky v znamn , t.j.

    premenn s line rne z visl .

    Rovnica vyrovn vaj cej regresnej priamky je 95,233649,19 xy .

    e esn st tistiN sobn R 0,675Hodnota spolehlivosti R 0,455Nastaven hodnota spolehlivosti R 0,450Chyba st . hodnoty 24,489

    ozorov n 106

    ANOVAo n nost

    Regrese 1 52163,363 52163 86,98364 2,14942E-15Rezidua 104 62367,931 599,7Celkem 105 114531,294

    Koeficienty Chyba st . hodnoty t stat Hodnota oln 95 Horn 95 oln 99 Horn 99Hranice 233,951 8,279 28,257 1,325E-50 217,533 250,369 212,226 255,676vek -19,649 2,107 -9,327 2,1494E-15 -23,827 -15,471 -25,178 -14,121

  • tatisti a s Ex e m

    191

    489,24rezs , tzn. skuto n ceny ut sa odchy uj od hodn t regresnej

    priamky pribli ne o 5,24 tis c kor n.

    p-hodnota pri t-teste hypot zy 0: 10 BH oproti 0: 11 BH je to ist mal

    slo 2,14 .10-15, preto na ka dej be nej hladine v znamnosti prij mame al-

    ternat vnu hypot zu, e premenn s line rne z visl .

    8.6 ou itie regresnej priamky Regresn priamku xbby 10~ pova ujeme za bodov odhad strednej hodnoty

    z visle premennej Y a m eme ju pou i na

    bodov odhad hodnoty Y pre jednu konkr tnu hodnotu X ,

    bodov odhad priemernej hodnoty Y pre ist rove znaku X, ale len na in-

    tervale maxmin x,x .

    Napr klad, m eme o ak va , e cena jedn ho 2 ro n ho auta je

    y = 233,95 19,65.2 = 194,65 tis c Sk.

    e to z rove priemern cena v etk ch dvojro n ch ut.

    ozn mka 8.3

    Vieme v ak ur i aj :

    100(1- )% interval spo ahlivosti pre koeficient B0 :

    02,210 . bstb n 0B 02,210 . bstb n ,

    100(1- )% interval spo ahlivosti pre koeficient B1:

    12,211 . bstb n 1B 12,211 . bstb n ,

    100(1- )% interval spo ahlivosti pre priemern hodnotu Y v z kladnom

    s bore pre dan konkr tnu hodnotu ix , ozna me ju ixy a plat

    ini stxbb .)( 2,2110 ixy ini stxbb .)( 2,2110 ,

  • tatisti a s Ex e m

    192

    kde

    ii

    irezi

    xx

    xxn

    ss 2

    21. je tandardn odch lka vyrovnan ch hodn t

    ii xbby 10~ . rka tohto intervalu je in pre ka d ix a roz iruje sa so vz a-

    ovan m ix od .x

    100(1- )% interval spo ahlivosti pre individu lnu hodnotu Y v z kladnom

    s bore pre dan konkr tnu hodnotu ix , ozna me ju ixY a plat

    ini stxbb .)( 2,2110 ixY ini stxbb .)( 2,2110 ,

    kde 11. 2

    2

    ii

    irezi

    xx

    xxn

    ss je tandardn odch lka individu lnych

    hodn t premennej Y. rka tohto intervalu je v ia ako pre odhad stabilnej-

    ej priemernej hodnoty.

    v stupn ch tabuliek pre Regresiu sa d pre n Pr klad 8.2 ur i :

    95% interval spo ahlivosti pre B0 : 36,25053,217 0B ,

    95% interval spo ahlivosti pre B1 : 47,1583,23 1B ,

    Podobne z tabuliek s zn me 99% intervaly spo ahlivosti pre B0 a B1.

    95% interval spo ahlivosti pre priemern cenu 2 ro n ho auta mus me dopo ta

    bez EXCELu.

    764,3x , 112,322

    x , i

    i xx 104,1352

    180,021 2

    2

    ii xx

    xn

    489,24rezs , 983,12,21 nt , 652,1942.~ 102 bby

  • tatisti a s Ex e m

    193

    maxim lne pr pustn chyba odhadu je teda 750,8.2,21 in st , preto 95% in-

    terval spo ahlivosti pre priemern cenu 2 ro n ho auta je 750,8652,194 ti-

    s c Sk.

    ozn mka 8.4

    pravami bodov ho diagramu v EXCELi sa d do grafu vlo i regresn kriv-

    ka, rovnica regresnej krivky i koeficient determin cie. Klikneme prav m tla-

    idlom na niektor bod grafu, zvol me Prida rendov iaru, na z lo ke

    yp line rny a na z lo ke o nos i o ra i v grafe rovnicu regresnej

    priamky a R2.

    Obr. 8.4 pravy bodov ho grafu

    8.7 redpoklady pre pou itie met dy najmen ch tvorcov Met da najmen ch tvorcov d va neskreslen odhad regresnej priamky pri splne-

    n ist ch predpokladov o rozdelen pravdepodobnosti n hodn ch ch b i v modeli

    iii xBBy 10 .

    S to tieto predpoklady:

    y = -19,649x + 233,95R2 = 0,4555

    0

    100

    200

    300

    0 2 4 6 8vek

  • tatisti a s Ex e m

    194

    Stredn hodnota n hodn ch ch b je nula.

    Rozptyl n hodn ch ch b je kon tantn .

    Rozdelenie pravdepodobnosti n hodn ch ch b je norm lne .

    N hodn chyby s medzi sebou vz jomne nez visl . Splnenie t chto predpokladov sa d overi a po zvolen regresn ho modelu, lebo

    a vtedy s zn me rez du , ktor s odhadmi n hodn ch ch b. ch splnenie sa pri-

    bli ne over graficky zostrojen m histogramu rozdelenia rez du a z bodov ho dia-

    gramu hodn t (yi , ei). Podrobnej ie sa tomuto probl mu nebudeme venova (po-

    zri [6]).

    8.8 n typy regresn ch funkci Line rna regresn funkcia je v aka ahkej interpret cii preferovan pred in mi

    typmi, ale niekedy z povahy probl mu vypl va, e pre popis danej z vislosti by

    bola vhodnej ia in regresn funkcia. Uvedieme niektor in modely.

    arabolick regresia Regresn funkcia je tvaru 2210 xBxBB , bodov od-

    hady koeficientov z skame priamo pou it m met dy najmen ch tvorcov, t.j.

    h adan m minima funkcie troch premenn ch 21

    2 ~ii

    n

    ii yye , kde

    2210

    ~iii xbxbby .

    ov eobecnen m m e by polynomick regresia vy ieho stup a, v praxi sa stre-

    t vame s polyn mami maxim lne 3. a 4. stup a.

    Hyperbolick regresia Regresn funkcia je tvaru x

    BB 10 . Bodov odhady

    koeficientov z skame tie priamo pou it m met dy najmen ch tvorcov.

    Logaritmick regresia Regresn funkcia je tvaru xBB log10 . Bodov odha-

    dy koeficientov z skame priamo pou it m met dy najmen ch tvorcov.

  • tatisti a s Ex e m

    195

    E ponenci lna regresia Regresn funkcia je tvaru xBB 10 . Bodov odhady

    koeficientov sa nedaj z ska priamo pou it m met dy najmen ch tvorcov.

    Vhodnou pravou (transform ciu) regresnej funkcie ju uprav me na tak tvar, kde

    funkcie jej parametrov sa daj odhadn met dou najmen ch tvorcov. V tomto

    pr pade logaritmovan m dostaneme :

    10 lnlnln BxB

    a budeme h ada minimum funkcie 210 lnlnln bxby ii .

    n mym sp sobom pou ijeme parci lne deriv cie tejto funkcie a ako rie enie s s-

    tavy z skame 0lnb a 1lnb .

    ozn mka 8.5

    Podobne postupujeme aj v pr pade in ch typov funkci , ktor m sa v ak nebudeme

    venova .

    Pri v bere vhodn ho typu regresnej funkcie sa v EXCELi orientujeme pod a

    hodnoty koeficientu determin cie, ktor je definovan nez visle na type regresnej

    funkcie.

    r klad 8.3

    Pracovn k person lneho oddelenia c ti, e existuje vz ah medzi po tom dn absen-

    cie v pr ci a vekom pracovn ka. Vy etrite t to z vislos na z klade dajov v Tab.

    8.9. Pre n zornos pr kladu sme pou ili nevyhovuj ci, ve mi mal rozsah v beru.

    Tab. 8.9

    vek 27 61 37 23 46 58 29 36 64 40

    absencia 15 6 10 18 9 7 14 11 5 8

  • tatisti a s Ex e m

    196

    S vy it m EXCELu vieme vlo i do bodov ch diagramov graf regresnej iary,

    EXCEL poskytuje na v ber line rnu, logaritmick , exponenci lnu, polynomick

    ( ubovo n ho stup a) alebo mocninov krivku s jej analytick m vyjadren m

    i koeficientom determin cie. V tomto pr klade vid me, e z viacer ch mo n ch

    rie en je najvhodnej ia parabola s najv m koeficientom determin cie. S m rie-

    ite lohy sa mus rozhodn , ktor z t chto mo n ch modelov je pre jeho potre-

    by vyhovuj ci.

    y = 0,008x2 - 0,9752x + 35,645R2 = 0,9604

    0

    5

    10

    15

    20

    20 30 40 50 60 70vek

    abse

    ncia

    y = -0,2681x + 21,587R2 = 0,8696

    0

    5

    10

    15

    20

    20 30 40 50 60 70vek

    abse

    ncia

    y = 30,07e-0,0273x

    R2 = 0,9341

    0

    5

    10

    15

    20

    20 30 40 50 60 70vek

    abse

    ncia

    y = -11,482Ln(x) + 52,599R2 = 0,9367

    0

    5

    10

    15

    20

    20 30 40 50 60 70vek

    abse

    ncia

    Obr. 8.5 R zne modely regresn ch funkci k Pr kladu 8.3

    Ak sa podrobnej ie zauj mame aj o celkov F-test tatistickej v znamnosti modelu,

    t-testy nulovosti koeficientov regresnej funkcie, o intervalov odhady koeficientov re-

    gresnej funkcie pou ijeme v EXCELi funkciu Regresia, kde do vstupnej tabu ky pre

  • tatisti a s Ex e m

    197

    nez visl premenn vlo me viac st pcov . V stupn tabu ky pre n pr klad s uvede-

    n pre parabolick regresiu, interpret cia tabuliek je rovnak ako pri line rnej regresii.

    Tab. 8.10 Kvadratick regresia k Pr kladu 8.3

    abs vek vek na druh15 27 7296 61 3721

    10 37 136918 23 5299 46 21167 58 3364

    14 29 84111 36 12965 64 40968 40 1600

    V LE EK

    e esn st tistiN sobn R 0,9800Hodnota spolehlivosti R 0,9604Nastaven hodnota spolehlivosti R 0,9491Chyba st . hodnoty 0,9516

    ozorov n 10

    ANOVAo n nost

    Regrese 2 153,7611 76,8805 84,8979 1,23507E-05Rezidua 7 6,3389 0,9056Celkem 9 160,1000

    Koeficienty Ch.st . ho noty t st t o not on o nHranice 35,645 3,638 9,799 0,0000 27,043 44,247vek -0,975 0,178 -5,484 0,0009 -1,396 -0,555vek na druhu 0,008 0,002 4,006 0,0052 0,003 0,013

    r klady na precvi enie

    8.4 ostrojte bodov diagram z vislosti znakov Y na X pre dan v berov s bo-

    ry a dan premenn , vlo te do grafu rovnicu regresnej priamky, hodnotu

    koeficientu determin cie, vytvorte korela n maticu, pomocou t-testu na

  • tatisti a s Ex e m

    198

    hladine v znamnosti 05,0 otestujte line rnu z vislos premenn ch, do

    grafu vlo te in typ regresnej krivky.

    a) PR MAC E SK KY/1.fakulta, X-matematika, Y- fyzika

    Ur ite, ak priemern po et bodov dosiahne tudent z fyziky, ak

    z matematiky z skal 15 bodov (21 bodov).

    b) PR MAC E SK KY/2.fakulta, X-matematika, Y- fyzika.

    Ur ite, ak priemern po et bodov dosiahne tudent z fyziky, ak

    z matematiky z skal 15 bodov (21bodov).

    c) PR MAC E SK KY/1.fakulta, X-matematika (upr.) Y- priemer

    Ur ite, ak priemern zn mku dosiahne tudent po 2.semestri, ak zo sk -

    ky z matematiky (up r) mal zn mku 3,2 (2).

    d) PR MAC E SK KY/2.fakulta, X-matematika, Y- priemer.

    Ur ite, ak priemern zn mku dosiahne tudent po 2.semestri, ak zo sk ky

    z matematiky (upr) mal zn mku 3,2 (2).

    8.5 Pomocou n stroja Regresia vy etrite line rnu z vislos znakov X, Y

    v z kladn ch s boroch, ur ite korela n koeficient, koeficient determin -

    cie, n jdite rovnicu regresnej priamky, na hladine v znamnosti

    05,0 pomocou celkov ho F-testu, alebo t-testu pos te v znamnos

    tatistick ho modelu, n jdite pr slu n intervaly spo ahlivosti pre koefi-

    cienty regresnej priamky.

    a) PR MAC E SK KY/1.fakulta, X-matematika, Y- fyzika,

    b) PR MAC E SK KY/2.fakulta, X-matematika, Y- fyzika.


Recommended