Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Matematicka statistika
Sarka Hudecova
Katedra pravdepodobnosti a matematicke statistikyMatematicko-fyzikalnı fakulta Univerzity Karlovy
letnı semestr 20121
1Zalozeno na materialech doc. Michala Kulicha
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Opakovanı
populace a vyber z populace
nahodny vyber! nezavisle nahodne veliciny X1, . . . ,Xn
se stejnym rozdelenım
vyberovy prumer X n a jeho vlastnosti
strednı hodnotarozptylchovanı pro n → ∞rozdelenı, asymptoticke rozdelenı
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Pravdepodobnost vs. statistika
Teorie pravdepodobnosti
pracuje s jednou nebo vıce teoretickymi nahodnymivelicinami, jejichz rozdelenı je znamo
odvozovali jsme charakteristiky techto rozdelenı atd.
Statistika
pracuje s pozorovanımi (daty)! nahodny vyber znejakeho neznameho rozdelenı
na zaklade dat se snazıme neco rıci o rozdelenı, z nehozpochazejı (napr. o strednı hodnote apod.)
nekdy pozorujeme vıce nahodnych velicin (vıce nahodnychvyberu) a chceme neco usoudit o jejich vzajemnem vztahu
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Statististicky prıstup k resenı problemu
1 co nejpresnejsı stanovenı problemu, otazky apod.
2 plan experimentu
3 sber pozorovanı datovy soubor
4 vyber vhodneho pravdepodobnostnıho modelu popisujıcıhorozdelenı pozorovanych dat
5 formulace reseneho problemu v reci matematiky(matematicke statistiky)
6 analyza dat pomocı statisticke metody
7 spravna interpretace resenı odpoved’ na puvodnı otazku
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Data
pozorovanı (merenı), ktera provadıme kvuli zodpovezenıpolozene otazky
upravujeme do formatu datove tabulky a uchovavame velektronicke podobe jako pocıtacovy soubor
pozorovanı tykajıcı se nezavislych subjektu nahodnehovyberu (osob, experimentu,. . . ) vetsinou v radcıch,jednotlive merene veliciny ve sloupcıch
k zaznamenavanı dat a manipulacım s nimi se pouzıvajıruzne druhy pocıtacoveho softwaru (databazove systemy,Excel, R, SAS,. . . )
statisticka analyza pomocı statistickych softwaru (R,SAS,. . . )
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Prıklad datoveho souboru
Tabulka: Cast datove tabulky predstavujıcı nahodny vyber z populacestudentu 1. rocnıku
id pohl vys vaha n.sour v.o v.m bydl...
......
......
......
...23 1 183 70 3 49 50 Vysocina24 1 192 85 2 51 53 Jiznı Morava25 1 178 90 1 45 41 Karlovy Vary26 0 168 55 1 53 53 Praha...
......
......
......
...
(celkem 269 pozorovanı v letech 2006–2011)
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Prıklady problemu k resenı
Jaka je typicka hmotnost studentu?
Jake procento studentu je z Prahy?
Jake je rozdelenı veku studentu na prednasce?
Jsou otcove detı starsı nez matky? Pokud ano, o kolik?
Zavisı vyska na pohlavı? Pokud ano, tak jak?
Zavisı velikost bot na vysce?
Dva typy problemu:
odhady neznamych kvantit! odhady parametru
rozhodovanı o platnosti nejakeho vyroku! testovanıhypotez
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Prıklad datoveho souboru
Studie zkoumajıcı ucinky noveho leku pro snizovanı krevnıhotlaku:
id lek tlak pred tlak po pohl. vaha . . . kurak...
......
......
......
...103 T 145 120 M 82 . . . ano104 C 155 130 M 97 . . . ano105 T 140 135 Z 74 . . . ne106 C 160 150 M 123 . . . ano
......
......
......
......
Je novy lek (T) ucinnejsı nez standardnı lek (C)? O kolik?
Lisı se ucinnost pro muze a zeny? Jak?
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Teorie odhadu
mame data x1, . . . , xn (napr. hodnoty vysky studentu)
povazujeme je za realizaci nahodneho vyberu X1, . . . ,Xn
z nejakeho neznameho rozdelenı
chceme neco usuzovat o charakteristikach tohoto rozdelenı(strednı hodnota, rozptyl, hustota . . . ) budemekonstruovat jejich odhady
odhadu je mnoho, chceme vybrat ty”dobre“
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Teorie odhadu
mame data x1, . . . , xn (napr. hodnoty vysky studentu)
povazujeme je za realizaci nahodneho vyberu X1, . . . ,Xn
z nejakeho neznameho rozdelenı
chceme neco usuzovat o charakteristikach tohoto rozdelenı(strednı hodnota, rozptyl, hustota . . . ) budemekonstruovat jejich odhady
odhadu je mnoho, chceme vybrat ty”dobre“
Jak by mel vypadat”dobry odhad“?
Nemel by mıt zadnou systematickou vychylku (v prumeruby mel odhadovat to, co chceme odhadovat).
S pribyvajıcım poctem pozorovanı by mel byt”presnejsı a
presnejsı“.
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Teorie odhadu — prıklad
Prıklad
Chceme odhadnout”typickou“ vysku (tj. strednı hodnotu)
studentu 1. rocnıku na zaklade merenı provedeneho nan nahodne vybranych studentech.
Merenı odpovıdajı nezavislym nahodnym velicinam X1, . . . ,Xn
z nejakeho neznameho rozdelenı, jehoz strednı hodnotaEX = µX nas zajıma.
Uz vıme, ze:
X n ma strednı hodnotu µX
X n → µX pro n → ∞
X n tedy v prumeru dosahuje hodnoty µX , kterou chcemeodhadnout, a se zvysujıcım se poctem pozorovanı se k tetohodne blızı X je
”dobry“ odhad strednı hodnoty
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
⋆ Formalnı definice
Definice
Odhadem nezname charakteristiky θ rozumıme jakoukoli funkciθn pozorovanı X1, . . . ,Xn.
1 Odhad θn nazyvame nestranny (nevychyleny), pokudE θn = θ.
2 Odhad θn nazyvame konzistentnı, pokud limn→∞ θn = θ.
Zaver: Rozumne odhady by mely byt konzistentnı a pokudmozno nestranne (ale mala vychylka nevadı).
Poznamka: Odhad je z principu nahodna velicina proto lzeuvazovat jeho rozdelenı, strednı hodnotu atd.
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Co vsechno budeme odhadovat?
Problem: Mame nahodny vyber X1, . . . ,Xn z nejakehoneznameho rozdelenı. Potom nas muzou zajımat odhadynasledujıcıch charakteristik:
strednı hodnota
rozptyl
kvantily (vcetne medianu)
distribucnı funkce
hustota pro spojite rozdelenı
pravdepodobnosti P(X = xj) pro diskretnı rozdelenı
. . .
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Odhad strednı hodnoty
Situace: X1, . . . ,Xn nahodny vyber, chceme odhadnout EX
Odhad: vyberovy prumer
X n =1
n
n∑
i=1
Xi ,
uz vıme, ze tento odhad ma dobre vlastnosti.
Charakteristika
strednı hodnota
EX =∑
xiP(X = xi) neboEX =
∫x f (x)dx
platı E (a + bX ) = a+ bEX
platı E (X + Y ) = EX + EY
Odhad
vyberovy prumer
X n = 1n·∑n
1 Xi
platı totez
platı totez
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Prıklad
Prıklad
Odhadnete strednı hodnotu vysky studentu 1. rocnıku PrF.
Resenı: Mame zaznamenanych 266 hodnot (3 chybejıcıhodnoty)! nahodny vyber z populace studentu 1. rocnıkuPrF
X =1
266(174+159+167+ · · ·+165+172+178) = 174.1 cm.
Podobne bychom mohli spocıtat odhad strednı hodnoty velicin
vaha, BMI index,
vek otce, vek matky, rozdıl veku rodicu,
velikost bot, pocet sourozencu, . . .
Ma smysl pocıtat strednı hodnotu veliciny udavajıcı pohlavı amesıc narozenı?
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Odhad pravdepodobnosti
Situace: Mame nahodny vyber X1, . . . ,Xn z diskretnıhorozdelenı, chceme odhad pravdepodobnostı pj = P [Xi = j]
Odhad: relativnı cetnost hodnoty j
pj =#[Xi = j]
n
je pocet pozorovanı, ktera nabyla hodnoty j , deleny celkovympoctem pozorovanı n.
Poznamka:
popis tzv. kategorialnıch znaku (pohlavı, bydliste . . . )
analogicky lze odhadovat pravdepodobnosti typuP(Xi < 80) pro spojita Xi
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Odhad pravdepodobnosti
Prıklad
Odhadnete pravdepodobnost, s jakou se vybrany(a) student(ka)1. rocnıku PrF narodil(a) v danem mesıci.
zaznamenan mesıc narozenı pro 269 studentu
23 se narodilo v lednu odhadnuta pravdepodobnostnarozenı studenta v lednu je tedy 23/269 = 0.086.
Kompletnı tabulka pro vsechny mesıce:
Leden Unor Brezen Duben Kveten Cerven0.086 0.0631 0.067 0.093 0.108 0.078
Cervenec Srpen Zarı Rıjen Listopad Prosinec0.093 0.089 0.097 0.074 0.078 0.074
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Odhad rozptylu a smerodatne odchylky
Situace: X1, . . . ,Xn nahodny vyber, chceme odhadnout rozptylvarX = E (X − EX )2 a smerodatnou odchylku σX =
√varX
Odhady: vyberovy rozptyl
S2n =
1
n − 1
n∑
i=1
(Xi − X n)2
a vyberova smerodatna odchylka
Sn =
√√√√ 1
n − 1
n∑
i=1
(Xi − X n)2.
Da se ukazat, ze tyto odhady majı”dobre“ vlastnosti
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Odhad rozptylu a smerodatne odchylky
Charakteristika
rozptyl
varX = E (X − EX )2
platı
varX = EX 2 − (EX )2
var (a + bX ) = b2varX
varX ≥ 0 a varX = 0prave tehdy, kdyz Xkonstanta
Odhad
vyberovy rozptyl
S2n = 1
n−1
∑ni=1(Xi − X n)
2
platı
S2n =
n
n − 1
(1
n
n∑
i=1
X 2i −X
2n
)
platı totez
S2n ≥ 0 a S2
n = 0 pravetehdy, kdyz jsou vsechna Xi
stejna
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
⋆ Odhad rozptylu a smerodatne odchylky
S2n je nestranny a konzistentnı odhad σ2
X
jiny mozny odhad rozptylu je
1
n
n∑
i=1
(Xi − X n)2.
Tento odhad je konzistentnı, ale nenı nestranny.
Sn je konzistentnı odhad σX , ale nenı nestranny
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Odhad rozptylu a smerodatne odchylky
Prıklad
Odhadnete rozptyl a smerodatnou odchylku vysky studentu1. rocnıku PrF zvlast’ pro muze a pro zeny.
Ve vyberu mame 159 hodnot vysek zen (oznacıme jeX1, . . . ,Xn, kde n = 159) a 110 hodnot vysek muzu (oznacımeje Y1, . . . ,Ym, kde m = 110).
Vypocet vyberovych rozptylu a smerodatnych odchylek da
Skupina Vyb. rozptyl Vyb. smer. odchylka
Zeny 41.86 cm2 6.47 cmMuzi 41.62 cm2 6.45 cm
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Odhad distribucnı funkce
Problem: X1, . . . ,Xn nahodny vyber, chceme odhadnoutdistribucnı funkci F (x) = P(X ≤ x)
Odhad: empiricka distribucnı funkce definovana jako
Fn(x) =#[i : Xi ≤ x ]
n
lze ukazat, ze ma”dobre“ vlastnosti
hodnota funkce Fn v bode x je odhadem pravdepodobnostiP [Xi ≤ x ] pomocı relativnı cetnosti jevu [Xi ≤ x ]
Fn ma stejne vlastnosti jako distribucnı fce diskretnıveliciny
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Odhad distribucnı funkce
Vlastnosti empiricke distribucnı funkce
po castech konstantnı
skoky v pozorovanych hodnotach velicin X1, . . . ,Xn
velikost skoku v danem bode x je rovna poctu velicinnabyvajıcı hodnoty x delenemu n
Prıklad: Fn nahodneho vyberu 2, 5, 1, 2, 6, 4, 5, 2.
0 1 2 3 4 5 6 7
0.0
0.2
0.4
0.6
0.8
1.0
x
Fn(x
)
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Odhad distribucnı funkce
Empiricka distribucnı funkce vahy studentu 1. rocnıku PrF(muzi a zeny zvlast’).
40 60 80 100 120
0.0
0.2
0.4
0.6
0.8
1.0
Hmotnost
ED
F
zenymuzi
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Odhad hustoty
Problem: X1, . . . ,Xn nahodny vyber ze spojiteho rozdelenı,chceme odhadnout hustotu f
odhad hustoty je relativne slozity problem spokojıme ses jednoduchou grafickou metodou
histogram! dava vizualnı predstavu o hustote
Histogram of vyska
Vyska [cm]
Odh
ad h
usto
ty
150 160 170 180 190 200
0.00
0.01
0.02
0.03
0.04
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Konstrukce histogramu
vezmeme interval A = (a, b〉, ktery pokryva cele rozmezıdat
rozdelıme jej na K navazujıcıch stejne velkychpodintervalu Ak , k = 1, . . . ,K , vsechny delky h = b−a
K
oznacıme Nk pocet pozorovanı, ktere padly do Ak
potom Nk
nhje
”dobry“ odhad hustoty na intervalu Ak
Histogram
graficke znazornenı Nk
nhna intervalech Ak
nekdy se zobrazujı relativnı cetnostiNk
nanebo jen cetnosti
Nk stejny tvar, ale lisı se skala na ose y
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Histogram – prıklad
Histogram vysky studentu s prolozenou hustotou normalnıhorozdelenı
Histogram of vyska
Vyska [cm]
Odh
ad h
usto
ty
150 160 170 180 190 200
0.00
0.01
0.02
0.03
0.04
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Ruzne”druhy“ histogramu
Histogram of vyska
Vyska [cm]
Odh
ad h
usto
ty
150 170 190
0.00
0.01
0.02
0.03
0.04
Histogram of vyska
Vyska [cm]
Poc
ty
150 170 190
010
2030
4050
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Histogram
tvar histogramu zavisı na volbe K , tj. poctu uvazovanychintervalu
150 170 190
0.000
0.005
0.010
0.015
0.020
0.025
0.030
0.035
Vyska [cm]
150 170 190
0.00
0.01
0.02
0.03
0.04
Vyska [cm]
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Odhad kvantilu
Problem: X1, . . . ,Xnnahodny vyber, chceme odhadnouthodnotu kvantilu qX (α). Specialne, budeme chtıt odhadmedianu mX ≡ qX (0.5).
Pripomenutı:
na kvantil se muzeme dıvat jako na hodnotu, kterou Xi ve100α % prıpadu nedosahne a ve 100(1 − α) % prıpadu jipresahne
spec. pro spojitou velicinu P(X < qX (α)) = α aP(X > qX (α)) = 1− α
odhady sestrojıme pomocı tzv. usporadaneho vyberu
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Usporadany nahodny vyber
Definice
Usporadanym nahodnym vyberem rozumıme seznam hodnotpuvodnıho nahodneho vyberu usporadany vzestupne podlevelikosti. Usporadany vyber znacıme indexem v zavorce
X(1),X(2), . . . ,X(n−1),X(n).
Musı tedy platit
X(1) ≤ X(2) ≤ · · · ≤ X(n−1) ≤ X(n).
X(1) je tedy nejmensı pozorovanı (minimum) z celehonahodneho vyberu a X(n) je nejvetsı pozorovanı (maximum).
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Odhad medianu
nahodny vyber X1, . . . ,Xn usporadany nahodny vyber
median by mel odpovıdat prostrednı hodnote
pro n liche mame
X(1) ≤ . . . ≤ X( n−12
)︸ ︷︷ ︸n−12
≤ X( n+12
) ≤ X( n+32
) ≤ · · · ≤ X(n)︸ ︷︷ ︸
n−12
pak za odhad medianu vezmeme X( n+12
)
pro n sude mame
X(1) ≤ . . .X( n2)︸ ︷︷ ︸
n2
≤ X( n2+1) ≤ · · · ≤ X(n)︸ ︷︷ ︸
n2
a zadna namerena hodnota prostrednı nenı za odhadmedianu vezmeme prumer X( n
2) a X( n
2+1)
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Odhad kvantilu
pouzijeme analogicke uvahy
oznacıme nα = (n + 1)α
je-li nα cele cıslo, pak odhadu qn(α) odpovıda X(nα)
Odhad: Kvantil qn(α) odhadneme pomocı α-teho vyberovehokvantilu
qn(α) =
{X(nα), je-li nα cele cıslo,
(1− nα + [nα])X([nα]) + (nα − [nα])X([nα]+1), jinak,
kde [x ] je cela cast cısla x .
pro α = 0.5 dostaneme tzv. vyberovy median, jizdiskutovany
qn(α) je ”dobry“ (konzistentnı ale ne nestranny) odhad
qn(α)
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Odhad kvantilu
Jak chapat vyraz v definici vyberoveho kvantilu?
qn(α) = (1− nα + [nα])X([nα]) + (nα − [nα])X([nα]+1)
Prıklad:
uvazujme n = 33 pocet pozorovanı a α = 0.2, tj. chceme20% kvantil
logicky bychom meli bychom vzıt (n + 1)α = 6.8-tepozorovanı z usporadaneho vyberu
to nelze mısto toho vezmeme 7− 6.8 = 0.2 z sesteho a6.8− 6 = 0.8 ze sedmeho pozorovanı
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Odhad kvantilu — prıklad
Prıklad
Odhadnete median veku otce a matky studentu 1. rocnıku PrFv dobe narozenı studenta.
zname soucasny vek rodicu, rok narozenı studenta a rokzaznamu dat spocıtame vek rodicu pri narozenı dıtete
258 pozorovanı veku otce, 262 pozorovanı veku matky
otcove: vyberovy median ze 258 pozorovanı = prumerpozorovanı c. 129 a 130 v usporadanem nahodnem vyberu(dve prostrednı pozorovanı)
pro matky podobne
dostaneme 27 let pro vek otce a 26 let pro vek matky!polovina otcu byla pri narozenı dıtete nejvyse 27 let stara apolovina matek nejvyse 26 let stara
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Odhad kvantilu — prıklad (pokrac.)
Spocıtame jeste dalsı vyberove kvantily veku rodicu prinarozenı dıtete:
kvantil 5% 10% 25% 75% 90% 95%
otcove 20.85 22 24 31 35 37.30matky 19.00 20 22 29 32 34.95
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Odhad kovariance a korelace
Problem: nahodny vyber(X1Y1
), . . . ,
(Xn
Yn
)z dvourozmerneho
rozdelenı, chceme odhadnout kovarianci a korelaci znaku X a Y
Pripomenutı
kovariance
cov (X ,Y ) = E [(X − EX )(Y − EY )]
merı zavislost X a Y
korelace
ρXY =cov (X ,Y )√varX varY
je normalizovana verze, −1 ≤ ρXY ≤ 1
jsou-li X ,Y nezavisle cov (X ,Y ) = 0 = ρXY
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Vyberova kovariance
Kovariance: cov (X ,Y ) = E [(X − EX )(Y − EY )]Odhad: vyberova kovariance
SXY =1
n − 1
n∑
i=1
(Xi − X )(Yi − Y )
X je vyberovy prumer X1, . . . ,Xn
Y je vyberovy prumer Y1, . . . ,Yn
SXY ma stejnou struktura jako teoreticka kovariance, jenstrednı hodnoty nahrazeny prumery a mısto E
prumerujeme
SXY je”dobry“ odhad cov (X ,Y )
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Odhad korelace
Korelace: ρXY =cov (X ,Y )√varX varY
Odhad: vyberovy korelacnı koeficient
rXY =SXYSX SY
=
∑ni=1(Xi − X )(Yi − Y )√∑n
i=1(Xi − X )2∑n
i=1(Yi − Y )2.
S2X je vyberovy rozptyl X1, . . . ,Xn
S2Y je vyberovy rozptyl Y1, . . . ,Yn
rXY je podılem vyberove kovariance a soucinu vyberovychsmerodatnych odchylek
rXY je”dobry“ (konzistentnı ale ne nestranny) odhad ρXY
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Odhad kovariance a korelace
Charakteristika
kovariance
covX =E [(X − EX )(Y − EY )]
platıcov (X ,Y ) = EXY − EXEY
korelace ρXY
ρXY = cov (X ,Y )√varXvarY
−1 ≤ ρXY ≤ 1
znamenko udava smerzavislosti
Odhad
vyberova kovariance
SXY =1
n−1
∑ni=1(Xi − X )(Yi − Y )
platı SXY =n
n−1
(1n
∑ni=1 XiYi − X Y
)
vyberova korelace rXY
rXY = SXYSXSY
−1 ≤ rXY ≤ 1
znamenko naznacuje smerzavislosti
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Odhad kovariance a korelace — prıklad
Prıklad
Odhadnete korelacnı koeficient mezi vyskou a vahou studentu1. rocnıku PrF.
zaznamenano 266 hodnot dvojice vyska/vaha (3 chybejıcıpozorovanı) nahodny vyber z populace studentu1. rocnıku PrF
vyska X1, . . . ,Xn, vaha Y1, . . . ,Yn, n = 266
nutne spocıst X , Y , S2X , S
2Y , SXY a dosadit do vzorecku
(nebo pouzıt statisticky software)
vyjde rXY = 0.72
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Odhad kovariance a korelace: prıklad
Graf vahy proti vysce (rXY = 0.72):
150 160 170 180 190 200
5060
7080
9010
011
0
Vaha
Vys
ka
hodnota rXY koresponduje s obrazkem! zda se, ze vetsıvyska se pojı s vyssı hmotnostı
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Odhad kovariance a korelace — prıklad
Graf vysky proti veku otce pri narozenı dıtete (rXY = −0.04):
20 25 30 35 40 45
150
160
170
180
190
200
Vek otce pri narozeni ditete
Vys
ka
nic nenaznacuje, ze by vyska nejak souvisela s vekem otce prinarozenı dıtete
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Odhady — shrnutı
Teorie
nahodny vyber
strednı hodnota EX
rozptyl varX
median, kvantily qX (α)
distribucnı funkce F
hustota f
korelace ρXY
Odhady
data! realizace nah.vyberu
vyberovy prumer X n
vyberovy rozptyl S2X
vyberovy median, kvantilyqX (α)
empiricka distribucnı fce Fn
histogram
vyberova korelace rXY
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Graficka prezentace dat
graficke metody pro zkoumanı rozdelenı velicin a vztahumezi nimi
dava nam vizualnı predstavu o analyzovanych datech
kvantitativnı znaky
jiz zname histogram a empirickou distribucnı funkcikrabicovy grafbodovy graf
kategorialnı znaky
sloupcovy diagramvysecovy (kolacovy) diagram
Histogram of vyska
Vyska [cm]
Odh
ad h
usto
ty
150 160 170 180 190 200
0.00
0.01
0.02
0.03
0.04
zena muz
150
160
170
180
190
200
jaro leto podzim zima
150
160
170
180
190
200
nadvaha podvaha
Cet
nost
i
050
100
150
200
nadvaha
normalni podvaha
20 25 30 35 40 45
150
160
170
180
190
200
Vek otce pri narozeni ditete
Vys
ka
zenymuzi
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Krabicovy diagram (angl. boxplot)
simultanne zobrazuje nekolik vybranych charakteristiknema zavaznou definici konkretnı podoba se lisı podlepouziteho softwaru a zadanych parametruobvykle zakreslen vyberovy median a kvartily (ale lze iprumer a smer. odchylka)
2025
3035
4045
vek
otcu
pri
naro
zeni
dite
te
svisle polozena krabice
hornı a dolnı okraj urcujı vyberove kvartily
uprostred cara urcujıcı vyberovy median
”vousy“ (angl. whiskers) ukazujı rozmezıdat! od kvartilu k minimu/maximu(nenı-li odlehle)
odlehle pozorovanı! je dal nez3/2 · (Q3 − Q1) od blizsıho kvartilu
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Krabicovy diagram
Obrazek: Krabicovy diagram vysky studentu podle pohlavı a podlerocnıho obdobı pri narozenı.
zena muz
150
160
170
180
190
200
jaro leto podzim zima
150
160
170
180
190
200
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Bodovy diagram (angl. scatterplot)
slouzı k zobrazenı dvou spojitych nahodnych velicindvojice pozorovanı obou zkoumanych velicin zakreslene dokartezske soustavy souradnicvhodny k neformalnımu zkoumanı zavislosti mezinahodnymi velicinami
Prıklad: Bodovy diagram vysky studentu proti veku otces rozlisenım pohlavı
20 25 30 35 40 45
150
160
170
180
190
200
Vek otce pri narozeni ditete
Vys
ka
zenymuzi
Matematickastatistika
Uvod dostatistiky
Odhadycharakteristikrozdelenı
Grafickemetodypruzkumovestatistiky
Obdelnıkovy a vysecovy diagram
angl. barplot a pie chartzobrazujı cetnosti, relativnı cetnosti nebo procenta prohodnoty diskretnıch (kategorialnıch) velicin
Prıklad: obdelnıkovy a vysecovy diagram veliciny udavajıcı, zdama dany student nadvahu, podvahu nebo normalnı vahu
nadvaha podvaha
Cet
nost
i
050
100
150
200
nadvaha
normalni podvaha