+ All Categories
Home > Documents > home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument...

home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument...

Date post: 20-Apr-2020
Category:
Upload: others
View: 4 times
Download: 0 times
Share this document with a friend
86
NSTP097 Statistika Malý větníček Michal Kulich Naposledy upraveno dne 11. ledna 2012. Katedra pravděpodobnosti a matematické statistiky Matematicko-fysikální fakulta University Karlovy
Transcript
Page 1: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

NSTP097 Statistika

Malý větníček

Michal Kulich

Naposledy upraveno dne 11. ledna 2012.

Katedra pravděpodobnosti a matematické statistikyMatematicko-fysikální fakulta University Karlovy

Page 2: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v přednášce NSTP097 Statistika v rámci bakalář-ského studia oboru „Finanční matematikaÿ na MFF UK. Nejsou zdeuvedeny příklady a důkazy, proto tento materiál nestačí k přípravě nazkoušku a je nutno jej doplnit poznámkami z přednášek.

Autor bude povděčen za upozornění na případné překlepy a nejasnosti,které laskavý čtenář nalezne kdekoli v tomto dokumentu.

Michal [email protected]

Dáno v Karlíně dne 11. ledna 2012

Page 3: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

Část 1

Základy teorie pravděpodobnosti

3

Page 4: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.1 Úvod

1.1.1 Kolmogorovova definice pravděpodobnosti

Nechť je dána libovolná množina Ω.

Definice 1.1. Systém A podmnožin množiny Ω nazveme σ-algebrou pokud platí(a) ∅ ∈ A;(b) A ∈ A ⇒ Ac ∈ A;(c) A1, A2, A3, . . . ∈ A ⇒ ⋃∞

i=1Ai ∈ A.

Definice 1.2. Nechť Ω je nějaká množina a A σ-algebra jejích podmnožin. FunkciP : A → 〈0, 1〉 nazveme pravděpodobností, právě když splňuje následující pod-mínky:(a) P (A) ≥ 0, P (Ω) = 1;(b) A1, A2, A3, . . . ∈ A a Ai ∩Aj = ∅ ∀i 6= j ⇒ P (

⋃∞i=1Ai) =

∑∞i=1 P (Ai).

Definice 1.3. Množinu Ω nazýváme prostor elementárních jevů, její prvky ω ∈ Ωnazýváme elementární jevy. Prvky σ-algebry A nazýváme měřitelné množiny nebotaké náhodné jevy. Trojici (Ω,A, P ) nazýváme pravděpodobnostní prostor.

1.1.2 Náhodná veličina

Nechť je dán pravděpodobnostní prostor (Ω,A, P ).

Definice 1.4. Měřitelné zobrazení X : (Ω,A)→ (X ,B), kde X je nějaká množinaa B nějaká σ-algebra na X , nazveme náhodnou veličinou. Množinu X nazývámevýběrový prostor.

Poznámka. Nechť jsou dány σ-algebry A na množině Ω a B na množině X .Zobrazení X : Ω → X je měřitelné vzhledem k σ-algebrám A a B, právě když∀B ∈ B platí ω ∈ Ω : X(ω) ∈ B ∈ A (tj. vzory měřitelných množin jsouměřitelné).

Příklad. (Reálná) náhodná veličina, náhodný vektor, náhodná posloupnost, ná-hodný proces.

4

Page 5: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.1 Úvod

1.1.3 Rozdělení náhodné veličiny, hustota

Definice 1.5. Rozdělením náhodné veličiny X : (Ω,A)→ (X ,B) rozumíme indu-kovanou pravděpodobnostní míru PX na (X ,B) definovanou vztahem

PX(B)df= P (ω ∈ Ω : X(ω) ∈ B), B ∈ B.

Pravděpodobnost PX(B) značíme také P [X ∈ B].

Poznámka. Pravděpodobnostní prostor (Ω,A, P ) se pro danou náhodnou veli-činu transformuje na pravděpodobnostní prostor (X ,B, PX).

Tvrzení 1.1 (Věta o přenosu integrace). Nechť h jest měřitelná funkce z (X ,B)do (R,B0). Pak platí

Ωh(X(ω)) dP (ω) =

Xh(x) dPX (x).

Poznámka.

• Míra µ na (X ,B) je σ-konečná, právě když existují množiny B1, B2, B3, . . . ∈B takové, že ∪∞

i=1Bi = X a ∑∞i=1 µ(Bi) <∞.

• Míra PX je absolutně spojitá vzhledem k míře µ na (X ,B) právě když ∀B ∈ Bµ(B) = 0⇒ PX(B) = 0.

Tvrzení 1.2 (Radon-Nikodymova věta). Nechť X : (Ω,A) → (X ,B) je náhodnáveličina, nechť µ je σ-konečná míra na X a nechť PX je absolutně spojitá vzhledemk µ. Pak existuje reálná měřitelná nezáporná funkce fX(x) taková, že pro každouměřitelnou funkci h : (X ,B)→ (R,B0) platí

Xh(x) dPX (x) =

Xh(x)fX(x) dµ(x).

Funkce fX(x) je určena jednoznačně µ-skoro všude.Zde končí

přednáška 1

(4.10.)Definice 1.6. Funkce fX z předchozí věty se nazývá hustotou náhodné veličinyX vzhledem k míře µ.

Poznámka. Zvolme nějaké B ∈ B a dosaďme za funkci h indikátor množiny B(tj. h(x) ≡ IB(x) = 1 pokud x ∈ B, 0 jinak). Pak máme z věty o přenosu integrace

P [X ∈ B] =

B1 dPX (x) =

BX(ω) dP (ω) =

ΩIB(X(ω)) dP (ω)

a z Radon-Nikodymovy věty

P [X ∈ B] =∫

XIB(x) dPX (x) =

XIB(x)fX(x) dµ(x) =

BfX(x) dµ(x).

Hustota tedy jednoznačně určuje rozdělení náhodné veličiny X.

5

Page 6: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.2 Reálná náhodná veličina a jejírozdělení

Nechť je dán pravděpodobnostní prostor (Ω,A, P ). V této kapitole se zabývámereálnými náhodnými veličinami, tj. X : (Ω,A)→ (R,B0).

1.2.1 Charakterizace rozdělení reálné náhodné veličiny

Uveďme si několik způsobů, jak specifikovat rozdělení reálné náhodné veličiny.Výčet nebude úplný, existují i jiné způsoby (charakteristická funkce).

Hustota

Zvolme σ-konečnou míru µ na R tak, aby PX byla absolutně spojitá vzhledem k µ.Podle tvrzení 1.2 a poznámky pod definicí 1.6 existuje nezáporná měřitelná fX :R → R (jednoznačně určená skoro všude) taková, že P [X ∈ B] =

∫B fX(x) dµ(x)

∀B ∈ B0. Vezmeme-li B = R, máme∫∞−∞ fX(x) dµ(x) = 1.

Příklad.

• PX absolutně spojitá vzhledem k Lebesgueově míře λ: X je spojitá náhodnáveličina [náhodná veličina se spojitým rozdělením]

• PX absolutně spojitá vzhledem k čítací míře µS (S nejvýše spočetná mno-žina v R): X je diskrétní náhodná veličina [náhodná veličina s diskrétnímrozdělením]

• PX absolutně spojitá vzhledem k λ + µ0: náhodná veličina s diskrétní ispojitou složkou

Distribuční funkce

Definice 1.7. Funkci FX : R → R definovanou vztahem FX(x) = P [X ≤ x]nazýváme distribuční funkcí náhodné veličiny X.

Poznámka. Distribuční funkce FX jednoznačně charakterizuje rozdělení X [jed-ním směrem zřejmé, druhým směrem plyne z toho, že množiny (−∞, x〉 generujíborelovskou σ-algebru B0].

6

Page 7: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.2 Reálná náhodná veličina a její rozdělení

Poznámka.

• U spojité náhodné veličiny máme FX(x) =∫ x−∞ fX(t) dt, z čehož plyne

fX(x) = dFX(x)/dx.

• U diskrétní náhodné veličiny s hodnotami v S máme FX(x) =∑

t∈S, t≤x

P [X = t],

z čehož plyne P [X = x] = ∆FX(x).

Tvrzení 1.3 (Vlastnosti distribuční funkce).1. FX je neklesající, zprava spojitá2. limx→−∞ FX(x) = 0, limx→∞ FX(x) = 13. Pro libovolnou měřitelnou h : R → R platí

∫h(x)fX(x) dµ(x) =

∫h(x) dFX (x)

Poznámka.∫h(x) dFX (x) je Lebesgueův-Stieltjesův integrál. Tvrzení 1.1, 1.2 a

1.3 dohromady dávají∫

Ωh(X(ω)) dP (ω) =

∫h(x) dPX (x) =

∫h(x)fX(x) dµ(x) =

∫h(x) dFX (x).

Kvantilová funkce

Definice 1.8. Nechť FX je distribuční funkce reálné náhodné veličiny X. Funkce

F−1X (u) = infx : FX(x) ≥ u, u ∈ (0, 1)

se nazývá kvantilová funkce náhodné veličiny X.

Poznámka. Kvantilová funkce je neklesající a zprava spojitá. Z kvantilové funkcelze jednoznačně určit funkci distribuční. Je-li FX rostoucí a spojitá, pak F

−1X je

inversní funkcí k FX .

Definice 1.9. Nechť α ∈ (0, 1). α-kvantil uX(α) rozdělení FX je kterékoli reálnéčíslo splňující limhց0 FX(uX(α)− h) ≤ α a FX(uX(α)) ≥ α.

Poznámka. Definicí kvantilu je více, tato jej neurčuje vždy jednoznačně. F−1X (α)

je vždy jeden z α-kvantilů.

Definice 1.10.

• 0.5-kvantil se zove medián náhodné veličiny X; budeme jej značit mX

• 0.25- a 0.75-kvantily se zovou kvartily náhodné veličiny XZde končí

přednáška 2

(7.10.)

7

Page 8: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.2 Reálná náhodná veličina a její rozdělení

1.2.2 Momenty reálné náhodné veličiny

Definice 1.11. Střední hodnotou EX (reálné) náhodné veličiny X rozumíme re-álné číslo EX dané výrazem

EXdf=∫

ΩX(ω) dP (ω),

pokud integrál na pravé straně existuje.

Poznámka. Tuto definici lze snadno použít i v obecnějších výběrových prosto-rech.

Poznámka. Nechť h je reálná měřitelná funkce. Poznámka pod tvrzením 1.3 říká,že

Eh(X) =

∫ ∞

−∞h(x) dPX (x) =

∫ ∞

−∞h(x)fX(x) dµ(x) =

∫ ∞

−∞h(x) dFX (x)

Integrál uprostřed umíme v principu počítat pro µ Lebesgueovu nebo čítací míru.Integrál vpravo slouží k pohodlnému zápisu střední hodnoty (je kratší a nemusímespecifikovat míru µ).

Značení. Značkou Lp budeme značit množinu všech reálných náhodných veličinna (Ω,A, P ) takových, že E |X|p <∞.

Tvrzení 1.4 (Vlastnosti střední hodnoty). Nechť X,Y ∈ L1. Pak platí1. E (a+ bX) = a+ bEX ∀a, b ∈ R

2. E (X + Y ) = EX + EY3. P [X ≤ Y ] = 1⇒ EX ≤ EY4. Jestliže ∃µ ∈ R ∀x ∈ R fX(µ− x) = fX(µ+ x) pak EX = µ

Definice 1.12.

• µ′kdf= EXk se nazývá k-tý moment náhodné veličiny X (typicky je k přiro-

zené, ale nemusí to tak nutně být)

• µkdf= E (X − EX)k se nazývá k-tý centrální moment náhodné veličiny X

• E |X|k se nazývá k-tý absolutní moment náhodné veličiny X

Definice 1.13.

• Rozptyl varX náhodné veličiny X je její druhý centrální moment, tj. varX =E (X − EX)2. Rozptyl se může také značit σ2X nebo σ2.

• Směrodatná odchylka σX náhodné veličiny X je odmocnina z jejího rozptylu,σX =

√varX .

• Šikmost γ3 náhodné veličiny X je definována jako γ3df= µ3/σ3.

8

Page 9: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.2 Reálná náhodná veličina a její rozdělení

• Špičatost γ4 náhodné veličiny X je definována jako γ4df= µ4/σ4.

Tvrzení 1.5 (Vlastnosti rozptylu). NechťX je náhodná veličina taková, že varX <∞. Pak platí1. varX ≥ 0; navíc varX = 0⇔ ∃ c ∈ R : P [X = c] = 12. varX = EX2 − (EX)2 = µ2 − (µ′1)23. var (a+ bX) = b2 varX pro a, b ∈ R

Věta 1.6 (Jensenova nerovnost). Nechť X je náhodná veličina s hodnotami vintervalu I ⊆ R (může být nekonečný), tj. P [X ∈ I] = 1. Nechť g je [neostře]konvexní funkce na I taková, že existuje E g(X). Pak

E g(X) ≥ g(EX)

a rovnost nastává právě když g(x) = a+ bx nebo X je konstanta.

Důsledky.

1. EX2 ≥ (EX)2.2. E logX ≤ log EX pro X ∈ L1 takovou, že P [X > 0] = 1.

3. Nechť p > q > 0. Pak(E |X|p

)1/p ≥(E |X|q

)1/q.

4. Nechť p > q > 0 a E |X|p <∞. Pak E |X|q <∞.

Věta 1.7 (Markovova nerovnost). Nechť X ∈ Lr, kde r > 0. Pak pro libovolnéε > 0

P [|X| ≥ ε] ≤ E |X|rεr

.

Důsledek (Čebyševova nerovnost). Pro X ∈ L2 a pro libovolné ε > 0 platí

P [|X − EX | ≥ ε] ≤ varXε2

.

Důsledek. Pro X ∈ L2 s rozptylem varX = σ2 platí (například)

P [|X − EX | ≥ 3σ] ≤ 19.

9

Page 10: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.3 Náhodný vektor a mnohorozměrnérozdělení

Nechť je dán pravděpodobnostní prostor (Ω,A, P ). V této kapitole se zabývámenáhodnými vektory, tj. X : (Ω,A)→ (Rn,Bn

0 ).

1.3.1 Rozdělení náhodného vektoru

Poznámka. Náhodný vektor je (do sloupce) uspořádaná n-tice náhodných veličin,tj.

X(ω) = (X1(ω), . . . ,Xn(ω))T.

Definice 1.14. Bn0 je borelovská σ-algebra v R

n definovaná jako

Bn0 = σ(a1, b1)× (a2, b2)× · · · × (an, bn); a1 < b1, a2 < b2, . . . , an < bn ∈ R

Poznámka. Míru na (Rn,Bn0 ) stačí definovat na některém generátoru borelovské

σ-algebry, např. na otevřených nebo uzavřených n-rozměrných kvádrech.

Hustota náhodného vektoru

Poznámka. Podle Radon-Nikodymovy věty (Tvrzení 1.2) platí: Jestliže PX jeabsolutně spojitá vzhledem k σ-konečné míře µ na (Rn,Bn

0 ), tj. µ(B) = 0 ⇒P [X ∈ B] = 0 pro B ∈ Bn

0 , pak existuje jednoznačně (až na množiny s nulo-vou mírou µ) daná nezáporná měřitelná funkce fX(x) : R

n → R, zvaná hustotanáhodného vektoru X taková, že

Ωh(X(ω)) dP (ω) =

Rn

h(x) dPX(x) =

Rn

h(x)fX(x) dµ(x)

pro každou měřitelnou funkci h : Rn → R.

Značení. V dalším výkladu používáme v argumentech funkcí definovaných na Rn

záměnně značení x a (x1, . . . , xn).

10

Page 11: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.3 Náhodný vektor a mnohorozměrné rozdělení

Poznámka.

• Jestliže je rozdělení X absolutně spojité vzhledem k Lebesgueově míře λn

na Rn, pak rozdělení náhodného vektoru X nazýváme spojité a P [X ∈ B]

počítáme jako∫ ∞

−∞· · ·∫ ∞

−∞IB(x)fX(x) dx1 dx2 . . . dxn.

Zde končí

přednáška 3

(11.10.)

• Nechť je rozdělení X absolutně spojité vzhledem k čítací míře µS na Rn,

kde S je nejvýše spočetná množina bodů v Rn tvaru S1 × S2 × · · ·Sn a

Sk = tk,1, tk,2, . . .. Pak rozdělení náhodného vektoruX nazýváme diskrétnía P [X ∈ B] počítáme jako

∞∑

i1=1

∞∑

i2=1

· · ·∞∑

in=1

IB(t1,i1 , t2,i2 , . . . , tn,in)P [X = (t1,i1 , t2,i2 , . . . , tn,in)] .

• Jestliže náhodný vektor obsahuje diskrétní i spojité složky, pak jeho rozdělenínení ani diskrétní, ani spojité. Přesto pro něj máme použitelnou hustotu, sjejíž pomocí můžeme vyjádřit P [X ∈ B]

• Jestliže všechny složky náhodného vektoru jsou spojité, neznamená to nutně,že vektor jako celek má spojité rozdělení. Příklad: rozdělení na jednotkovékružnici v R

2.• Více viz v doplňkovém materiálu o měrách v R

n.

Distribuční funkce náhodného vektoru

Definice 1.15. Funkci

FX(x) = P [X1 ≤ x1, . . . ,Xn ≤ xn]

nazýváme distribuční funkcí náhodného vektoru.

Tvrzení 1.8. Jestliže je rozdělení X absolutně spojité vzhledem k Lebesgueověmíře λn, pak

FX(x) =

∫ x1

−∞· · ·∫ xn

−∞fX(x1, . . . , xn) dx1 . . . dxn

a naopak,

fX(x) =∂nFX(x1, . . . , xn)

∂x1 · · · ∂xnskoro všude.

Poznámka.

1. Distribuční funkce jednoznačně určuje rozdělení náhodného vektoru X.2. Kvůli jednoduššímu značení budeme psát

Rn

h(x) dFX(x)df=∫

Rn

h(x)fX(x) dµ(x).

11

Page 12: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.3 Náhodný vektor a mnohorozměrné rozdělení

Sdružené a marginální rozdělení

Definice 1.16.

• Rozdělení celého náhodného vektoru X = (X1, . . . ,Xn)T se říká sdruženérozdělení. Jeho distribuční funkce a hustota se nazývají sdružená distribučnífunkce a sdružená hustota.

• Rozdělením jednotlivých náhodných veličin X1, . . . ,Xn se říká marginálnírozdělení. Jejich distribuční funkce a hustoty se nazývají marginální distri-buční funkce a marginální hustota.

Tvrzení 1.9. Ze sdruženého rozdělení X lze jednoznačně určit marginální rozdě-lení X1, . . . ,Xn. Platí

FXi(u) = limx1,...,xi−1,xi+1,...,xn→∞

FX(x1, . . . , xi−1, u, xi+1, . . . , xn)

a pro spojitý náhodný vektor navíc

fXi(u) =∫ ∞

−∞· · ·∫ ∞

−∞fX(x1, . . . , xi−1, u, xi+1, . . . , xn) dx1 . . . dxi−1 dxi+1 . . . dxn.

(1.1)

1.3.2 Momenty

Střední hodnota

Poznámka. Podle definice 1.11 a poznámek na str. 10 a 11 máme pro libovolnouměřitelnou funkci h : Rn → R

Eh(X) =

Ωh(X(ω)) dP (ω) =

Rn

h(x)fX(x) dµ(x) =

Rn

h(x) dFX(x).

Definice 1.17. Pro měřitelnou g : Rn → Rm definujeme

E g(X) = (E g1(X), . . . ,E gm(X))T.

Poznámka. Střední hodnota náhodného vektoru je tedy vektorem středních hod-not jejích složek. Střední hodnota matice náhodných veličin je maticí středníchhodnot jednotlivých prvků.

Rozptyl

V této části nechť Xi ∈ L2, i = 1, . . . , n.

Značení. Nechť a je sloupcový vektor v Rn. Pak definujeme a⊗2 df= aaT (matice

součinů prvků ai a aj).

12

Page 13: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.3 Náhodný vektor a mnohorozměrné rozdělení

Definice 1.18.

1. MaticevarX

df= E (X − EX)⊗2 = E (X − EX)(X − EX)T

se nazývá rozptylová (varianční) matice náhodného vektoru X.

2. (i, j)-tý prvek matice varX jest E (Xi − EXi)(Xj − EXj) a nazývá se kova-riance náhodných veličin Xi a Xj .

3. Rozdělíme-li X na X =(

X1X2

), pak matice

cov (X1,X2)df= E (X1 − EX1)(X2 − EX2)

T

se nazývá kovarianční matice vektorů X1 a X2.

Tvrzení 1.10.

1. i-tý diagonální prvek matice varX je varXi.2. varX je positivně semidefinitní matice [značíme varX ≥ 0], tj. ∀c ∈ R

n

cT(varX)c ≥ 0.3. varX = EX⊗2 − (EX)⊗2, cov (X1,X2) = EX1X

T2 − EX1 EXT

2 .4. cov (X1,X2) = cov (X2,X1)T, cov (X,X) = varX.5. Pro vektory a, c a matice B, D vhodných dimenzí platí

cov (a+BX1, c +DX2) = B cov (X1,X2)DT.

Speciálně: var (a+BX) = B (varX)BT.

Důsledek. Dosadíme-li v 5. části předchozího tvrzeníX1 =X2 = (X1, . . . ,Xn)T,a = c = 0 a B = D = (1, . . . , 1), dostaneme vztah pro rozptyl součtu n náhodnýchveličin:

var

n∑

i=1

Xi =n∑

i=1

varXi + 2n∑

i=2

i−1∑

j=1

cov (Xi,Xj) (1.2)

Tvrzení 1.11. Nechť X a Y jsou náhodné vektory v Rn, jejichž složky mají

konečné druhé momenty. Pak platí

var (X + Y ) = varX + cov (X,Y ) + cov (X,Y )T + varY

1.3.3 Nezávislost

Definice 1.19.

13

Page 14: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.3 Náhodný vektor a mnohorozměrné rozdělení

• Náhodné veličiny X1, . . . ,Xn nazveme (vzájemně) nezávislé právě když prokaždý bod x = (x1, . . . , xn) ∈ R

n platí

FX(x) = FX1(x1) · · · · · FXn(xn).

• Náhodné veličiny X1,X2, . . . nazveme (vzájemně) nezávislé právě když

∀k > 1 ∀n1, . . . , nk ∈ N Xn1 , . . . ,Xnkjsou nezávislé.

• Náhodné vektory X1 s n1 složkami a X2 s n2 složkami nazveme nezávisléprávě když pro každý bod x = (x1, . . . , xn) ∈ R

n platí

FX(x) = FX1(x1) · FX2(x2),

kde n = n1 + n2, X = (XT1 ,X

T2 )T a x = (xT1 ,x

T2 )T.

Zde končí

přednáška 4

(14.10.)

Poznámka. Pro nezávislé náhodné veličiny platí, že vezmeme-li libovolné bore-lovské množiny B1, . . . , Bn ∈ B0, pak

P [X ∈ B1 × · · · ×Bn] = P [X1 ∈ B1] · · · · · P [Xn ∈ Bn] ,

neboli náhodné jevy [Xi ∈ Bi] jsou vzájemně nezávislé. Dále máme např.

P [X1 ∈ B1 | X2 ∈ B2, . . . ,Xn ∈ Bn ] = P [X1 ∈ B1] .

Pro nezávislé náhodné vektory platí, že vezmeme-li libovolné borelovské množinyB1 ∈ Bn1

0 a B2 ∈ Bn20 , pak

P [X ∈ B1 ×B2] = P [X1 ∈ B1] · P [X2 ∈ B2] ,neboli náhodné jevy [Xi ∈ Bi] jsou nezávislé.

Tvrzení 1.12. Nechť náhodná veličina Xi má hustotu fXi vzhledem k σ-konečnémíře µi, i = 1, . . . , n. Pak jsou náhodné veličiny X1, . . . ,Xn vzájemně nezávisléprávě když vektor X = (X1, . . . ,Xn)T má hustotu fX vzhledem k součinové mířeµ = µ1 ⊗ · · · ⊗ µn a platí

fX(x1, . . . , xn) =n∏

i=1

fXi(xi).

Tvrzení 1.13. Nechť X1 a X2 jsou nezávislé náhodné vektory a g1 : Rn1 → Rq a

g2 : Rn2 → Rs jsou libovolné měřitelné funkce. Pak g1(X1) a g2(X2) jsou nezávislé

náhodné vektory.

Tvrzení 1.14. Nechť X1, . . . ,Xn jsou nezávislé.(i) Jsou-li Xi ∈ L1, pak E (X1 · · · · ·Xn) = EX1 · · · · · EXn.(ii) Jsou-li Xi ∈ L2, pak cov (Xi,Xj) = 0 ∀i 6= j.(iii) Jsou-li Xi ∈ L2 a σ2i = varXi, pak varX = diag (σ21 , . . . , σ

2n).

Poznámka. Z vlastností (i) – (iii) předchozího tvrzení neplyne bez dalších pod-mínek nezávislost.

14

Page 15: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.3 Náhodný vektor a mnohorozměrné rozdělení

1.3.4 Korelace

Definice 1.20. Nechť X, Y jsou náhodné veličiny s kladnými a konečnými roz-ptyly. Korelační koeficient veličin X a Y se značí (X,Y ) nebo cor (X,Y ) a jedefinován vztahem

(X,Y ) =cov (X,Y )√varX var Y

.

Tvrzení 1.15 (Cauchyova-Schwartzova nerovnost).Nechť X,Y ∈ L2. Pak (EXY )2 ≤ EX2 EY 2 a rovnost platí, právě když X = bYs.j. pro nějaké b 6= 0.

Důsledek. Pro jakékoli veličiny X,Y ∈ L2 máme |cov (X,Y )| ≤√varXvar Y a

tudíž, pokud mají nenulový rozptyl, také |(X,Y )| ≤ 1.Zde končí

přednáška 5

(18.10.)Tvrzení 1.16 (Vlastnosti korelačního koeficientu). Nechť X,Y ∈ L2, varX > 0,var Y > 0.1. (X,Y ) = (Y,X);2. −1 ≤ (X,Y ) ≤ 1,

(X,Y ) = 1 právě když X = a+ bY s.j., kde b > 0; (X,Y ) = −1 právě když X = a+ bY s.j., kde b < 0;

3. (a+ bX, c+ dY ) = sgn (bd)(X,Y ).

Poznámka.

• Je-li (X,Y ) = 0 (nebo cov (X,Y ) = 0), náhodným veličinám X,Y se říkánekorelované veličiny. Nezávislé veličiny jsou i nekorelované, opak nutně ne-platí.

• Korelační koeficient měří sílu lineárního vztahu mezi X a Y .

Definice 1.21. Nechť X = (X1, . . . ,Xn)T a Y = (Y1, . . . , Ym)T jsou dva ná-hodné vektory se složkami, jež mají konečné a kladné rozptyly. Korelační maticícor (X,Y ) vektorů X a Y rozumíme matici typu n×m se složkami (Xi, Yj) namístě (i, j).

Poznámka. Korelační matice cor (X,X) má tvar

cor (X,X) =

1 12 . . . 1n12 1 . . . 2n. . . . . . . . . . . . . . . . . .1n 2n . . . 1

,

kde jk = (Xi,Xj). Je-li V = varX, σi =√varXi a D = diag (σ1, . . . , σn), pak

máme cor (X,X) = D−1V D−1.

15

Page 16: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.4 Podmíněné rozdělení

Nechť je dán pravděpodobnostní prostor (Ω,A, P ). V této kapitole uvažujemenáhodné veličiny a náhodné vektory definované na tomto prostoru. Připomeňmesi nejdříve definici podmíněné pravděpodobnosti.

Poznámka. Nechť A a B jsou náhodné jevy a P(B) > 0. Podmíněná pravděpo-dobnost P (A | B ) jevu A za podmínky, že nastal jev B, je definována podílem

P (A | B ) df= P(A ∩B)P(B)

.

Jsou-li oba jevy nezávislé, pak P (A | B ) = P(A).

1.4.1 Podmíněná hustota

Uvažujme náhodný vektor X = (X1, . . . ,Xn)T, který je rozdělen na dva podvek-tory Y = (X1, . . . ,Xr)T a Z = (Xr+1, . . . ,Xn)T, 1 ≤ r < n. Chceme zkoumatrozdělení náhodného vektoru Y v situaci, kdy víme, že náhodný vektor Z nabylkonkrétní hodnoty z ∈ R

n−r.

Definice 1.22. Nechť náhodný vektor Y má hustotu fY (y) vzhledem k σ-konečnémíře µ1 na (Rr,Br

0). Nechť náhodný vektor Z má hustotu fZ(z) vzhledem k σ-konečné míře µ2 na (Rn−r,Bn−r

0 ). Nechť náhodný vektor X = (Y T,ZT)T máhustotu fX(y,z) vzhledem k součinové míře µ = µ1 × µ2 na (Rn,Bn

0 ).Podmíněnou hustotou náhodného vektoru Y , je-li dáno Z = z nazveme libovol-

nou nezápornou měřitelnou funkci f(y | z), která pro všechna B ∈ Br0 a C ∈ Bn−r

0

splňuje rovnost

P [Y ∈ B,Z ∈ C] =

C

[∫

Bf(y | z) dµ1(y)

]fZ(z) dµ2(z). (1.1)

Poznámka. Podmíněná hustota za daných předpokladů existuje a je jednoznačněurčena µ1-skoro všude. Předpoklad existence hustoty fX vzhledem k součinovémíře µ = µ1 × µ2 je závažný (někdy neplatí) a nutný (jinak nelze podmíněnouhustotu rovností (1.1) definovat).

16

Page 17: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.4 Podmíněné rozdělení

Poznámka (Výpočet podmíněné hustoty). Levá strana rovnosti (1.1) je vlastně∫

B×CfX(y,z) dµ(y,z).

Pravá strana dává ∫

B×Cf(y | z)fZ(z) dµ(y,z).

Rovnost pro každé B a C nastane právě když

fX(y,z) = f(y | z)fZ(z)

µ-skoro všude. Podmíněnou hustotu tudíž můžeme počítat vztahem

f(y | z) =fX(y,z)

fZ(z)

pro z taková, že fZ(z) 6= 0.

Věta 1.17 (Bayesova). Platí-li podmínky definice 1.22, pak podmíněná hustotap(z | y) náhodného vektoru Z, je-li dáno Y = y je rovna

p(z | y) =

f(y | z)fZ(z)∫

Rn−r

f(y | z)fZ(z) dµ2(z)pokud jmenovatel není roven 0,

0 jinak.

1.4.2 Podmíněná střední hodnota

Stále se zabýváme náhodným vektorem X = (X1, . . . ,Xn)T rozděleným na dvapodvektory Y = (X1, . . . ,Xr)T a Z = (Xr+1, . . . ,Xn)T, 1 ≤ r < n. Máme tedyX = (Y T,ZT)T.

Definice 1.23. Nechť h(y,z) je měřitelná funkce Rn → R

m. Označme U =h(X) = h(Y ,Z).

1. Podmíněná střední hodnota E (U | Z = z ) náhodného vektoruU ≡ h(Y ,Z),je-li dáno Z = z je definována výrazem

E (U | Z = z ) =

Rr

h(y,z)f(y | z) dµ1(y)

(pokud existuje).

17

Page 18: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.4 Podmíněné rozdělení

2. Označme φ(z) = E (U | Z = z ) (je to nějaká měřitelná funkce z Rn−r do

Rm). Náhodný vektor φ(Z) značíme E (U | Z ) a nazýváme jej podmíněnoustřední hodnotou náhodného vektoru U = h(Y ,Z) při daném (leč neurče-ném) Z.

Poznámka. Jak je řečeno výše, podmíněná střední hodnota E ( · | Z = z ) je funkceargumentu z zobrazující z R

n−r do Rm. Pro pevné z je to konstanta (v R

m). Pod-míněná střední hodnota E ( · | Z ) je náhodný vektor om složkách; jeho realizovanáhodnota závisí na realizované hodnotě náhodného vektoru Z.

Nyní přibereme do úvahy ještě další měřitelné funkce h1, h2 : Rn → R

m aψ : Rn−r → R. Označme U1 = h1(Y ,Z) a U2 = h2(Y ,Z). Nechť všechny složkyU , U1 a U2 mají konečné první momenty. Zde končí

přednáška 6

(21.10.)Věta 1.18 (Vlastnosti podmíněné střední hodnoty).

1. E (a | Z ) = a pro jakékoli a ∈ Rm.

2. E[E (U | Z )

]= EU .

3. E (a1U1 + a2U2 | Z ) = a1E (U1 | Z )+a2E (U2 | Z ) pro jakékoli a1, a2 ∈ R.

4. E (ψ(Z)U | Z ) = ψ(Z)E (U | Z ).

Věta 1.19. Nechť všechny složky U = h(Y ,Z) mají konečný rozptyl a nechť τje jakákoli měřitelná funkce z R

n−r do Rm taková, že všechny složky τ(Z) mají

konečný rozptyl. Pak platí

var [U − τ(Z)] ≥ var [U − E (U | Z )].

Poznámka. Pracujeme-li s rozptylovými maticemi (m > 1), rozumíme výšeuve-dené nerovnosti tak, že rozdíl levé a pravé strany je positivně semidefinitní matice.

Poznámka. Věta 1.19 říká, že chceme-li aproximovat náhodný vektor U pomocífunkce náhodného vektoru Z, poskytuje podmíněná střední hodnota E (U | Z )nejlepší aproximaci (co do rozptylu) mezi všemi možnými funkcemi Z.Podmíněná střední hodnota se dá (obrazně leč poněkud nepřesně) vysvětlit

tímto způsobem: Podmíněná střední hodnota odstraňuje z U náhodnost souvi-sející s náhodným vektorem Y , ale ponechává náhodnost způsobenou náhodnýmvektorem Z.

Poznámka. V teorii pravděpodobnosti se zavádí obecná abstraktní definice pod-míněné střední hodnoty, která nespoléhá na existenci podmíněné hustoty. O pod-míněné střední hodnotě pak lze mluvit i tam, kde neexistuje podmíněná hustota.Příklad: E (Z | Z ) nelze podle definice 1.22 a 1.23 spočítat.

18

Page 19: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.4 Podmíněné rozdělení

1.4.3 Podmíněný rozptyl

Nechť EUTU < ∞, čili všech m složek náhodného vektoru U ≡ h(Y ,Z) mákonečné rozptyly.

Definice 1.24. Podmíněný rozptyl var (U | Z ) náhodného vektoru U , je-li dánoZ, jest definován výrazem

var (U | Z ) = E([

U − E (U | Z )]⊗2 ∣∣∣ Z

).

Poznámka. Podmíněný rozptyl z definice 1.24 je náhodná matice (náhodná ve-ličina, pokud m = 1). Podobně lze definovat podmíněný rozptyl var (U | Z = z )pro konkrétní realizovanou hodnotu z vektoru Z.

Zde končí

přednáška 7

(24.10.)Věta 1.20 (Rozklad nepodmíněného rozptylu).

varU = E var (U | Z ) + var E (U | Z ) .

19

Page 20: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.5 Transformace náhodných veličin avektorů

Na pravděpodobnostním prostoru (Ω,A, P ) uvažujme daný náhodný vektor X =(X1, . . . ,Xn)T, jehož rozdělení známe, a měřitelnou funkci g : R

n → Rn. Naším

úkolem je zjistit rozdělení náhodného vektoru Y = g(X).

Definice 1.25 (Nosič rozdělení). Nechť X je (obecná) náhodná veličina, kteránabývá hodnot z výběrového prostoru X . Nechť rozdělení X je absolutně spojitévzhledem k nějaké σ-konečné míře µ. Množinu SX ⊆ X nazveme nosičem rozdělenínáhodné veličiny X právě když platí:1. P [X ∈ SX ] = 1;2. ∀A ⊂ SX : µ(SX \A) > 0⇒ P [X ∈ A] < 1.

1.5.1 Transformace náhodných veličin

Nejprve uvažujme případ X = R, tj. transformujeme reálnou náhodnou veličinu.

Tvrzení 1.21 (Věta o monotonní transformaci). Nechť X má distribuční funkciFX a nosič SX . Nechť funkce g zobrazuje SX na S0 ⊆ R. Označme Y = g(X).1. Je-li g ryze rostoucí, pak distribuční funkce náhodné veličiny Y je FY (y) =FX(g−1(y)) pro y ∈ S0.

2. Je-li g ryze klesající, pak distribuční funkce náhodné veličiny Y je FY (y) =1− FX(g−1(y)−) pro y ∈ S0.

Značení. Je-li g reálná funkce s limitami zleva ve všech bodech, pak výraz g(x−)značí zleva spojitou verzi funkce g, tj. g(x−) df= lim

hց0g(x − h).

Důsledky.

1. Nechť X je spojitá reálná veličina s hustotou fX(x) a nechť g je ostře mono-tonní a diferencovatelná skoro všude. Hustota náhodné veličiny Y = g(X)je pak rovna

fY (y) =

fX(g−1(y))

∣∣∣dg−1(y)dy

∣∣∣ pro y ∈ g(SX);

0 pro y 6∈ g(SX).

20

Page 21: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.5 Transformace náhodných veličin a vektorů

2. Nechť X je diskrétní reálná veličina s rozdělením P [X = x] = qx, x ∈ SX .Pak P [Y = y] = qg−1(y), y ∈ g(SX).

Nyní prozkoumáme nemonotonní transformace. Budeme předpokládat, že exis-tují množiny Gk ⊆ SX , k = 1, 2, . . ., takové, že

⋃∞k=1Gk = SX , Gi ∩ Gj = ∅ pro

i 6= j, a g je ostře monotonní na každém Gk.

Značení.

• Označme K+ množinu všech indexů k takových, že g roste na Gk a K−

množinu všech indexů k takových, že g klesá na Gk.

• Označme gk funkci g restriktovanou na Gk, třeba gk(x) = g(x)IGk(x). Pak

existuje g−1k (y) pro y ∈ gk(Gk).

• Označme Xk = X IGk(X), Yk = gk(Xk). Máme X =

∑∞k=1Xk a Y =∑∞

k=1 Yk.

Tvrzení 1.22. Za daných předpokladů platí

FY (y) =∑

k∈K+

P[Xk ≤ g−1k (y),X ∈ Gk

]+∑

k∈K−

P[Xk ≥ g−1k (y),X ∈ Gk

].

Zde končí

přednáška 8

(1.11.)

Tvrzení 1.23. Nechť má navíc X hustotu vzhledem k Lebesgueově míře a nechťje každá gk diferencovatelná (skoro všude) v Gk. Pak Y má hustotu

fY (y) =∞∑

k=1

fX(g−1k (y))

∣∣∣∣∣dg−1k (y)

dy

∣∣∣∣∣ Igk(Gk)(y).

Poznámka. Chceme-li pouze spočítat střední hodnotu EY ≡ E g(X), je obvyklesnazší použít přímý vzorec E g(X) =

∫g(x)fX (x) dµ(x) než počítat nejprve hus-

totu Y a pak integrovat E g(X) =∫yfY (y) dµ(y).

1.5.2 Transformace náhodných vektorů

Uvažujme náhodný vektor X = (X1, , . . . ,Xn)T s nosičem rozdělení SX ⊆ Rn a

spojitým rozdělením (má hustotu vzhleddem k Lebesgueově míře). Nechť je dánatransformace g : R

n → Rn, vlastně vektor n funkcí g1, . . . , gn, každá z nichž

zobrazuje Rn do R.

Zajímá nás rozdělení náhodného vektoru Y = g(X). Budeme předpokládat, žetransformace g je diferencovatelná skoro všude v SX, tj. existuje matice

∂g(x)

∂x=

∂g1(x)∂x1

. . . ∂g1(x)∂xn

. . . . . . . . . . . . . . . . . .∂gn(x)

∂x1. . . ∂gn(x)

∂xn

.

21

Page 22: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.5 Transformace náhodných veličin a vektorů

Determinant této matice (jakobián transformace g) budeme značit det∂g(x)

∂x.

Tvrzení 1.24. Nechť X má hustotu fX(x) vzhledem k Lebesgueově míře. Nechť

g je prosté zobrazení a det∂g(x)

∂x6= 0 pro skoro všechna x ∈ SX. Pak Y = g(X)

má hustotu

fY (y) = fX(g−1(y)) ·

∣∣∣∣det∂g−1(y)

∂y

∣∣∣∣ Ig(SX )(y)

vzhledem k Lebesgueově míře.

Poznámka. Platí

∂g−1(y)∂y

=

(∂g(x)∂x

∣∣∣∣x=g−1(y)

)−1

a

det∂g−1(y)

∂y=

1

det ∂g(x)∂x

∣∣x=g−1(y)

.

Tvrzení 1.25. Nechť X má hustotu fX(x) vzhledem k Lebesgueově míře. Nechťexistují množiny Gk ⊆ SX, k = 1, 2, . . ., takové, že

⋃∞k=1Gk = SX, Gi ∩ Gj = ∅

pro i 6= j, gk(x)df= g(x)IGk

(x) je prostá na každém Gk, a det∂gk(x)

∂x6= 0 pro

skoro všechna x ∈ Gk. Pak Y = g(X) má hustotu

fY (y) =∞∑

k=1

fX(g−1k (y)) ·

∣∣∣∣∣det∂g−1k (y)

∂y

∣∣∣∣∣ Igk(Gk)(y)

vzhledem k Lebesgueově míře.

Poznámka. Nechť X = (X1, , . . . ,Xn)T je náhodný vektor a t nějaká hladkáměřitelná funkce R

n → R. Jaké je rozdělení náhodné veličiny T = t(X)?Zvolme vhodně transformaci g : Rn → R

n tak, aby g1(x) = t(x). Platí-li před-poklady tvrzení 1.25, můžeme podle něj spočítat sdruženou hustotu náhodnéhovektoru Y = g(X). Marginální hustotu náhodné veličiny T ≡ Y1 zjistíme vyinte-grováním ostatních složek podle (1.1).

Věta 1.26 (o konvoluci). Nechť X a Y jsou nezávislé náhodné veličiny, nechť Xmá hustotu fX vzhledem k míře µ1 a Y má hustotu fY vzhledem k míře µ2. PakZ = X + Y má distribuční funkci

FZ(z) =

∫ ∞

−∞fY (y)FX (z − y) dµ2(y) =

∫ ∞

−∞fX(x)FY (z − x) dµ1(x).

22

Page 23: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.5 Transformace náhodných veličin a vektorů

Jsou-li X a Y spojité, pak Z má hustotu

fZ(z) =

∫ ∞

−∞fY (y)fX(z − y) dy =

∫ ∞

−∞fX(x)fY (z − x) dx

vzhledem k Lebesgueově míře. Jsou-li X a Y diskrétní, pak

P [Z = z] =∑

y∈SY

P [Y = y] P [X = z − y] =∑

x∈SX

P [X = x] P [Y = z − x] .

Tvrzení 1.27. Nechť X a Y jsou nezávislé náhodné veličiny, nechť X má hustotufX vzhledem k míře µ1 a Y má hustotu fY vzhledem k míře µ2. Pak Z = X/Ymá distribuční funkci

FZ(z) =

∫ ∞

0fY (y)FX(zy) dµ2(y) +

∫ 0

−∞fY (y)[1− FX(zy)] dµ2(y).

Jsou-li X a Y spojité, pak Z má hustotu

fZ(z) =

∫ ∞

−∞|y| fY (y)fX(zy) dy.

Zde končí

přednáška 9

(4.11.)

23

Page 24: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.6 Normální rozdělení

Poznámka (Normální rozdělení).

• Náhodná veličina Z s hustotou ϕ(z) =1√2πe−z2/2 má normované normální

rozdělení; značíme Z ∼ N(0, 1). Její distribuční funkci značíme

Φ(z)df=

∫ z

−∞ϕ(t) dt.

• Jestliže Z ∼ N(0, 1) a X = σZ + µ, kde σ > 0 a µ ∈ R, pak X má normálnírozdělení s parametry µ a σ2, značíme X ∼ N(µ, σ2). Její hustota je

fX(x) =1

σϕ(x− µ

σ

)=

1√2πσe−

(x−µ)2

2σ2 .

Její distribuční funkce je FX(x) = Φ(x−µ

σ

).

• Jestliže X ∼ N(µ, σ2) pak EX = µ, varX = σ2, γ3 = 0, γ4 = 3.

1.6.1 Mnohorozměrné normální rozdělení

Definice 1.26. Nechť Z = (Z1, . . . , Zr)T, kde Zi ∼ N(0, 1) jsou nezávislé. NechťAn×r je matice a µ ∈ R

n je pevný vektor. Náhodný vektor X definovaný jako

X = AZ +µ pak má n-rozměrné normální rozdělení s parametry µ a Σdf= AAT.

Značíme X ∼ Nn(µ,Σ).

Poznámka.

• EX = µ, varX = Σ.• X má n-rozměrné normální rozdělení ⇔ pro libovolné c ∈ R

n platí cTX ∼N( · , · ).

• Libovolná symetrická positivně semidefinitní matice Σ se dá napsat jakoAAT pro nějaké An×r, r ≤ n. Platí: r < n právě když Σ je singulární.

Věta 1.28. Nechť X ∼ Nn(µ,Σ) a Σ je regulární. Pak existuje hustota X vzhle-dem k Lebesgueově míře na R

n a její tvar je

fX(x) =1

(2π)n/2√detΣ

e−12(x−µ)TΣ−1(x−µ)

pro x ∈ Rn.

24

Page 25: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.6 Normální rozdělení

Poznámka.

• Je-li Σ singulární, pak existuje nenulové c ∈ Rn takové, že cTX = 0 (tj.

složky X jsou lineárně závislé).• Je-li Σ singulární, pak hustota X vzhledem k Lebesgueově míře na R

n ne-existuje.

Příklad (Dvourozměrné normální rozdělení). Nechť n = 2, Σ je regulární, σ1 =varX1, σ2 = varX2 a = cor (X1,X2). Hustotu náhodného vektoruX = (X1,X2)T

pak lze vyjádřit ve tvaru

f(x1, x2) =1

2πσ1σ2√1− 2

e− 12(1−2)

[(x1−µ1)

2

σ21

−2(x1−µ1)(x2−µ2)

σ1σ2+(x2−µ2)

2

σ22

].

Věta 1.29 (Vlastnosti mnohorozměrného normálního rozdělení).Nechť X ∼ Nn(µ,Σ), kde X = (XT

1 ,XT2 )T, µ = (µT1 ,µ

T2 )T, Σ =

(Σ11 Σ12Σ21 Σ22

)a

dimenze jednotlivých složek jsou k × 1 pro X1 a µ1 a k × k pro Σ11. Pak platí:

1. X1 ∼ Nk(µ1,Σ11).

2. Jestliže Σ12 = 0, pak X1 a X2 jsou nezávislé.

3. Je-li Σ22 regulární, pak podmíněné rozdělení X1, je-li dáno X2 = x2, jek-rozměrné normální se střední hodnotou

µ1.2 = µ1 +Σ12Σ−122 (x2 − µ2)

a rozptylemΣ11.2 = Σ11 − Σ12Σ−1

22 Σ21.Zde končí

přednáška 10

(8.11.)Poznámka. Z předchozí věty plyne:

• Mají-li X1 a X2 sdružené normální rozdělení, pak mají marginální normálnírozdělení.

• Mají-li X1 a X2 sdružené normální rozdělení a jsou-li nekorelované, pak jsounezávislé.

Poznámka. Mají-li X1 a X2 marginální normální rozdělení, pak X = (X1,X2)T

nemusí mít sdružené normální rozdělení (protipříklad).

1.6.2 Rozdělení χ2, t a F

Poznámka. Náhodná veličina X má χ2 rozdělení o r stupních volnosti, značímeX ∼ χ2r, právě když její hustota vzhledem k Lebesgueově míře je

fX(x) =1

2r/2Γ(

r2

)xr/2−1e−x/2I(0,∞)(x).

25

Page 26: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.6 Normální rozdělení

Rozdělení χ2r je speciální případ gama rozdělení: Γ(12 ,

r2).

Věta 1.30 (o χ2-rozdělení).

1. Nechť X1, . . . ,Xn jsou nezávislé náhodné veličiny s rozdělením N(0, 1). PakY =

∑ni=1X

2i ∼ χ2n.

2. Nechť X ∼ Nn(µ,Σ), kde Σ je regulární. Pak

Y = (X − µ)TΣ−1(X − µ) ∼ χ2n.

3. Nechť X ∼ Nn(0,Σ) a nechť A je taková matice typu n × n, že AΣ jeidempotentní. Pak

Y =XTAX ∼ χ2trAV .

Poznámka (něco o maticích).• Čtvercovou matici D nazveme idempotentní právě když DD = D.• trD značí stopu matice D, tj. součet jejích diagonálních prvků.• Je-li matice D idempotentní, pak trD = r(D) (hodnost je rovna stopě).

Věta 1.31 (o t-rozdělení). Nechť X ∼ N(0, 1) a Z ∼ χ2k jsou nezávislé. Pak

náhodná veličina Tdf= X√

Z/kmá rozdělení s hustotou

fT,k(t) =Γ(

k+12

)

Γ(

k2

)√πk

(1 +

t2

k

)− k+12

vzhledem k Lebesgueově míře. Rozdělení náhodné veličiny T se nazývá [Studen-tovo] t rozdělení s k stupni volnosti, značíme T ∼ tk.

Poznámka (Vlastnosti t rozdělení).• Hustota t rozdělení je symetrická kolem 0.• Pro k = 1 jest fT,1 hustotou Cauchyova rozdělení C(0, 1). Rozdělení t1 nemástřední hodnotu.

• Obecně má T konečné momenty do řádu k−1, ET = 0 pro k > 1, varT = kk−2

pro k > 2.• Pro velké k se hustota t rozdělení blíží hustotě normovaného normálníhorozdělení: limk→∞ |fT,k(t)− ϕ(t)| = 0 pro každé t ∈ R. Tudíž α-kvantilrozdělení tk konverguje k α-kvantilu rozdělení N(0, 1) pro k → ∞.

Zde končí

přednáška 11

(11.11.)Věta 1.32 (o F -rozdělení). Nechť X ∼ χ2m a Y ∼ χ2n jsou nezávislé. Pak náhodnáveličina

Z =X/m

Y/n

26

Page 27: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.6 Normální rozdělení

má hustotu

fF ;m,n(z) =Γ(

m+n2

)

Γ(

m2

)Γ(

n2

)(mn

)m2z

m2−1(1 +

m

nz)−m+n

2I(0,∞)(z)

vzhledem k Lebesgueově míře. Rozdělení náhodné veličiny Z se nazývá [Fisherovo-Snedecorovo] F rozdělení s m a n stupni volnosti.

27

Page 28: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.7 Limitní věty

Na pravděpodobnostním prostoru (Ω,A, P ) máme danou posloupnost náhodnýchvektorů X1,X2,X3, . . ., kde Xi : (Ω,A)→ (Rk,Bk

0 ) a Xi = (Xi1, . . . ,Xik)T.

1.7.1 Konvergence náhodných veličin a vektorů

Definice 1.27 (konvergence v pravděpodobnosti). Říkáme, že posloupnost Xn∞n=1konverguje v pravděpodobnosti k náhodnému vektoru X pro n→ ∞ právě když

∀ε > 0 : limn→∞

P [‖Xn − X‖ > ε] = 0.

Konvergenci v pravděpodobnosti značíme XnP−→ X.

Poznámka. ‖a‖ značí eukleidovskou normu vektoru a, tj. ‖a‖ =√

aTa.

Definice 1.28 (konvergence v distribuci). Říkáme, že posloupnost Xn∞n=1 kon-verguje v distribuci k náhodnému vektoru X pro n→ ∞ právě když

limn→∞

FXn(x) = FX(x)

v každém bodě x, v němž je FX(x) spojitá. Konvergenci v distribuci značíme

XnD−→ X nebo FXn → FX nebo L(Xn)→ L(X).

Poznámka. Symbolem L(Xn) se rozumí rozdělení náhodného vektoru Xn (zangl. Law). Výraz L(Xn) → L(X) čteme „rozdělení Xn konverguje k rozděleníXÿ. Můžeme také říkat, že Xn má asymptoticky (či přibližně) rozdělení FX apsát Xn

as∼ L(X).

Tvrzení 1.33.

XnP−→ X ⇒ Xn

D−→ X

Poznámka. Opačná implikace neplatí. Nicméně pokud limitní vektor je kon-

stanta, tj. XnD−→ c, pak Xn

P−→ c a obě konvergence jsou ekvivalentní.

Tvrzení 1.34 (vlastnosti konvergence v distribuci).

1. (Cramér-Woldova věta) XnD−→ X ⇔ ∀c ∈ R

k : cTXnD−→ cTX.

28

Page 29: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.7 Limitní věty

2. (Helly-Brayova věta) XnD−→ X ⇔ E g(Xn)→ E g(X) pro každou spojitou

omezenou funkci g : R → R.

3. (Fatouovo lemma) XnD−→ X ⇒ EX ≤ lim inf

n→∞EXn.

Tvrzení 1.35 (Věta o spojité transformaci). Nechť g : Rk → Rm je spojitá funkce.

1. XnP−→ X ⇒ g(Xn)

P−→ g(X).

2. XnD−→ X ⇒ g(Xn)

D−→ g(X).

Tvrzení 1.36. Nechť pro posloupnost Xn∞n=1 platí XnjP−→ Xj pro n → ∞ a

j = 1, . . . , k. Pak XnP−→ X = (X1, . . . ,Xk)T.

Poznámka. Pro konvergenci v distribuci tato vlastnost neplatí.

Tvrzení 1.37. Nechť X1,X2, . . . je posloupnost náhodných veličin takových, že

EXn → µ a varXn → 0. Pak XnP−→ µ.

Tvrzení 1.38 (Cramérova-Sluckého věta). Nechť XnD−→ X, An

P−→ a a BnP−→

b, kde Xn, X, An, Bn jsou náhodné veličiny a a, b jsou konstanty. Pak platí

AnXn +BnD−→ aX + b.

Poznámka. Cramérově-Sluckého větě se často říká Sluckého věta. Tato věta platí

i pro vektory, tj. pokud XnD−→ X, An

P−→ A a BnP−→ b, kde Xn a X jsou k-

rozměrné náhodné vektory, An je náhodná matice o dimenzích m× k, A je maticekonstant o dimenzích m × k, Bn jsou m-rozměrné náhodné vektory a b je m-rozměrný vektor konstant, pak

AnXn +BnD−→ AX + b.

Zde končí

přednáška 12

(15.11.)1.7.2 Zákon velkých čísel

Uvažujme náhodnou posloupnost Xn∞n=1. Označme Xndf= 1

n

∑ni=1Xi (průměr

z prvních n vektorů).

Věta 1.39 (Čebyševův slabý zákon velkých čísel). Nechť X1,X2, . . . je posloup-nost nezávislých náhodných veličin se střední hodnotou EXi = µ a rozptylemvarXi ≤ C pro nějaké C ∈ R. Pak platí

XnP−→ µ.

29

Page 30: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.7 Limitní věty

Tvrzení 1.40 (Chinčinův slabý zákon velkých čísel). Nechť X1,X2, . . . je po-sloupnost nezávislých stejně rozdělených náhodných veličin se střední hodnotouEXi = µ <∞. Pak platí

XnP−→ µ.

Poznámka.

• Oba zákony velkých čísel platí i pro náhodné vektory, pokud všechny jejichsložky splňují stanovené předpoklady (viz tvrzení 1.36).

• Čebyševův zákon velkých čísel nevyžaduje, aby byly všechny veličiny stejněrozdělené, ale vyžaduje, aby měly omezený (tj. nutně konečný) rozptyl. Chin-činův zákon velkých čísel vyžaduje, aby byly všechny veličiny stejně rozdě-lené, ale nevyžaduje, aby měly konečný rozptyl.

• Zákony velkých čísel lze zobecnit i na závislé veličiny, pokud nejsou závislé„přílišÿ. Např. u Čebyševova zákona velkých čísel stačí nahradit nezávislostpodmínkou n−2

∑∑cov (Xi,Xj)→ 0.

• Existují i „silnéÿ zákony velkých čísel, které udávají podmínky pro kon-vergenci Xn k µ skoro jistě (silnější typ konvergence než konvergence vpravděpodobnosti).

Příklady.

1. JestližeXi ∼ C(0, 1), pakXn ∼ C(0, 1) pro libovolné n. Průměr nekonvergujeke konstantě.

2. Empirická četnost vs. pravděpodobnost jevu.

1.7.3 Centrální limitní věta

Nadále uvažujme náhodnou posloupnost k-rozměrných vektorů Xn∞n=1.

Tvrzení 1.41 (centrální limitní věta pro nezávislé stejně rozdělené náhodné vek-tory). Nechť Xn∞n=1 jsou nezávislé a stejně rozdělené náhodné vektory se středníhodnotou µ ≡ EXi a konečnou rozptylovou maticí Σ ≡ varXi. Pak platí

1√n

n∑

i=1

(Xi − µ) =√n(Xn − µ)

D−→ Nk(0,Σ).

Poznámka. Neformální zápis tvrzení centrální limitní věty: Xnas∼ Nk(µ, n−1Σ).

Příklady.

1. Aproximace binomického rozdělení normálním2. Aproximace χ2 rozdělení normálním

30

Page 31: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

1.7 Limitní věty

Věta 1.42 (∆-metoda). Nechť Tn∞n=1 splňuje√n(Tn − µ)

D−→ Nk(0,Σ)

pro nějaký vektor konstant µ ∈ Rk a matici Σ. Nechť g je spojitě diferencovatelná

funkce Rk → R

p. Označme D(x) = ∂g(x)∂x. Pak platí

√n(g(Tn)− g(µ))

D−→ Np(0,D(µ)ΣD(µ)T)

Příklad. Asymptotické rozdělení logXn.Zde končí

přednáška 13

(18.11.)

31

Page 32: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

Část 2

Základy matematické statistiky

32

Page 33: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.1 Základy teorie odhadu

2.1.1 Bodový odhad

Základní pojmy

Definice 2.1. PosloupnostX1,X2, . . . ,Xn nezávislých stejně rozdělených náhod-ných vektorů s distribuční funkcí F0 se nazývá náhodný výběr z rozdělení F0.∗

Poznámka. Distribuční funkci F0 neznáme. Chceme použít pozorováníX1, . . . ,Xn

k tomu, abychom se o ní něco potřebného dozvěděli. O distribuční funkci F0 všakpředpokládáme, že patří do nějaké dané množiny rozdělení F , které říkáme modelpro data X1, . . . ,Xn.

Poznámka. To, co se chceme o rozdělení F0 dozvědět, nazýváme parametr. Vždyse jedná o nějakou konstantu, kterou bychom uměli zjistit, kdybychom znali F0.Obecně tedy parametr píšeme θ0 ≡ t(F0), kde t je nějaký funkcionál. Obvykle jeθ0 ∈ R

k pro k ≥ 1.

Příklady (Typy modelů pro reálné náhodné veličiny).1. F je množina všech [diskrétních, spojitých] rozdělení na R s konečnou středníhodnotou [s konečným rozptylem]. Parametry, které chceme odhadovat, mo-hou být např. EXi, varXi, P [X ≤ x], F−1

X (α). Takový model nazývámeneparametrický, neboť není možné popsat všechna rozdělení v F pomocíkonečně mnoha parametrů.

2. F je množina všech rozdělení s hustotami tvaru f(x;θ) pro θ ∈ Θ ⊆ Rk, kde

f(·; ·) je známá funkce a θ je neznámá konstanta (např. všechna exponenci-ální, normální, geometrická rozdělení). Tyto modely nazýváme parametrické.Parametry, které chceme odhadovat, jsou funkce složek θ.

Příklady (Parametrické modely).• F = N(µ, σ20), µ ∈ R, σ20 pevně dáno; θ = µ, Θ = R.• F = N(µ, σ2), µ ∈ R, σ2 ∈ R

+; θ = (µ, σ2)T, Θ = R × R+.

• F = Exp(λ), λ ∈ R+; θ = λ, Θ = R

+.• F = Alt(p), p ∈ (0, 1); θ = p, Θ = (0, 1).

∗ Angl. random sample from distribution F0

33

Page 34: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.1 Základy teorie odhadu

Poznámka. Model F pro daná data volíme sami. Model vyjadřuje naši apriorní(na datech nezávislou) představu o rozdělení pozorovaných veličin. Parametr, kterýpotřebujeme odhadnout, volíme též sami. Volba parametru závisí na otázce, kterouse snažíme zodpovědět pomocí statistické analýzy. Volba metody pro analýzu dat(a její výsledky) závisí na výběru modelu a zvoleném parametru.

Definice bodového odhadu

Máme data X1,X2, . . . ,Xn, model F a parametr θ = t(F ) pro F ∈ F , kterýchceme v daném modelu odhadnout. OznačmeX = (XT

1 , . . . ,XTn )T (všechna data

sestavená do jednoho vektoru). Nechť F0 ∈ F je skutečné rozdělení náhodnéhovektoru Xi a θ0 ≡ t(F0) je skutečná hodnota hledaného parametru.

Definice 2.2. Odhadem parametru θ0 ≡ t(F0) ∈ Rk rozumíme libovolnou měři-

telnou funkci dat θn ≡ Tn(X) ≡ Tn(X1, . . . ,Xn).∗

Vlastnosti odhadů

Definice 2.3 (Nestrannost a konsistence).

1. Odhad θn ≡ Tn(X) nazveme nestranným odhadem parametru θ0 právě kdyžE θn = θ0 pro každé n.†

2. Odhad θn ≡ Tn(X) nazveme konsistentním odhadem parametru θ0 právě

když θnP−→ θ0 pro n→ ∞.‡

Příklad. Odhad θ0 = EXi v modelu F = všechna rozdělení s konečnou středníhodnotou: Průměr Xn je nestranný a konsistentní odhad θ0 (viz tvrzení 1.4, bod2, a tvrzení 1.40).

Poznámka.

• Nestrannost má platit pro každé n. Nestrannost nezaručuje, že se odhad přizvětšujícím se rozsahu výběru přibližuje k hledanému parametru (Příklad:θn = X1 je nestranný odhad θ0 = EXi.)

• Konsistence je asymptotická vlastnost, která nic neříká o kvalitě odhadu přikonečném n. (Příklad: θn = 21.5 pro n ≤ 1010, θn = Xn pro n > 1010 jekonsistentní odhad θ0 = EXi.)

Definice 2.4 (Vychýlení). Nechť odhad θn ≡ Tn(X) parametru θ0 má konečnoustřední hodnotu. Rozdíl E (θn − θ0) nazýváme vychýlením odhadu θn.§

∗ Angl. estimator, estimate † Angl. unbiased estimator ‡ Angl. consistent estimator § Angl.

bias

34

Page 35: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.1 Základy teorie odhadu

Definice 2.5 (Střední čtvercová odchylka). Nechť odhad θn ≡ Tn(X) parametruθ0 má konečný rozptyl. Výraz

E (θn − θ0)⊗2

nazýváme střední čtvercovou odchylkou odhadu θn.∗

Poznámka. Platí: E (θn − θ0)⊗2 = var θn + [E (θn − θ0)]⊗2.

2.1.2 Intervalový odhad

Definice

Definice 2.6. Interval B = Bn(X) ⊂ R se nazývá intervalový odhad parametruθ0 ∈ R o spolehlivosti 1− α, právě když P [B ∋ θ0] = 1− α. Interval B se nazývápřibližný (asymptotický) intervalový odhad parametru θ0 ∈ R o spolehlivosti 1−α,právě když P [B ∋ θ0]→ 1− α pro n→ ∞.Poznámka.

• Interval B je náhodný (spočítaný z dat), zatímco parametr θ0 je pevný.Výraz B ∋ θ0 čteme „interval B pokrývá (skutečnou hodnotu) θ0ÿ.

• Intervalovému odhadu se běžně říká i jinak, např. interval spolehlivosti spravděpodobností pokrytí 1−α nebo (1−α)100-procentní konfidenční intervalpro parametr θ.† Číslo α ∈ (0, 1) je předem zvolené; obvykle se bere α = 0.05a počítají se 95-tiprocentní intervaly. Můžeme se však setkat i s intervaly,jež mají pokrytí 90 % či 99 %.

• Ne vždy je možné či vhodné počítat přesné intervaly spolehlivosti. Častose spokojujeme s intervaly přibližnými, jejichž pokrytí se pro velké rozsahyvýběru blíží k požadované hodnotě.

• Intervalové odhady zde definujeme pouze pro reálné parametry. Podobnýkoncept však lze zavést i pro vektorové parametry; hledáme náhodnou mno-žinu B, která pokrývá skutečnou hodnotu se zadanou pravděpodobností.Této množině pak říkáme region spolehlivosti. Tvar množiny B lze ale po-tom volit mnoha různými způsoby.

Poznámka. Rozeznáváme intervalové odhady oboustranné a jednostranné (levo-a pravo-stranné).

• Interval tvaru (CL, CU ), kde CL a CU jsou dvě náhodné veličiny splňujícíP [CL < CU ] = 1, CL > −∞ a CU < ∞, nazýváme oboustranný intervalspolehlivosti. Obvykle jej sestrojujeme tak, aby platilo (alespoň asympto-ticky)

P [θ0 < CL] =α

2, P [θ0 > CL, θ0 < CU ] = 1− α, P [θ0 > CU ] =

α

2.

∗ Angl. mean square error, MSE † Angl. confidence interval with coverage probability 1− α

35

Page 36: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.1 Základy teorie odhadu

• Interval tvaru (CL,∞) nazýváme levostranný interval spolehlivosti. MámeP [CL < θ0] = 1− α.

• Interval tvaru (−∞, CU ) nazýváme pravostranný interval spolehlivosti. MámeP [θ0 < CU ] = 1− α.

Zde končí

přednáška 14

(22.11.)Konstrukce intervalových odhadů

Nechť X = (XT1 , . . . ,X

Tn )T, kde X1,X2, . . . ,Xn je náhodný výběr z rozdělení

F0 ∈ F . Odhadujeme parametr θ0 = t(F0) ∈ R.Intervalový odhad parametru θ0 můžeme sestrojit např. postupem, který si zde

popíšeme pro případ konstrukce oboustranných intervalových odhadů:

1. Nalezneme funkci ϕ(x, θ0) takovou, že ϕ je prostá funkce θ0 pro každé x arozdělení náhodné veličiny Sn ≡ ϕ(X, θ0) je známé alespoň asymptoticky(nezávisí ani na θ0 ani na jiných neznámých parametrech). Označíme FS

distribuční funkci náhodné veličiny Sn a cα = F−1S (α) α-kvantil rozdělení FS .

Při konstrukci funkce ϕ můžeme vyjít např. z bodového odhadu parametruθ0, jehož rozdělení většinou známe alespoň asymptoticky.

2. Zinvertujeme ϕ(x, θ) jakožto funkci argumentu θ při pevném x – nechť exis-tuje ϕ(x, s) taková, že ϕ(x, ϕ(x, s)) = s a ϕ(x, φ(x, θ)) = θ pro všechna x,s a θ.

3. Máme P[cα/2 < Sn < c1−α/2

]= 1−α. Aplikací funkce ϕ(x, ·) na obě nerov-

nosti (předpokládaje, že je rostoucí funkcí argumentu s) dostaneme

P[ϕ(X, cα/2) < θ0 < ϕ(X, c1−α/2)

]= 1− α.

4. Získali jsme interval spolehlivosti (CL, CU ) s pravděpodobností pokrytí 1−α,kde CL = ϕ(X, cα/2) a CU = ϕ(X, c1−α/2).

Příklad (normální rozdělení se známým rozptylem). Vezměme si problém inter-valového odhadu střední hodnoty pro normálně rozdělená data se známým roz-ptylem.Data: X1, . . . ,Xn ∼ F0Model: F = N(µ, σ20), µ ∈ R, σ20 známoOdhadovaný parametr: θ0 = EXi ≡ µ0Postup:1. Máme bodový odhad Xn, je nestranný a konsistentní. Víme, že Xn ∼N(µ0, σ20/n). Tudíž

√nXn − µ0

σ0∼ N(0, 1).

36

Page 37: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.1 Základy teorie odhadu

Vezmeme tedy Sn =√n(Xn − µ0)/σ0, FS = Φ a cα = uα (α-kvantil normo-

vaného normálního rozdělení).2. Vyjdeme z rovnosti

P[uα2<

√n(Xn − µ0)/σ0 < u1−α

2

]= 1− α

a postupnými úpravami nerovností (s využitím symetrie hustoty N(0, 1) ko-lem 0) dojdeme k

P[Xn − σ0u1−α

2/√n < µ0 < Xn + σ0u1−α

2/√n]= 1− α.

3. Získali jsme tedy požadovaný interval. Jeho hranice jsou(Xn − σ0√

nu1−α

2,Xn +

σ0√nu1−α

2

).

Poznámka. Délka intervalu spolehlivosti závisí na:• počtu pozorování n,• rozptylu dat σ20 ,• pravděpodobnosti pokrytí 1− α.

Příklad. Nechť X1, . . . ,Xn je náhodný výběr z rozdělení N(µ0, σ20), rozptyl σ20

známe. Kolik pozorování potřebujeme, aby délka intervalu spolehlivosti pro středníhodnotu µ0 nepřekročila stanovenou mez d > 0?Máme 2u1−α/2σ0/

√n ≤ d. Tudíž potřebujeme alespoň 4u21−α/2σ

20/d

2 pozoro-vání.

Příklad (alternativní rozdělení). Vezměme si problém intervalového odhadu prav-děpodobnosti úspěchu v alternativním rozdělení.

Data: X1, . . . ,Xn ∼ F0Model: F = Alt(p), p ∈ (0, 1)Odhadovaný parametr: p0 = EXi = P [Xi = 1]Postup:1. Jelikož odhadujeme střední hodnotu, vyjdeme z bodového odhadu pn = Xn,který je nestranný a konsistentní. Z centrální limitní věty (tvrzení 1.41) víme,

že√n(pn − p0)

D−→ N(0, p0(1− p0)). Tudíž

√n

pn − p0√p0(1− p0)

D−→ N(0, 1).

Limitní rozptyl je funkcí p0, proto by se odtud p0 špatně vyjadřovalo. Zkonsistence pn a věty o spojité transformaci (tvrzení 1.35) však víme, že

√pn(1− pn)

P−→√p0(1− p0).

37

Page 38: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.1 Základy teorie odhadu

Ze Sluckého věty (tvrzení 1.38) dostaneme

√n

pn − p0√pn(1− pn)

=

√p0(1− p0)√pn(1− pn)

√n

pn − p0√p0(1− p0)

D−→ N(0, 1).

Vezmeme tedy Sn =√n bpn−p0√

bpn(1−bpn), FS = Φ a cα = uα (α-kvantil normova-

ného normálního rozdělení).2. Vyjdeme z rovnosti

P

[

−u1−α2<

√n

pn − p0√pn(1− pn)

< u1−α2

]

→ 1− α

(pro n→ ∞) a postupnými úpravami nerovností dojdeme k

P

[pn −

√pn(1− pn)√

nu1−α

2< p0 < pn +

√pn(1− pn)√

nu1−α

2

]→ 1− α.

3. Získali jsme tedy požadovaný interval. Jeho hranice jsou(

pn −√pn(1− pn)√

nu1−α

2, pn +

√pn(1− pn)√

nu1−α

2

)

a jeho pravděpodobnost pokrytí konverguje k 1− α pro n→ ∞.

Poznámka (transformace parametrů). Je-li (CL, CU ) interval spolehlivosti proparametr θ0 s pravděpodobností pokrytí 1−α a je-li ψ rostoucí reálná funkce, pak(ψ(CL), ψ(CU )) je interval spolehlivosti pro parametr ψ(θ0) s pravděpodobnostípokrytí 1− α.

Příklad (alternativní rozdělení s transformací parametru). Řešíme stejný problémjako v předchozím příkladě.

Data: X1, . . . ,Xn ∼ F0Model: F = Alt(p), p ∈ (0, 1)Odhadovaný parametr: p0 = EXi = P [Xi = 1]Postup:1. Vytvoříme intervalový odhad nikoli rovnou pro p0, ale nejprve pro trans-formovaný parametr θ0 = log

p01−p0. Podílu p0/(1 − p0) se říká šance (na

úspěch), budeme tedy odhadovat logaritmus šance. Z intervalového odhadupro θ0 pak odvodíme intervalový odhad pro p0.

2. Funkce g(x) = log x1−x je rostoucí a spojitá na (0, 1), zobrazuje (0, 1) na R.

Její derivace je g′(x) = 1x(1−x) .

38

Page 39: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.1 Základy teorie odhadu

3. Jelikož pn je konsistentním odhadem p0, θndf= log bpn

1−bpnje podle tvrzení 1.35

konsistentním (ne však nestranným) odhadem θ0. Z delta metody (věta 1.42)dostaneme √

n(θn − θ0)D−→ N(0, 1

p0+

11− p0

).

Konsistence pn a Sluckého věta (tvrzení 1.38) dává

√n

θn − θ0√1

bpn+ 11−bpn

D−→ N(0, 1).

Označíme-li Dn =√

1nbpn+ 1

n(1−bpn)(ve jmenovatelích jsou počty úspěchů a

neúspěchů v n pokusech), dostaneme po úpravách

P[θn − u1−α

2Dn < θ0 < θn + u1−α

2Dn

]→ 1− α

pro n→ ∞. Máme tedy interval spolehlivosti pro θ0 ≡ log p01−p0.

4. Na obě nerovnosti aplikujeme inversní funkci ke g(x), totiž ψ(u) = eu

1+eu .Dostaneme interval spolehlivosti pro p0 s krajními body

bpn

1−bpne−u1−α/2Dn

1 + bpn

1−bpne−u1−α/2Dn

abpn

1−bpneu1−α/2Dn

1 + bpn

1−bpneu1−α/2Dn

,

který má pravděpodobnost pokrytí konvergující k 1− α.5. Tento interval na rozdíl od původního intervalu zaručuje, že oba jeho krajníbody leží uvnitř (0, 1). Konvergence θn k normálnímu rozdělení je rychlejšínež konvergence pn, takže limitní aproximace založená na θn je přesnější nežaproximace založená na pn.

Zde končí

přednáška 15

(25.11.)

39

Page 40: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.2 Metody pro odhadování parametrů

2.2.1 Empirické odhady a výběrové momenty

Mějme dán náhodný výběr X1,X2, . . . ,Xn z rozdělení F0. Ukažme si, jak lze od-hadnout některé konkrétní charakteristiky rozdělení F0.

Empirická distribuční funkce

Zabývejme se nejprve odhadováním celé distribuční funkce F0(u) pro u ∈ R. Pra-cujeme s modelem, který zahrnuje veškerá rozdělení na R, tj. na distribuční funkciF0 neklademe vůbec žádné podmínky.

Definice 2.7. Funkci Fn(u)df= 1

n

∑ni=1 I(−∞,u〉(Xi) nazýváme empirická distri-

buční funkce∗ náhodného výběru X1,X2, . . . ,Xn.

Poznámka. Hodnota Fn v bodě u je rovna počtu pozorování, která nepřekročíu dělenému celkovým počtem pozorování. Fn je neklesající, zprava spojitá, počástech konstantní, skáče v pozorovaných hodnotách veličin Xi, velikosti skokůjsou dány počtem pozorování rovných u děleným celkovým počtem pozorování.Empirická distribuční funkce má všechny vlastnosti distribuční funkce diskrétníhorozdělení.

Věta 2.1 (vlastnosti empirické distribuční funkce). Pro libovolné u ∈ R platí1. nFn(u) ∼ Bi(n,F0(u))2. E Fn(u) = F0(u) (nestrannost), var Fn(u) =

F0(u)[1−F0(u)]n

3. Fn(u)P−→ F0(u) (bodová konsistence)

4.√n[Fn(u)− F0(u)]

D−→ N(0, F0(u)[1− F0(u)]) (asymptotická normalita)

Dále platí supu∈R

∣∣∣Fn(u)− F0(u)∣∣∣ P−→ 0 (stejnoměrná konsistence).

Empirické odhady

Empirická distribuční funkce nám pomůže odvodit odhady základních charakte-ristik rozdělení F0 náhodného výběru. Nechť tedy θ0 = t(F0) je hledaný parametr(třeba i vektorový). Umíme-li jej spočítat ze skutečné distribuční funkce F0, mů-žeme se jej pokusit spočítat i z empirické distribuční funkce Fn. Dostaneme tak∗ Angl. empirical distribution function

40

Page 41: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.2 Metody pro odhadování parametrů

odhad θndf= t(Fn). Těmto odhadům říkáme empirické odhady. Uvidíme, že v řadě

případů mají empirické odhady rozumné vlastnosti.Odvoďme si nejprve empirický odhad střední hodnoty. Máme

EXi =

∫ ∞

−∞x dF0(x).

Empirický odhad střední hodnoty je tedy

∫ ∞

−∞x dFn(x) =

∫ ∞

−∞x d( 1n

n∑

i=1

I(−∞,x〉(Xi))=

=1

n

n∑

i=1

∫ ∞

−∞x d I〈Xi,∞)(x) =

1

n

n∑

i=1

Xi,

kde jsme využili toho, že I〈Xi,∞)(x) je pro pevné Xi vlastně distribuční funkcíkonstanty nabývající hodnoty Xi s pravděpodobností 1. Došli jsme tedy k tomu,že empirickým odhadem střední hodnoty je aritmetický průměr, o němž již víme,že je nestranný a konsistentní.Podobným postupem se dá snadno ověřit, že empirickým odhadem parametru

Eh(Xi) pro jakoukoli měřitelnou funkci h takovou, že E |h(Xi)| <∞ jest průměrnaměřených hodnot h(Xi), tj. n−1

∑ni=1 h(Xi).

Empirický odhad kvantilu

Nechť α je předem dané číslo z intervalu (0, 1). Kvantilová funkce rozdělení F0je dána jako F−1

0 (α) = infx : F0(x) ≥ α. Jako empirický odhad α-kvantilutedy můžeme použít F−1

n (α), případně definici rozšířit na kterékoli reálné číslo,jež splňuje nerovnosti

Fn(un(α)−) ≤ α a Fn(un(α)) ≥ α

(viz definice 1.9), tj. alespoň n(1 − α) pozorování je větší nebo rovno un(α) azároveň alespoň nα pozorování je menší nebo rovno un(α).V praxi se definice výběrového kvantilu raději volí tak, aby odhad kvantilu

jednoznačně určovala. Vezmeme uspořádaný náhodný výběr

X(1) ≤ X(2) ≤ · · · ≤ X(n−1) ≤ X(n),

který permutuje původně pozorované hodnoty X1, . . . ,Xn, aby byly seřazené odminima X(1) do maxima X(n).

41

Page 42: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.2 Metody pro odhadování parametrů

Definice 2.8 (Výběrový kvantil). Označme nα = (n + 1)α. Je-li nα celé číslo,empirický (výběrový) α-kvantil∗ un(α) definujeme jako un(α) = X(nα). Není-li nα

celé číslo, definujeme un(α) výrazem

un(α) = (1− nα + [nα])X([nα]) + (nα − [nα])X([nα]+1),

kde [x] je celá část čísla x.

Pro α = 0.5 dostaneme výběrový medián†: mn = X((n+1)/2) pro n liché a mn =(X(n/2) +X(n/2+1))/2 pro n sudé.

Výběrový rozptyl

Máme σ20 ≡ varXi = EX2i − (EXi)2. Víme, že empirickým odhadem EXi je Xn

a empirickým odhadem EX2i je n−1∑n

i=1X2i . Empirický odhad rozptylu by tedy

měl být σ2n = n−1∑n

i=1X2i −X

2n.

Definice 2.9.

• σ2n =1

n

n∑

i=1

(Xi −Xn)2 nazýváme empirický odhad rozptylu‡.

• S2n =1

n− 1

n∑

i=1

(Xi −Xn)2 nazýváme výběrový rozptyl§ .

Poznámka.

1. Rozdíl mezi σ2n a S2n spočívá pouze v tom, zdali se před dělením počtem

pozorování odečte 1 nebo ne. Jest

S2n =n

n− 1 σ2n.

Pro velká n je rozdíl mezi σ2n a S2n malý, σ

2n − S2n

P−→ 0.

2. Máme

σ2n =1n

n∑

i=1

X2i − (Xn)2

S2n =n

n− 1( 1n

n∑

i=1

X2i − (Xn)2)

Podle těchto vzorců se odhady lépe počítají.

∗ Angl. empirical quantile, sample quantile † Angl. sample median ‡ Angl. empirical variance§ Angl. sample variance

42

Page 43: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.2 Metody pro odhadování parametrů

Věta 2.2 (Vlastnosti odhadů rozptylu).

1. σ2nP−→ σ20 , S

2nP−→ σ20 (oba jsou konsistentní).

2. E σ2n 6= σ20 , ES2n = σ20 (S2n je nestranný).

3. Jestliže X1, . . . ,Xn ∼ N(µ, σ20), pak

nσ2nσ20=(n− 1)S2n

σ20∼ χ2n−1. (2.1)

Zde končí

přednáška 16

(29.11.)Poznámka. Vzhledem k jeho nestrannosti dáváme obvykle přednost výběrovémurozptylu S2n před σ

2n.

Podobně můžeme definovat k-té výběrové momenty vyšších řádů (k ≥ 2), jaknecentrální

µ′k =1

n

n∑

i=1

Xki ,

tak centrální

µk =1

n

n∑

i=1

(Xi −Xn)k.

Necentrální výběrové momenty jsou evidentně nestranné a konsistentní, pokudjsou odhadované momenty konečné, centrální výběrové momenty jsou konsistentní,nikoli však obecně nestranné.Empirické odhady šikmosti a špičatosti jsou

γ1 =µ3

(σ2n)3/2

pro šikmost a

γ2 =µ4σ4n

pro špičatost.

Empirické odhady pro náhodné vektory

Empirické odhady prvních dvou momentů můžeme snadno rozšířit na náhodnévektory. NechťX1, . . . ,Xn je náhodný výběr nezávislých k-rozměrných náhodnýchvektorů s rozdělením F0, které má střední hodnotu µ a rozptylovou matici Σ.Jednotlivé složky vektoru Xi budeme značit Xij , i = 1, . . . , n, j = 1, . . . , k.

43

Page 44: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.2 Metody pro odhadování parametrů

Empirickým odhadem µ je výběrový průměr

Xn =1

n

n∑

i=1

Xi.

Empirickým odhadem Σ je výběrová rozptylová matice∗

Σn =1

n− 1

n∑

i=1

(Xi − Xn)⊗2.

Tvrzení 2.3.

• Je-li E |Xij| <∞, pak EXn = µ a XnP−→ µ.

• Je-li varXij <∞, pak E Σn = Σ a ΣnP−→ Σ.

Poznámka.

• Σn má na diagonále odhady rozptylu jednotlivých složek Xi, tj.

S2j =1

n− 1

n∑

i=1

(Xij −Xj)2,

pro j = 1, . . . , k, kde Xj =1n

∑ni=1Xij .

• Σn má mimo diagonálu odhady kovariancí dvojic složek Xi, tj.

Sjm =1

n− 1

n∑

i=1

(Xij −Xj)(Xim −Xm)

pro j = 1, . . . , k a m = 1, . . . , k, j 6= m. Těmto odhadům cov (Xij ,Xim)říkáme výběrové kovariance.

• Σn má všechny vlastnosti rozptylové matice, např. je positivně semidefinitní.

• Platí

Σn =n

n− 1( 1n

n∑

i=1

X⊗2i − X

⊗2n

).

Definice 2.10. Výběrový korelační koeficient† jm veličin Xij a Xim, j = 1, . . . , ka m = 1, . . . , k, j 6= m, definujeme jako

jm =Sjm

SjSm=

∑ni=1(Xij −Xj)(Xim −Xm)√∑n

i=1(Xij −Xj)2∑n

i=1(Xim −Xm)2.

∗ Angl. sample covariation matrix † Angl. sample correlation coefficient

44

Page 45: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.2 Metody pro odhadování parametrů

Poznámka.

• jm je konsistentní odhad korelačního koeficientu (Xij ,Xim).

• jm není nestranný.

Empirické odhady pravděpodobností

Poznámka. Náhodnou veličinu X nazveme kategoriální, jestliže nabývá konečněmnoha hodnot 1, . . . ,m, které představují kódy pro různé navzájem se vylučujícístavy. Příklady: pohlaví (0 = muž, 1 = žena), pracovní zařazení (1 = student, 2 =zaměstnanec, 3 = podnikatel, 4 = důchodce, 5 = ostatní).

Poznámka. U kategoriálních veličin obvykle nemá smysl odhadovat charakteris-tiky jako střední hodnota, medián, rozptyl, kvantil. Zajímají nás spíše pravděpo-dobnosti jednotlivých stavů: P [X = j].

Uvažujme náhodný výběr X1, . . . ,Xn veličin, které nabývají hodnot 1, . . . ,m.Chceme odhadnout πj = P [Xi = j] pro j = 1 . . . ,m. Označme Yij = Ij(Xi) aNj =

∑ni=1 Yij. Pak Y1j , . . . , Ynj je náhodný výběr z rozdělení Alt(πj) a odhad πj

je vlastně odhadem střední hodnoty z náhodného výběru. Empirický odhad πj jetudíž πj = Nj/n, relativní četnost jevu [Xi = j] v n experimentech.

Věta 2.4 (vlastnosti odhadu pravděpodobnosti). Nechť πj ∈ (0, 1). Pak platí1. nπj ∼ Bi(n, πj)

2. E πj = πj (nestrannost), var πj =πj(1−πj)

n

3. πjP−→ πj (konsistence)

4.√n(πj − πj)

D−→ N(0, πj(1− πj)) (asymptotická normalita I.)

5.√n

bπj−πj√bπj(1−bπj)

D−→ N(0, 1) (asymptotická normalita II.)

Poznámka. Tato věta je obdobou věty 2.1 o vlastnostech empirické distribučnífunkce. Její důkaz je totožný.

Poznámka. Povšimněte si, že pro náhodnou veličinu Zn =√n

bπj−πj√bπj(1−bπj)

platí

E |Zn| =∞ pro všechna n. To je proto, že pro libovolné pevné n jest P [πj = 1] > 0

a tudíž P [Zn =∞] > 0. Přesto však ZnD−→ N(0, 1).

Poznámka. Intervalové odhady pro πj jsou odvozeny v kapitole 2.1.2 na str. 37až 39.

45

Page 46: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.2 Metody pro odhadování parametrů

2.2.2 Odhady v parametrických modelech

Uvažujme nyní parametrický model: máme náhodný výběr X = (X1, . . . ,Xn) zrozdělení s hustotou f(x;θ0), kde tvar funkce f(·; ·) je známý a θ0 je neznámý (vek-torový) parametr, jenž leží v parametrickém prostoru Θ ⊆ R

d, d ≥ 1. Pracujemetedy s modelem

F = rozdělení s hustotou f(x;θ), θ ∈ Θ ⊆ Rd

Příklady takových modelů jsou:• F = N(µ, σ2), µ ∈ R, σ2 > 0, θ = (µ, σ2)T, Θ = R × R

+.• F = Γ(a, p), a, p > 0, θ = (a, p)T, Θ = R

+ × R+.

• F = Po(λ), λ > 0, θ = λ, Θ = R+.

Našim cílem je odhadnout parametr θ (všechny ostatní charakteristiky rozdělenínáhodných veličin Xi z něj lze dopočítat).

Momentová metoda

Využijeme toho, že máme k dispozici konsistentní odhady momentů a že momentyrozdělení Xi obvykle umíme vyjádřit jako funkce neznámých parametrů.Například pro d = 2 parametry:• Vyjádříme EXi = g1(θ), varXi = g2(θ)• Xn a S2n jsou konsistentní odhady EXi a varXi

• Řešme soustavu rovnic g1(θ) = Xn, g2(θ) = S2n; dostaneme θ = h(Xn, S2n)

pro h : R2 → R2

• Je-li h spojitá funkce, pak θ je konsistentní odhad θ0. Zde končí

přednáška 17

(2.12.)Příklad. Nechť Xi má gama rozdělení s parametry a a p. Momentovou metodou

dostaneme konsistentní odhady a = XnS2na p = X

2n

S2n.

Metoda maximální věrohodnosti

Náhodný výběrX1, . . . ,Xn má sdruženou distribuční funkci fn(x;θ =∏n

i=1 f(xi;θ0).

Maximálně věrohodný odhad θ parametru θ0 je takový bod z Θ, který maxi-malisuje (přes všechny θ ∈ Θ0) sdruženou hustotu spočítanou v pozorovanýchhodnotách X1, . . . ,Xn.

Definice 2.11 (věrohodnost, maximálně věrohodný odhad).• Náhodnou funkci

Ln(θ)df=

n∏

i=1

f(Xi;θ)

46

Page 47: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.2 Metody pro odhadování parametrů

nazýváme věrohodnostní funkcí (zkráceně věrohodností)∗ pro parametr θ vmodelu F .

• Maximálně věrohodný odhad† parametru θ0 v modelu F je definován jako

θ = argmaxθ∈Θ

Ln(θ).

Poznámka. Při hledání maximálně věrohodného odhadu postupujeme takto:• Místo Ln(θ) maximalisujeme logLn(θ) =

∑ni=1 log f(Xi;θ)

• Maximálně věrohodný odhad θ řeší soustavu rovnic

n∑

i=1

∂θlog f(Xi; θ) = 0

• Řešení této soustavy se obvykle hledá numericky. Řešení však nemusí exis-tovat a ne každé řešení je maximálně věrohodný odhad.

Poznámka. Lze dokázat, že za určitých obecných podmínek je maximálně vě-rohodný odhad konsistentní a asymptoticky normální. Asymptotický rozptyl ma-ximálně věrohodného odhadu je za určitých podmínek optimální; např. odhadymomentovou metodou nemohou mít menší asymptotický rozptyl.

Příklad. Nechť Xi má gama rozdělení s parametry a a p. Maximálně věrohodnýodhad p parametru p řeší rovnici

log p− Γ′(p)

Γ(p)= log

Xn

n√∏

Xi

Maximálně věrohodný odhad parametru a jest a = bp

Xn.

∗ Angl. likelihood function † Angl. maximum likelihood estimator

47

Page 48: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.3 Principy testování hypotéz

2.3.1 Základní pojmy a definice

NechťX1, . . . ,Xn je náhodný výběr nezávislých k-rozměrných náhodných vektorůs rozdělením FX ∈ F , kde F je model. Nechť θ = t(F ) ∈ R

d je charakteristikarozdělení, která nás zajímá (parametr), nechť Θ = t(F ), F ∈ F ⊆ R

d označujevšechny možné hodnoty parametru v modelu F . Označme skutečný parametr jakoθX = t(FX). Označme celá napozorovaná data symbolem X = (XT

1 , . . . ,XTn )T.

Zvolme si nyní dvě disjunktní podmnožiny Θ, které označíme Θ0 a Θ1. Řek-něme, že nás nyní nezajímá konkrétní hodnota parametru θX , ale chceme pouzeodpovědět na otázku, zdali θX ∈ Θ0 nebo θX ∈ Θ1. (Většinou bereme Θ1 = Θc0,ale to není naprosto nutné.)

Definice 2.12 (Hypotéza a alternativa).• Množinu Θ0 nazýváme [nulová] hypotéza, množinu Θ1 nazýváme alterna-tiva. Hypotézu označujeme obvykle symbolemH0, alternativu symbolemH1.Mluvíme o testování hypotézy H0 : θX ∈ Θ0 proti alternativě H1 : θX ∈ Θ1.

• Označme F0 df= F ∈ F : t(F ) ∈ Θ0, tj. všechna rozdělení v modeluF , jejichž parametry splňují hypotézu. Jestliže F0 = F0 (tj. v modeluexistuje právě jedno rozdělení, které hypotézu splňuje), hypotézu nazývámejednoduchou, jinak složenou. Jednoduchou hypotézu tedy dostaneme, pokudΘ0 = θ0 je jednobodová množina a zároveň existuje právě jedno rozděleníF0 ∈ F takové, že t(F0) = θ0. Jednoduchou hypotézu značíme H0 : θX = θ0.

• Označme F1 df= F ∈ F : t(F ) ∈ Θ1, tj. všechna rozdělení v modelu F ,jejichž parametry splňují alternativu. Jestliže F1 = F1 (tj. v modelu exis-tuje právě jedno rozdělení, které alternativu splňuje), alternativu nazývámejednoduchou, jinak složenou. Jednoduchou alternativu tedy dostaneme, po-kud Θ1 = θ1 je jednobodová množina a zároveň existuje právě jednorozdělení F1 ∈ F takové, že t(F1) = θ1. Jednoduchou alternativu značímeH1 : θX = θ1.

Na základě náhodného výběru X1, . . . ,Xn chceme rozhodnout, zda H0 platínebo nikoli. Použijeme k tomu nějakou vhodně zvolenou funkci dat S(X), kteréříkáme testová statistika, a množinu C, které říkáme kritický obor. Testová statis-tika je obvykle jednorozměrná; kritický obor je pak nějaká podmnožina R. Rozho-dujeme se podle to, jestli testová statistika padne do kritického oboru, či nikoli.

48

Page 49: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.3 Principy testování hypotéz

• Pokud S(X) ∈ C, učiníme závěr, že zamítáme hypotézu H0 ve prospěchalternativy H1.

• Pokud S(X) 6∈ C, učiníme závěr, že hypotézu H0 nemůžeme zamítnout veprospěch alternativy H1.

Definice 2.13 (Test). Statistický test je definován pomocí testové statistiky S(X)a kritického oboru C. Dva testy (S(X), C) a (S∗(X), C∗) nazveme ekvivalentníprávě když S(X) ∈ C ⇔ S∗(X) ∈ C∗ skoro jistě, tj. oba testy vydávají s pravdě-podobností 1 totéž rozhodnutí.

Poznámka. Testovou statistiku volíme tak, aby její rozdělení bylo citlivé na hod-notu testovaného parametru, ale aby co nejméně záviselo na těch charakteristikáchrozdělení F ∈ F , které testovat nechceme. Proto budeme vyžadovat, aby testovástatistika splňovala následující podmínku:Pokud F1 6= F2 a t(F1) = t(F2) = θ, pak pro každou borelovskou množinu B

platí∫

IB(S(x)) dF1(x1) · · · dF1(xn)−∫

IB(S(x)) dF2(x1) · · · dF2(xn)→ 0 pro n→ ∞,

tj. rozdělení testové statistiky S(X) je stejné (nebo aspoň přibližně stejné), aťmají data rozdělení F1 nebo F2.Platí-li tato podmínka, pak rozdělení testové statistiky nezávisí na jiných cha-

rakteristikách rozdělení FX než na testovaném parametru θ. Můžeme tedy označit

Pθ[S(X) ∈ B]df=

∫IB(S(x)) dF (x1) · · · dF (xn),

kde F je libovolné rozdělení splňující t(F ) = θ.

2.3.2 Hladina testu a síla testu

Definice 2.14 (Hladina testu). Nechť α ∈ (0, 1) je předem stanovené číslo. Jestližekritický obor C splňuje podmínku

supθ∈Θ0

Pθ[S(X) ∈ C] = α

(pravděpodobnost, že testová statistika padne do kritického oboru, mají-li datarozdělení F splňující nulovou hypotézu), říkáme, že test (S(X), C) má hladinu∗ α.Jestliže kritický obor C splňuje podmínku

supθ∈Θ0

Pθ[S(X) ∈ C]→ α pro n→ ∞,

říkáme, že test (S(X), C) má asymptoticky (přibližně) hladinu α.

49

Page 50: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.3 Principy testování hypotéz

Zde končí

přednáška 18

(6.12.)Poznámka.

• Je-li množina Θ0 = θ0 jednobodová, pak můžeme (asymptotickou) hladinutestu zapsat jednodušeji:

α = limn→∞

Pθ0[S(X) ∈ C] .

• Hladina testu je pravděpodobnost zamítnutí platné hypotézy (pokud je hy-potéza jednoduchá) nebo maximalizovaná platnost zamítnutí platné hypo-tézy (pokud je hypotéza složená).

• Připouštíme pouze ty testy, které mají požadovanou hladinu, nebo jí dosahujíalespoň přibližně při velkém rozsahu výběru n.

• Hladina se obvykle volí malá, v praxi je standartem α = 0.05.• Abychom mohli dodržet stanovenou hladinu, musíme být schopni spočítatpřesné nebo asymptotické rozdělení testové statistiky za platnosti nulovéhypotézy, a to nesmí záviset na neznámých charakteristikách rozdělení FX .

• U některých testů (přesné testy s diskrétní testovou statistikou) není možnédosáhnout zcela libovolné hladiny — pak se většinou spokojujeme s nižšíhladinou nejbližší k té, kterou bychom normálně požadovali.

Definice 2.15 (Síla testu). Nechť θ ∈ Θ1. Pak

β(θ) = Pθ[S(X) ∈ C]

(pravděpodobnost, že testová statistika padne do kritického oboru, mají-li datarozdělení F porušující nulovou hypotézu) se nazývá síla∗ testu proti alternativěθ.

Poznámka. Síla testu je pravděpodobnost zamítnutí neplatné hypotézy při danékonkrétní alternativě θ. Síla závisí na alternativě, pro níž ji vyhodnocujeme. Fukciβ(θ) můžeme snadno rozšířit i na θ ∈ Θ0. Má-li test hladinu α, pak musí platitsupθ∈Θ0 β(θ) = α (nebo → α pro n→ ∞).

Definice 2.16 (Nestranný test). Nechť test (S(X), C) má hladinu α a sílu β(θ).Test nazveme [asymptoticky] nestranný†, pokud pro každé θ ∈ Θ1 platí β(θ) ≥ α[limn→∞β(θ) ≥ α].

Poznámka.

• Testy, které nejsou nestranné, nebudeme připouštět. Např. test, který vždyzamítne H0 s pravděpodobností α zcela nezávisle na datech, je nestranný(β(θ) = α splňuje požadavek nestrannosti).

∗ Angl. level ∗ Angl. power † Angl. unbiased

50

Page 51: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.3 Principy testování hypotéz

• Rádi bychom maximalizovali sílu mezi všemi testy dosahujícími požadovanouhladinu. Většinou však není možné maximalizovat sílu pro všechny alterna-tivy zároveň, zvlášť je-li model F bohatý.

Testovou statistiku volíme tak, aby(i) její rozdělení bylo co nejcitlivější na hodnotu testovaného parametru θ;(ii) za platnosti H0 její rozdělení nezáviselo na neznámých parametrech a byloznámo aspoň asymptoticky.

Máme-li testovou statistiku, kritický obor volíme tak, aby(i) zahrnoval hodnoty testové statistiky, které jsou za platnosti hypotézy nejméněpravděpodobné;

(ii) byla dodržena požadovaná hladina testu.Kritický obor C má ve většině případů jeden z následujících tvarů:

• (cU (α),∞), tj. zamítáme pro příliš velké hodnoty testové statistiky S(X);

• (−∞, cL(α)), tj. zamítáme pro příliš malé hodnoty testové statistiky S(X);

• (−∞, cL(α)) ∪ (cU (α),∞), tj. zamítáme jak pro příliš malé tak pro přílišvelké hodnoty testové statistiky S(X);

• (−∞,−cU (α)) ∪ (cU (α),∞), tj. zamítáme pro příliš velké hodnoty |S(X)|.

Příklad (Test střední hodnoty normálního rozdělení se známým rozptylem).

Data: X1, . . . ,Xn ∼ N(µX , σ2)

Model: F = N(µ, σ2), µ ∈ R, σ2 známéProblém: H0 : µX = µ0 proti H1 : µX 6= µ0Testová statistika:

S(X) =√nXn − µ0

σ

Kritický obor: (−∞,−u1−α/2) ∪ (u1−α/2,∞)Síla testu: proti alternativě µ1 > µ0

β(µ1) ≈ 1− Φ(u1−α/2 −

√nµ1 − µ0

σ

)

Požadovaný rozsah výběru: pro dosažení síly alespoň β proti alternativě µ1 > µ0

n ≥ (u1−α/2 + uβ)2 σ2

(µ1 − µ0)2

Poznámka. Síla testu (S(X), C) závisí na

51

Page 52: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.3 Principy testování hypotéz

• hladině testu α• alternativě θ, respektive její vzdálenosti od hypotézy Θ0• počtu pozorování n• rozptylu pozorování varXi

Zde končí

přednáška 19

(9.12.)Poznámka (Interpretace výsledku testu).

• Skončí-li test zamítnutím hypotézy H0, znamená to, že rozdělení dat neod-povídá rozdělení, jaké by data měla za platnosti hypotézy. Hypotézu H0vyvracíme, prokázali jsme platnost alternativy H1. Pravděpodobnost chyb-ného rozhodnutí v případě, že hypotéza platí, je omezena shora hladinou α,která je malá.

• Skončí-li test tím, že hypotézu H0 nemůžeme zamítnout, znamená to pouze,že rozdělení dat není dostatečně odlišné od rozdělení, jaké by data měla zaplatnosti hypotézy. Proto nemůžeme usoudit, že hypotéza H0 platí a alterna-tiva neplatí. Pravděpodobnost chybného rozhodnutí v případě, že hypotézaneplatí, je omezena shora hodnotou 1− α a může tedy být značně velká.

• Hypotéza H0 a alternativa H1 při testování vystupují asymetricky. Hypo-tézu můžeme někdy vyvrátit ve prospěch alternativy, ale nemůžeme ji nikdypotvrdit.

2.3.3 P-hodnota

Posuzovat výsledek testu podle toho, zda S(X) padne do C, není jediný ani nej-běžnější způsob vyhodnocování. Výsledek testu se častěji posuzuje pomocí tzv.p-hodnoty neboli dosažené hladiny testu.Uvažujme hypotézu H0 : θX = θ0 proti alternativě H1 : θX 6= θ0 a test

(S(X), C) s kritickým oborem tvaru C = R \ (cL, cU ), kde −∞ ≤ cL < cU ≤ ∞.Hodnoty S(X) v intervalu (cL, cU ) tedy považujeme za hodnoty v souladu s hy-potézou, ty ostatní hypotéze protiřečí. Označme sx realizovanou hodnotu testovéstatistiky S(X), kterou jsme napozorovali pro náš datový soubor. Označme dálesymbolem F0 distribuční funkci testové statistiky S(X) za platnosti nulové hypo-tézy (přesnou nebo asymptotickou); pro jednoduchost předpokládejme, že S(X)má spojité rozdělení. Chceme rozhodnout, jestli pozorovaná hodnota sx testovéstatistiky stačí k zamítnutí nulové hypotézy na hladině α.

Definice 2.17 (P-hodnota). P-hodnotu∗ neboli dosaženou hladinu testu definu-jeme jako

• Pθ0 [S(X) ≥ sx] = 1− F0(sx) pokud cL = −∞;• Pθ0 [S(X) ≤ sx] = F0(sx) pokud cU =∞;

∗ Angl. p-value

52

Page 53: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.3 Principy testování hypotéz

• 2min(Pθ0 [S(X) ≥ sx] ,Pθ0 [S(X) ≤ sx]) = 2min(1 − F0(sx), F0(sx)) pokudcL a cU jsou konečné a F0(cL) = 1− F0(cU ) = α/2.

Poznámka.

• P-hodnotu můžeme slovně popsat jako pravděpodobnost, že bychom za plat-nosti hypotézy napozorovali data, která by byla s hypotézou ve větším roz-poru, než analyzovaný náhodný výběr.

• Je-li hustota S(X) je za platnosti hypotézy symetrická kolem 0 a cL = −cU(častý případ v praxi), pak můžeme p-hodnotu spočítat jakoPθ0 [|S(X)| ≥ |sx|] = 2[1− F0(|sx|)].

• Je-li distribuční funkce F0 asymptotická, přidáme před výraz definující p-hodnotu ještě limn→∞.

• Testujeme-li hypotézuH0 : θX ∈ Θ0, kde Θ0 obsahuje více hodnot θ, přidámepřed výraz definující p-hodnotu ještě supθ∈Θ0 .

Tvrzení 2.5. Zamítáme-li hypotézu podle pravidla

H0 zamítáme, jestliže p-hodnota ≤ α

H0 nezamítáme, jestliže p-hodnota > α,

výsledný test má hladinu α (přesně nebo asymptoticky).

Poznámka.

• Zamítáme-li pomocí p-hodnoty, nemusíme uvádět kritický obor a nemusímejej přepočítávat, pokud se rozhodneme změnit hladinu testu (měnit hladinutestu poté, co je znám výsledek, však není legitimní). P-hodnota do jistémíry vyjadřuje, s jakou rezervou k zamítnutí hypotézy došlo.

• Mezi laiky rozšířená představa o p-hodnotě jakožto „pravděpodobnosti, ženulová hypotéza platíÿ je zcela mylná a nesmyslná.

2.3.4 Intervalové odhady a testování

Uvažujme náhodný výběr X1, . . . ,Xn z rozdělení FX ∈ F , kde F je model, nechťθ = t(F ) ∈ R je parametr, který nás zajímá a θX = t(FX) je jeho skutečnáhodnota. V kapitole 2.1.2 jsme se zabývali problémem intervalového odhadu θX ,tj. nalezení náhodných veličin CL a CU takových, že P [(CL, CU ) ∋ θX ] = 1 − α(nebo → 1 − α). Nyní se zabýváme testováním; snažíme se rozhodnout, zdali θX

nabývá nějaké zadané hodnoty θ0 či nikoli. Oba problémy se řeší postupem, kterývypadá na pohled dosti podobně, ale liší se v detailech – obě úlohy jsou principiálněodlišné. Nicméně mezi testováním hypotézy o parametru a intervalovým odhadempro parametr existuje jakási dualita, kterou je dobré si uvědomovat a rozumět jí.

Tvrzení 2.6 (Ekvivalence intervalových odhadů a testování).

53

Page 54: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.3 Principy testování hypotéz

1. Nechť je dán oboustranný interval spolehlivosti pro parametr θX s prav-děpodobností pokrytí 1 − α (přesnou nebo asymptotickou), který má tvar(CL(X), CU (X)) . Uvažujme test hypotézy H0 : θX = θ0 proti H1 : θX 6= θ0založený na rozhodovacím pravidle

H0 zamítáme, jestliže θ0 6∈ (CL(X), CU (X))

H0 nezamítáme, jestliže θ0 ∈ (CL(X), CU (X)).

Pak má výsledný test hladinu α (přesně nebo asymptoticky).2. Nechť je dán test hypotézy H0 : θX = θ proti H1 : θX 6= θ na hladiněα (přesné nebo asymptotické). Sestavme množinu BX obsahující všechnyparametry θ ∈ Θ, pro něž se při pozorovaných datech X nezamítá hypotézaH0 : θX = θ. Pak P [BX ∋ θX ] = 1−α (nebo → 1− α) a (je-li BX interval)jedná se o interval spolehlivosti pro parametr θX a pravděpodobností pokrytí1− α (přesnou nebo asymptotickou).

54

Page 55: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.4 Jednovýběrové problémy

V této kapitole uvažujeme náhodný výběr X1, . . . ,Xn reálných veličin s distri-buční funkcí FX patřící do modelu F . Zajímá nás parametr θX = t(FX). Chcemetestovat hypotézu H0 : θX = θ0 proti alternativě H1 : θX 6= θ0, případně sestrojitintervalový odhad θX .

2.4.1 Kolmogorovovův-Smirnovův test

Model: F = všechna spojitá rozděleníTestovaný parametr: celá distribuční funkce FX

Hypotéza a alternativa:

H0 : FX(x) = F0(x) ∀x ∈ R, H1 : ∃x ∈ R : FX(x) 6= F0(x),

kde F0 je nějaká pevně specifikovaná spojitá distribuční funkce (bez neznámýchparametrů).

Testová statistika:Kn = sup

x∈R

∣∣∣Fn(x)− F0(x)∣∣∣ ,

kde Fn je empirická distribuční funkce náhodného výběru X1, . . . ,Xn. Zde končí

přednáška 20

(13.12.)Tvrzení 2.7. Nechť X1, . . . ,Xn je náhodný výběr ze spojitého rozdělení s distri-buční funkcí FX . Pak platí

P

[√n sup

x∈R

∣∣∣Fn(x)− FX(x)∣∣∣ ≤ x

]→ 1− 2

∞∑

k=1

(−1)k+1e−2k2x2 pro n→ ∞.

Poznámka.

• Nulovou hypotézu budeme zamítat, pokud se empirická distribuční funkcepříliš liší od distribuční funkce za nulové hypotézy, tj. pokud je testová sta-tistika velká.

• Tvrzení 2.7 implikuje, že za platnosti nulové hypotézy konverguje√nKn

v distribuci k náhodné veličině s distribuční funkcí 1−2∑∞k=1(−1)k+1e−2k

2x2.To nám umožní určit kritickou hodnotu pro zamítání H0, aby měl testasymptotickou hladinu α.

55

Page 56: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.4 Jednovýběrové problémy

Kritický obor:H0 zamítneme ⇔ √

nKn ≥ cα,

kde cα je konstanta splňující rovnost

2∞∑

k=1

(−1)k+1e−2k2c2α = α.

Poznámka.

• Je možné spočítat i přibližnou kritickou hodnotu Kolmogorovova-Smirnovovatestu pro diskrétní rozdělení anebo přesnou kritickou hodnotu pro spojitérozdělení a malé n.

• Výhodou tohoto testu je jeho universalita (reaguje na jakýkoli rozdíl v roz-dělení dat proti nulové hypotéze) a absence předpokladů o rozdělení FX .Nevýhodou je to, že F0 musí být známa přesně (nesmí obsahovat neznáméparametry ani jejich odhady) a to, že test má malou sílu v situacích, kdyněkteré druhy porušeníH0 jsou častější nebo důležitější než jiné. Pak je lepšípoužít test, který je specificky zaměřen na konkrétní typ porušení H0.

2.4.2 Jednovýběrový t-test

Model: F = N(µ, σ2), µ ∈ R, σ2 > 0Testovaný parametr: Střední hodnota µX = EXi

Hypotéza a alternativa:

H0 : µX = µ0, H1 : µX 6= µ0,

kde µ0 je předem daná konstanta.

Testová statistika:

Tn =√nXn − µ0Sn

,

kde Xn je aritmetický průměr a S2n je výběrový rozptyl (viz definice 2.9).

Věta 2.8 (o T statistice). NechťX1, . . . ,Xn je náhodný výběr z rozdělení N(µ, σ2).Pak

T ≡ √nXn − µ

Sn∼ tn−1.

Poznámka.

• Nulovou hypotézu budeme zamítat, pokud se výběrový průměr příliš liší odhypotetické střední hodnoty, tj. pokud je testová statistika buď moc velkánebo moc malá.

56

Page 57: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.4 Jednovýběrové problémy

• Věta 2.8 implikuje, že za platnosti nulové hypotézy má Tn rozdělení tn−1.

Kritický obor:H0 zamítneme ⇔ |Tn| ≥ tn−1(1− α/2),

kde tn−1(1− α/2) je (1− α/2)-tý kvantil t-rozdělení s n− 1 stupni volnosti.

Poznámka. Jednovýběrový t-test∗ je přesný test zaměřený na střední hodnotu.Vyžaduje normální rozdělení pozorovaných dat.

P-hodnota: p = 2(1 − Fn(Tn)), kde Tn je pozorovaná hodnota testové statistiky aFn je distribuční funkce rozdělení tn−1.

Interval spolehlivosti pro µX : Z věty 2.8 lze odvodit interval spolehlivosti pro středníhodnotu normálního rozdělení při neznámém rozptylu. Dostaneme

P

[Xn − Sn√

ntn−1(1−

α

2) < µX < Xn +

Sn√ntn−1(1−

α

2)

]= 1− α.

2.4.3 Jednovýběrový z-test

Model: F = L2Testovaný parametr: Střední hodnota µX = EXi

Hypotéza a alternativa:

H0 : µX = µ0, H1 : µX 6= µ0,

kde µ0 je předem daná konstanta.

Testová statistika:

Tn =√nXn − µ0Sn

,

kde Xn je aritmetický průměr a S2n je výběrový rozptyl.

Věta 2.9 (limitní o T statistice). Nechť X1, . . . ,Xn je náhodný výběr z libovol-ného rozdělení se střední hodnotou µX a konečnými druhými momenty. Pak

Zn ≡ √nXn − µX

Sn

D−→ N(0, 1).

Poznámka.

• Testová statistika je naprosto stejná jako u t-testu. Věta 2.9 implikuje, žeza platnosti nulové hypotézy má Tn asymptoticky normované normální roz-dělení.

∗ Angl. one-sample t-test

57

Page 58: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.4 Jednovýběrové problémy

• Test s asymptotickou hladinou α dostaneme, pokud budeme zamítat pro|Tn| ≥ u1−α/2. Pokud však kritickou hodnotu u1−α/2 nahradíme kritickouhodnotou tn−1(1−α/2), test bude mít stále asymptotickou hladinu α (neboťtn−1(1−α/2) → u1−α/2 pro n→ ∞) a bude mít lepší vlastnosti pro konečnén .

Kritický obor:H0 zamítneme ⇔ |Tn| ≥ tn−1(1− α/2),

kde tn−1(1− α/2) je (1− α/2)-tý kvantil t-rozdělení s n− 1 stupni volnosti.

Poznámka. Je to ten samý test, jako jednovýběrový t-test, ale bez předpo-kladu normality dat. Zatímco jednovýběrový t-test je přesný, tento test je pouzeasymptotický a vyžaduje tedy dostatečně velký počet pozorování (v praxi většinoustačí n ≥ 30).

P-hodnota: p = 2(1 − Fn(Tn)), kde Tn je pozorovaná hodnota testové statistiky aFn je distribuční funkce rozdělení tn−1.

Interval spolehlivosti pro µX : Z věty 2.9 lze odvodit přibližný interval spolehlivostipro střední hodnotu libovolného rozdělení s konečným rozptylem. Dostaneme

P

[Xn − Sn√

ntn−1(1−

α

2) < µX < Xn +

Sn√ntn−1(1−

α

2)

]→ 1− α.

2.4.4 Jednovýběrový znaménkový test

Model: F = všechna spojitá rozděleníTestovaný parametr: Medián mX = F

−1X (0.5)

Hypotéza a alternativa:

H0 : mX = m0, H1 : mX 6= m0,

kde m0 je předem daná konstanta.

Testová statistika:

Yn =n∑

i=1

I(0,∞)(Xi −m0)

(počet pozorování větších než m0). Zde končí

přednáška 21

(16.12.)Věta 2.10. Nechť X1, . . . ,Xn je náhodný výběr z libovolného spojitého rozděleníse mediánem mX . Pak

58

Page 59: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.4 Jednovýběrové problémy

1.n∑

i=1

I(0,∞)(Xi −mX) ∼ Bi(n, 1/2)

2.1√n

n∑

i=1

[I(0,∞)(Xi −mX)−

1

2

]D−→ N(0, 1/4)

Poznámka.

• Hypotézu budeme zamítat pro příliš malé nebo příliš velké hodnoty Yn.• První část věty udává přesné rozdělení Yn za platnosti hypotézy H0 : mX =m0.

• Druhá část věty udává asymptotické rozdělení Yn za platnosti hypotézy H0 :mX = m0 při n→ ∞.

Kritický obor (přesný test):

H0 zamítneme ⇔ Yn ≤ c1n(α) nebo Yn ≥ c2n(α)

kde c1n(α) je největší celé číslo k1, které splňuje 2−n∑k1

j=1

(nj

)≤ α2 a c2n(α) je

nejmenší celé číslo k2, které splňuje 2−n∑n

j=k2

(nj

)≤ α2 . Tento test má hladinu

nejvýše α (přesné hladiny α nemusí být možné dosáhnout).

Kritický obor (asymptotický test):

H0 zamítneme ⇔∣∣∣∣2√nYn −√

n

∣∣∣∣ ≥ u1−α/2.

2.4.5 Jednovýběrový test na pravděpodobnost

Model: F = Alt(p), p ∈ (0, 1)Testovaný parametr: pX = P [Xi = 1]

Hypotéza a alternativa:

H0 : pX = p0, H1 : pX 6= p0,

kde p0 ∈ (0, 1) je předem daná konstanta.Testová statistika:

Yn =n∑

i=1

Xi

(počet úpěchů v n experimentech). Odhadem pravděpodobnosti úspěchu pX jepn = n−1Yn. Rozdělení testové statistiky (jak přesné tak asymptotické) je dánovětou 2.4.

59

Page 60: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.4 Jednovýběrové problémy

Hypotézu budeme zamítat pro příliš malé nebo příliš velké hodnoty Yn.

Kritický obor (přesný test):

H0 zamítneme ⇔ Yn ≤ c1n(α) nebo Yn ≥ c2n(α)

kde c1n(α) je největší celé číslo k1, které splňuje∑k1

j=1

(nj

)pj0(1 − p0)n−j ≤ α

2 a

c2n(α) je nejmenší celé číslo k2, které splňuje∑n

j=k2

(nj

)pj0(1− p0)n−j ≤ α

2 . Tentotest má hladinu nejvýše α (přesné hladiny α nemusí být možné dosáhnout).

Kritický obor (asymptotický test):

H0 zamítneme ⇔ √n

|pn − p0|√pn(1− pn)

≥ u1−α/2.

Interval spolehlivosti pro p0: Viz příklady v kapitole 2.1.2

2.4.6 Jednovýběrový Wilcoxonův test

Model:F = spojitá rozdělení s hustotou f splňující ∃δ ∈ R : f(δ − x) = f(δ + x) ∀x ∈R

Poznámka. Model vyžaduje, aby hustota Xi byla symetrická kolem nějakéhobodu δX . Pak musí platit mX = δX a pokud Xi ∈ L1, pak i EXi ≡ µX = δX .

Testovaný parametr: Střed symetrie δX .

Hypotéza a alternativa:

H0 : δX = δ0, H1 : δX 6= δ0,

kde δ0 je předem daná konstanta.

Poznámka. Za platnosti modelu F je hypotéza H0 ekvivalentní hypotéze H∗0 :

mX = δ0 (test na medián). Pokud navíc Xi ∈ L1, pak je hypotéza H0 též ekviva-lentní hypotéze H∗∗

0 : µX = δ0 (test na střední hodnotu).

Testová statistika:WS =

i∈I

Ri,

kde I ⊂ 1, . . . , n je množina všech indexů takových, že Zidf= Xi − δ0 má kladné

znaménko pro i ∈ I, a R1, R2, . . . , Rn jsou pořadí náhodných veličin |Zi| mezivšemi |Z1| , . . . , |Zn|.

60

Page 61: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.4 Jednovýběrové problémy

Poznámka. Testová statistika WS jednovýběrového Wilcoxonova testu∗ můženabývat hodnot 0, 1, . . . , n(n+ 1)/2. Spočítá se následujícím způsobem:1. Spočítáme odchylky Zi = Xi − δ0 a určíme množinu indexů I.2. Seřadíme všechny Zi podle jejich absolutní hodnoty od nejmenší do největší;získáme uspořádaný výběr

0 <∣∣Z(1)

∣∣ <∣∣Z(2)

∣∣ < · · · <∣∣Z(n)

∣∣ .

3. Určíme pořadí Ri náhodné veličiny |Zi| mezi všemi∣∣Z(1)

∣∣ , . . . ,∣∣Z(n)

∣∣. Platí|Zi| =

∣∣Z(Ri)

∣∣.4. Sečteme pořadí Ri pro i ∈ I.

Velikost množiny I je rovna počtu pozorování, pro něž platí Xi > δ0 (srv. stestovou statistikou znaménkového testu).

Tvrzení 2.11. Nechť X1, . . . ,Xn je náhodný výběr z libovolného spojitého roz-dělení splňujícího model F a nechť platí H0 : δX = δ0. Pak

1.

EWS =n(n+ 1)

4, varWS =

n(n+ 1)(2n + 1)

24.

2.WS − EWS√varWS

D−→ N(0, 1).

Poznámka.

• Předchozí tvrzení dává návod k nalezení kritických hodnot pro zamítánínulové hypotézy, které zaručují asymptotickou hladinu α.

• Hypotézu budeme zamítat pro příliš malé nebo příliš velké hodnoty WS .• Není-li n příliš velké, lze nalézt i přesné rozdělení testové statistiky WS

(numericky nebo v tabulkách).

Kritický obor (asymptotický test):

H0 zamítneme ⇔

∣∣∣WS − n(n+1)4

∣∣∣√

n(n+1)(2n+1)24

≥ u1−α/2.

Poznámka. Jednovýběrový Wilcoxonův test bere v úvahu i velikost odchylekod δ0, nikoli jen jejich znaménko (jako znaménkový test). Jeho síla pro testovánímediánu je obecně větší než síla znaménkového testu. Hladinu však dodržuje pouzetehdy, je-li rozdělení jednotlivých pozorování symetrické, zatímco znaménkový testžádný takový předpoklad nevyžaduje.

∗ Angl. one-sample Wilcoxon test, Wilcoxon signed rank test

61

Page 62: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.4 Jednovýběrové problémy

2.4.7 Jednovýběrový χ2 test na rozptyl

Model: F = N(µ, σ2), µ ∈ R, σ2 > 0Testovaný parametr: Rozptyl σ2X = varXi.

Hypotéza a alternativa:

H0 : σ2X = σ

20, H1 : σ

2X 6= σ20,

kde σ20 je předem daná konstanta.

Testová statistika:(n− 1)S2n

σ20,

kde S2n je výběrový rozptyl (viz definice 2.9).

Poznámka.

• Z věty 2.2 (bod 3) víme, že testová statistika má za platnosti modelu anulové hypotézy přesně rozdělení χ2n−1.

• Nulovou hypotézu budeme zamítat, pokud se výběrový rozptyl příliš liší odhypotetického rozptylu, tj. pokud je testová statistika buď moc velká nebomoc malá.

Kritický obor:

H0 zamítneme ⇔ (n− 1)S2nσ20

≤ χ2n−1(α/2) nebo(n− 1)S2n

σ20≥ χ2n−1(1− α/2),

kde χ2n−1(α/2) a χ2n−1(1 − α/2) jsou po řadě (α/2)-tý a (1 − α/2)-tý kvantil χ2

rozdělení s n− 1 stupni volnosti.

Poznámka. Jednovýběrový χ2 test rozptylu je přesný test. Vyžaduje normálnírozdělení pozorovaných dat.

P-hodnota: p = 2min(1 − Fn(s), Fn(s)), kde s je pozorovaná hodnota testovéstatistiky a Fn je distribuční funkce rozdělení χ2n−1.

Interval spolehlivosti pro σ2X : Z věty 2.2 lze odvodit interval spolehlivosti pro rozptylnormálního rozdělení. Dostaneme

P

[(n− 1)S2nχ2n−1(1− α

2 )< σ2X <

(n− 1)S2nχ2n−1(

α2 )

]= 1− α.

62

Page 63: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.5 Párové testy

V této kapitole uvažujeme náhodný výběr(X1Y1

), . . . ,

(Xn

Yn

)

dvousložkových náhodných vektorů s dvourozměrnou distribuční funkcí. Chcemeporovnat nějakou charakteristiku marginálního rozdělení FX náhodné veličiny Xi

se stejnou charakteristikou marginálního rozdělení FY náhodné veličiny Yi. Pozo-rování Xi a Yi ovšem nejsou nezávislá.Hlavní myšlenka párových testů je jednoduchá: Vezmeme rozdíly Zi = Xi − Yi

(jež tvoří náhodný výběr z nějakého jednorozměrného rozdělení) a na ně prove-deme vhodný jednovýběrový test. Musíme se však zamyslet na tím, jestli hypotézatestovaná jednovýběrovým testem provedeným na Zi má nějakou rozumnou inter-pretaci pro porovnání rozdělení Xi a Yi. Někdy tomu tak je, ale v řadě případůtaková interpretace neexistuje.Nechť například jednovýběrový test provedený na rozdíly Zi testuje střední

hodnotu, třeba H0 : EZi = 0. Tato hypotéza je splněna právě tehdy, když EXi =EYi a výsledný test tedy testuje rovnost středních hodnot Xi a Yi.U jiných charakteristik toto neplatí: testujeme-li nulovost mediánu Zi, nezna-

mená to bez dalších předpokladů, že se za platnosti této hypotézy rovnají mediányXi a Yi. Testovat rozptyl Zi nebo jeho distribuční funkci jednovýběrovým testempak neříká vůbec nic o tom, jak a v čem se liší rozdělení Xi od rozdělení Yi.

2.5.1 Párový t-test

Párový t-test∗ je ekvivalentní jednovýběrovému t-testu provedenému na rozdílyZi.Model: F = Zi = Xi − Yi ∼ N(µ, σ2), µ ∈ R, σ2 > 0Testované parametry: Střední hodnoty µX = EXi a µY = EYi.

Hypotéza a alternativa:

H0 : µX − µY = d0, H1 : µX − µY 6= d0,

kde d0 je předem daná konstanta (obvykle d0 = 0).

∗ Angl. paired t-test

63

Page 64: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.5 Párové testy

Testová statistika:

Tn =√nZn − d0

S(Z)n

,

kde Zn je aritmetický průměr rozdílů Zi (což je rovno Xn−Y n) a S(Z)n je výběrová

směrodatná odchylka rozdílů Zi.

Kritický obor:H0 zamítneme ⇔ |Tn| ≥ tn−1(1− α/2),

kde tn−1(1− α/2) je (1− α/2)-tý kvantil t-rozdělení s n− 1 stupni volnosti.P-hodnota: p = 2(1 − Fn(Tn)), kde Tn je pozorovaná hodnota testové statistiky aFn je distribuční funkce rozdělení tn−1.

Interval spolehlivosti pro µX − µY : Samostatné cvičení.

2.5.2 Párový z-test

Párový z-test je ekvivalentní jednovýběrovému z-testu provedenému na rozdíly Zi.Je to asymptotická verze párového t-testu na nenormální data.Model: F = Zi = Xi − Yi ∈ L2Testované parametry: Střední hodnoty µX = EXi a µY = EYi.

Hypotéza a alternativa:

H0 : µX − µY = d0, H1 : µX − µY 6= d0,

kde d0 je předem daná konstanta (obvykle d0 = 0).

Testová statistika:

Tn =√nZn − d0

S(Z)n

,

kde Zn je aritmetický průměr rozdílů Zi (což je rovno Xn−Y n) a S(Z)n je výběrová

směrodatná odchylka rozdílů Zi.

Kritický obor:H0 zamítneme ⇔ |Tn| ≥ tn−1(1− α/2),

kde tn−1(1− α/2) je (1− α/2)-tý kvantil t-rozdělení s n− 1 stupni volnosti.P-hodnota: p = 2(1 − Fn(Tn)), kde Tn je pozorovaná hodnota testové statistiky aFn je distribuční funkce rozdělení tn−1. Zde končí

přednáška 22

(20.12.)

64

Page 65: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.5 Párové testy

2.5.3 Párový znaménkový test

Model: F = všechna spojitá rozděleníTestovaný parametr: Medián mZ rozdílu Zi.

Hypotéza a alternativa:

H0 : mZ = 0, H1 : mZ 6= 0.

Poznámka. 1. Medián Zi obecně nelze vyjádřit pomocí mediánů Xi a Yi.2. H0 platí právě když P [Xi ≤ Yi] = P [Xi ≥ Yi] = 1/2, tj. Xi je s polovičnípravděpodobností větší než Yi a s poloviční pravděpodobností menší než Yi.

3. Má-li navíc Zi konečnou střední hodnotu a hustotu symetrickou kolem 0,pak musí platit EZi = EXi − EYi = 0. Za těchto dodatečných předpokladůje H0 ekvivalentní hypotéze o rovnosti středních hodnot Xi a Yi.

Testová statistika:

Yn =n∑

i=1

I(0,∞)(Zi)

(počet rozdílů větších než 0).

Kritický obor (přesný test): Viz jednovýběrový znaménkový test.

Kritický obor (asymptotický test):

H0 zamítneme ⇔∣∣∣∣2√nYn −√

n

∣∣∣∣ ≥ u1−α/2.

Poznámka. Výhodou párového znaménkového testu∗ je to, že nevyžaduje vyčís-lení rozdílu mezi Xi a Yi. Stačí informace o tom, že Xi je „lepšíÿ než Yi, resp.Xi je „horšíÿ než Yi. Tento test je vhodný pro aplikace, v nichž může být určeníkonkrétních hodnot Xi a Yi problematické.

2.5.4 Párový Wilcoxonův test

Model: F = Zi má spojité rozdělení s konečnou střední hodnotou a s hustotou fsplňující ∃δ ∈ R : f(δ − x) = f(δ + x) ∀x ∈ R

Poznámka. Na rozdíl od jednovýběrového Wilcoxonova testu u párového testu†

vyžadujeme, aby rozdíly Zi = Xi−Yi měly konečnou střední hodnotu. Předpoklado symetrické hustotě se týká rozdílů Zi, nikoli původních pozorování Xi a Yi. Vmodelu F musí platit EZi = EXi − EYi = δX .

∗ Angl. paired sign test † Angl. paired Wilcoxon test, Wilcoxon signed rank test

65

Page 66: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.5 Párové testy

Testované parametry: Střední hodnoty µX = EXi a µY = EYi.

Hypotéza a alternativa:

H0 : µX − µY = δ0, H1 : µX − µY 6= δ0,

kde δ0 je předem daná konstanta (obvykle δ0 = 0).

Testová statistika:WS =

i∈I

Ri,

kde I ⊂ 1, . . . , n je množina všech indexů takových, že Z∗idf= Xi − Yi − δ0 má

kladné znaménko pro i ∈ I, a R1 < R2 < · · · < Rn jsou pořadí náhodných veličin|Z∗

i | mezi všemi |Z∗1 | , . . . , |Z∗

n|.Vlastnosti testové statistiky a kritický obor: viz jednovýběrový Wilcoxonův test.

66

Page 67: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.6 Dvouvýběrové problémy

Nyní budeme řešit situace, kdy máme k dispozici dva nezávislé náhodné výběry:X1, . . . ,Xn je náhodný výběr s distribuční funkcí FX a Y1, . . . , Ym je náhodnývýběr s distribuční funkcí FY . Model F specifikuje množinu uvažovaných distri-bučních funkcí FX a FY . Máme daný parametr θ = t(F ), jehož hodnotu chcemepro oba výběry porovnat. Označme si θX = t(FX) a θY = t(FY ). Obvykle chcemetestovat hypotézu H0 : θX = θY proti alternativě H1 : θX 6= θY , případně sestrojitintervalový odhad pro rozdíl θX − θY .Existuje ještě druhý způsob, jak zformulovat dvouvýběrový problém. Před-

stavme si, že pozorujeme náhodný výběr z dvourozměrného rozdělení(Z1G1

), . . . ,

(ZN

GN

),

kde Zj jsou hodnoty nezávislých stejně rozdělených měření a Gj má alternativnírozdělení s parametrem pG ∈ (0, 1). Indikátor Gj určuje, do které z porovnávanýchskupin j-té pozorování patří (jestliže Gj = 0, pak do první skupiny, jinak dodruhé). Přeznačíme-li si měření Zj na Xi anebo Yi podle toho, do jaké skupinydané pozorování patří

(X1, . . . ,Xn)df= (Zj : Gj = 0) a (Y1, . . . , Ym)

df= (Zj : Gj = 1),

získáme první formulaci problému (dva nezávislé výběry). Chceme porovnat pod-míněné rozdělení Zj v obou skupinách, tj. zajímají nás podmíněné distribučnífunkce FX(x) = P [Zj ≤ x | Gj = 0 ] a FY (x) = P [Zj ≤ x | Gj = 1 ], případně je-jich parametry θX = t(FX) a θY = t(FY ).Data podle první formulace získáme obvykle tak, že si předem stanovíme, ko-

lik měření z každě skupiny chceme mít, a pak napozorujeme příslušný počet ve-ličin pro každou skupinu zvlášť. Data podle druhé formulace vzniknou, pokudstanovíme celkový počet pozorování N = n +m, učiníme N pozorování a u kaž-dého pozorování teprve dodatečně určíme, do které skupiny patří. Obě formulacejsou ekvivalentní, až na to, že u první formulace jsou m a n pevná čísla, za-tímco u druhé formulace jsou m a n náhodné veličiny s binomickým rozdělením(n =

∑Nj=1(1 − Gj) ∼ Bi(N, 1 − pG)). U druhé formulace se snáze používají

asymptotické výsledky pro N → ∞. Chceme-li používat asymptotické metody

67

Page 68: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.6 Dvouvýběrové problémy

u první formulace, musíme mít n → ∞ i m → ∞, ale navíc ještě musíme před-pokládat, že n/m → q, kde 0 < q < ∞ (tj. rozsahy obou výběrů konvergují donekonečna stejně rychle).Všechny metody uváděné v této kapitole se hodí pro obě formulace dvouvýbě-

rového problému.

2.6.1 Dvouvýběrový Kolmogorovovův-Smirnovův test

Model: F = všechna spojitá rozděleníTestované parametry: celé distribuční funkce FX a FY

Hypotéza a alternativa:

H0 : FX(x) = FY (x) ∀x ∈ R, H1 : ∃x ∈ R : FX(x) 6= FY (x).

Testujeme, zdali oba výběry pocházejí z téhož rozdělení.

Testová statistika:Kn,m = sup

x∈R

∣∣∣FX(x)− FY (x)∣∣∣ ,

kde FX je empirická distribuční funkce náhodného výběru X1, . . . ,Xn a FY jeempirická distribuční funkce náhodného výběru Y1, . . . , Ym.

Tvrzení 2.12. Nechť X1, . . . ,Xn a Y1, . . . , Ym jsou nezávislé náhodné výběry zespojitého rozdělení s distribuční funkcí F0. Pak platí

P

[√mn

n+mKn,m ≤ x

]→ 1− 2

∞∑

k=1

(−1)k+1e−2k2x2 pro m,n→ ∞.

Poznámka.

• Nulovou hypotézu budeme zamítat, pokud se empirické distribuční funkceobou výběrů od sebe příliš liší, tj. pokud je testová statistika velká.

• Tvrzení 2.12 implikuje, že za platnosti nulové hypotézy konverguje√

mnn+mKn,m

v distribuci k náhodné veličině s distribuční funkcí 1−2∑∞k=1(−1)k+1e−2k

2x2

(stejná, jako u jednovýběrového Kolmogorovova-Smirnovova testu). To námumožní určit kritickou hodnotu pro zamítání H0, aby měl test asymptotickouhladinu α (musí se spočítat numericky).

Kritický obor:

H0 zamítneme ⇔√

mn

n+mKn,m ≥ cα,

68

Page 69: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.6 Dvouvýběrové problémy

kde cα je konstanta splňující rovnost

2∞∑

k=1

(−1)k+1e−2k2c2α = α.

Poznámka.

• Je možné spočítat i přesnou kritickou hodnotu dvouvýběrového Kolmogorovova-Smirnovova testu pro spojitá rozdělení s malými rozsahy výběru n, m.

• Výhodou tohoto testu je jeho universalita (reaguje na jakýkoli rozdíl v rozdě-leních obou skupin) a absence omezujících předpokladů. Nevýhodou tohototestu je, že má malou sílu proti specifickým druhům porušení H0. Zajímá-linás pouze určitý typ porušení H0 (třeba rozdíl ve střední hodnotě), musímepoužít test, který je zaměřen na tento konkrétní parametr.

2.6.2 Dvouvýběrový t-test

Model:

F = FX = N(µX , σ2), FY = N(µY , σ

2), µX , µY ∈ R, σ2 > 0

Oba výběry mají normální rozdělení s totožným rozptylem, mohou se lišit pouzestřední hodnotou.

Testované parametry: Střední hodnoty µX = EXi a µY = EYi

Hypotéza a alternativa:

H0 : µX = µY , H1 : µX 6= µY .

Testujeme, zdali mají oba výběry stejnou střední hodnotu.

Testová statistika:

Tn,m =

√mn

n+m

Xn − Y m

Sn,m,

kde Xn a Y m jsou aritmetické průměry obou výběrů a

S2n,mdf=

1

n+m− 2

[ n∑

i=1

(Xi −Xn)2 +

m∑

j=1

(Yj − Y m)2

]

=n− 1

n+m− 2S2X +

m− 1n+m− 2S

2Y

je nestranný odhad společného rozptylu σ2 spočítaný z obou výběrů (vážený prů-měr obou výběrových rozptylů).

69

Page 70: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.6 Dvouvýběrové problémy

Věta 2.13. Nechť X1, . . . ,Xn a Y1, . . . , Ym jsou nezávislé náhodné výběry z nor-málních rozdělení se středními hodnotami µX a µY a se shodným rozptylem. Pak

Tdf=

√mn

n+mXn − Y m − (µX − µY )

Sn,m∼ tn+m−2

Poznámka.

• Hypotézu budeme zamítat, pokud se výběrové průměry obou skupin od sebepříliš liší, tj. pokud je testová statistika buď moc velká nebo moc malá.

• Věta 2.13 implikuje, že za platnosti modelu F a hypotézy H0 má Tn,m roz-dělení tn+m−2.

Kritický obor:H0 zamítneme ⇔ |Tn,m| ≥ tn+m−2(1− α/2),

kde tn+m−2(1−α/2) je (1−α/2)-tý kvantil t-rozdělení s n+m−2 stupni volnosti.

Poznámka.

• Dvouvýběrový t-test∗ je přesný test zaměřený na střední hodnotu. Vyžadujenormální rozdělení pozorovaných dat a shodný rozptyl v obou výběrech.

• Nemají-li data normální rozdělení, věta 2.13 platí přibližně pro m,n → ∞.Nemají-li data shodný rozptyl, věta 2.13 neplatí a test nemá správnou hla-dinu ani asymptoticky.

P-hodnota: p = 2(1−F (Tn,m)), kde Tn,m je pozorovaná hodnota testové statistikya F je distribuční funkce rozdělení tn+m−2.

Interval spolehlivosti pro µX − µY : Z věty 2.13 lze odvodit přesný interval spoleh-livosti pro rozdíl středních hodnot obou výběrů. Dostaneme

P

[Xn − Y m − Sn,m

√1

n+1

mtn+m−2(1− α/2) < µX − µY <

Xn − Y m + Sn,m

√1

n+1

mtn+m−2(1 − α/2)

]= 1− α.

Zde končí

přednáška 23

(3.1.)2.6.3 Dvouvýběrový z-test

Model:F = FX , FY jsou spojité s konečnými rozptyly

Testované parametry: Střední hodnoty µX = EXi a µY = EYi

∗ Angl. two-sample t-test

70

Page 71: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.6 Dvouvýběrové problémy

Hypotéza a alternativa:

H0 : µX = µY , H1 : µX 6= µY .

Testujeme, zdali mají oba výběry stejnou střední hodnotu.

Testová statistika:

Zn,m =Xn − Y m√S2X/n+ S

2Y /m

,

kde Xn, Y m jsou aritmetické průměry obou výběrů a S2X , S2Y jsou výběrové roz-

ptyly.

Věta 2.14. Nechť X1, . . . ,Xn a Y1, . . . , Ym jsou nezávislé náhodné výběry z roz-dělení se středními hodnotami µX a µY a konečnými rozptyly. Pak

Zdf=Xn − Y m − (µX − µY )√

S2X/n+ S2Y /m

D−→ N(0, 1)

Poznámka.

• Hypotézu budeme zamítat, pokud se výběrové průměry obou skupin od sebepříliš liší, tj. pokud je testová statistika buď moc velká nebo moc malá.

• Věta 2.14 implikuje, že za platnosti modelu F a hypotézy H0 má Zn,m

asymptoticky rozdělení N(0, 1).

Kritický obor:H0 zamítneme ⇔ |Zn,m| ≥ u1−α/2,

kde u1−α/2 je (1− α/2)-tý kvantil normovaného normálního rozdělení.

Poznámka. Dvouvýběrový z-test je asymptotický test zaměřený na střední hod-notu. Na rozdíl od dvouvýběrového t-testu nevyžaduje ani normální rozdělenípozorovaných dat ani shodný rozptyl v obou výběrech.

P-hodnota: p = 2(1−Φ(Zn,m)), kde Zn,m je pozorovaná hodnota testové statistikya Φ je distribuční funkce rozdělení N(0, 1).

Interval spolehlivosti pro µX − µY : Z věty 2.14 lze odvodit přibližný interval spo-lehlivosti pro rozdíl středních hodnot obou výběrů. Dostaneme

P

[Xn − Y m −

√S2Xn+S2Ym

u1−α/2 < µX − µY <

Xn − Y m +

√S2Xn+S2Ym

tn+m−2u1−α/2

]→ 1− α.

71

Page 72: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.6 Dvouvýběrové problémy

Poznámka. Existují i lepší aproximace kritických hodnot pro tento test, založenéna t-rozdělení s počtem stupňů volnosti, který závisí na počtu pozorování v obouskupinách a výběrových rozptylech. Takových aproximací je několik∗. Jedna z va-riant této aproximace, tzv. Welchův test†, je implementována v R jako standardnímetoda testování rovnosti středních hodnot dvou výběrů (funkce t.test). Wel-chův test je vlastně náš dvouvýběrový z-test s vylepšenými kritickými hodnotami.

2.6.4 Dvouvýběrový Wilcoxonův test

Model: F = X a Ymají libovolná spojitá rozděleníTestovaný parametr: P [Xi < Yj].

Hypotéza a alternativa:

H0 : P [Xi < Yj] = 1/2, H1 : P [Xi < Yj ] 6= 1/2.Poznámka.

• Hypotéza H0 je podobná hypotéze párového znaménkového testu. Ani zde jinelze bez dalších předpokladů vyjádřit pomocí rovnosti charakteristik obourozdělení. Dvouvýběrový Wilcoxonův test proto obecně není ani test na rov-nost mediánů ani test na rovnost středních hodnot. Může se totiž stát,že EXi = EYj, ale P [Xi < Yj ] 6= 1/2 anebo naopak, že EXi 6= EYj , aleP [Xi < Yj] = 1/2.

• Na rozdíl od jednovýběrového a párového Wilcoxonova testu nevyžadujemesymetrii hustoty.

• Omezíme-li se na menší model

F∗ = X ∼ FX , Y ∼ FY , kde FX(x) = FY (x− δ) pro nějaké δ ∈ R

a FX je libovolná spojitá d.f.(tzv. model posunutí v poloze), pak je H0 ekvivalentní hypotézám H∗

0 : δ =0, H∗∗

0 : EX = EY a H∗∗∗0 : mX = mY . To jest, v tomto zúženém modelu

dvouvýběrový Wilcoxonův test‡ testuje jak rovnost středních hodnot takrovnost mediánů. Všimněte si, že model F∗ implikuje, že rozptyly X a Ymusejí být totožné.

Testová statistika:

Wn,m =n∑

i=1

Ri,

kde R1, R2, . . . , Rn jsou pořadí náhodných veličin Xi ve spojeném náhodném vý-běru X1, . . . ,Xn, Y1, . . . , Ym.∗ lze je nalézt např. v knize Anděl: Statistické metody, Matfyzpress, Praha, 1998, kap. 8.1.† Angl. Welch test ‡ Angl. two-sample Wilcoxon test

72

Page 73: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.6 Dvouvýběrové problémy

Poznámka. Testová statistika Wn,m může nabývat hodnot n(n+1)/2, . . . ,mn+n(n+ 1)/2. Spočítá se následujícím způsobem:

1. Vezmeme spojený výběr (Z1, . . . , Zn+m)df= (X1, . . . ,Xn, Y1, . . . , Ym).

2. Seřadíme všechny Zj nejmenší do největší; získáme uspořádaný výběr

Z(1) < Z(2) < · · · < Z(n+m).

3. Určíme pořadí Ri náhodné veličiny Xi mezi všemi Z(1), . . . , Z(n+m). PlatíXi = Z(Ri).

4. Sečteme pořadí Ri pro i = 1, . . . , n.

Tvrzení 2.15. Platí-li model F a hypotéza H0, pak

1.

EWm,n =n(m+ n+ 1)

2, varWm,n =

mn(m+ n+ 1)

12.

2. Pokud m,n→ ∞,Wm,n − EWm,n√varWm,n

D−→ N(0, 1).

Poznámka.

• Hypotézu budeme zamítat pro příliš malé nebo příliš velké hodnoty Wm,n.• Předchozí tvrzení dává návod k nalezení kritických hodnot pro zamítánínulové hypotézy, které zaručují asymptotickou hladinu α.

• Nejsou-li m a n příliš velká, lze nalézt i přesné rozdělení testové statistikyWm,n (numericky nebo v tabulkách).

Kritický obor (asymptotický test):

H0 zamítneme ⇔

∣∣∣Wm,n − n(m+n+1)2

∣∣∣√

mn(m+n+1)12

≥ u1−α/2.

Mann-Whitneyho formulace Wilcoxonova testu

Uvažujme všechny dvojice (Xi, Yj) pro i = 1, . . . , n a j = 1, . . . ,m. Spočtěme,kolik z nich splňuje podmínku Xi < Yj :

W ∗n,m =

n∑

i=1

m∑

j=1

IXi<Yj.

73

Page 74: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.6 Dvouvýběrové problémy

Náhodná veličina W ∗n,m, tzv. Mann-Whitneyho statistika, může nabývat hodnot

0, . . . , nm. Lze ukázat, že mezi dvouvýběrovou Wilcoxonovou statistikou Wn,m aMann-Whitneyho statistikou W ∗

n,m je deterministický lineární vztah:

Wn,m +W∗n,m = mn+

m(m+ 1)2

.

K provedení dvouvýběrového Wilcoxonova testu tedy můžeme použít i Mann-Whitneyho statistiku, pouze musíme poupravit původní kritické hodnoty. Testyzaložené na dvouvýběrové Wilcoxonově statistice a Mann-Whitneyho statisticejsou ekvivalentní, jeden z nich zamítá hypotézu tehdy a jen tehdy, zamítá-li druhý.Mann-Whitneyho statistika lépe ukazuje, jakou hypotézu vlastně dvouvýběrový

Wilcoxonův test testuje: je vidět, že W ∗n,m/nm je nestranným (a konsistentním)

odhadem parametru P [Xi < Yj ]. Mann-Whitneyho statistika bude nabývat hod-not uprostřed svého rozmezí, pokud P [Xi < Yj] ≈ 1/2, a hodnot na krajích (kterévedou k zamítnutí H0), pokud P [Xi < Yj ]≪ 1/2 nebo P [Xi < Yj]≫ 1/2.

2.6.5 Dvouvýběrový F test na rozptyl

Model: F = Xi ∼ N(µX , σ2X), Yi ∼ N(µY , σ

2Y ), µX , µY ∈ R, σ2X > 0, σ2Y > 0

Testované parametry: Rozptyly σ2X = varXi a σ2Y = var Yj.

Hypotéza a alternativa:

H0 : σ2X = σ

2Y , H1 : σ

2X 6= σ2Y .

Testová statistika:

Fn,m =S2XS2Y

,

kde S2X je výběrový rozptyl výběru X1, . . . ,Xn a S2Y je výběrový rozptyl výběruY1, . . . , Yn.

Věta 2.16. Nechť platí model F , nechť σ2X , σ2Y jsou skutečné rozptyly a S2X , S2Yjsou výběrové rozptyly obou výběrů. Pak platí

σ2Yσ2X

S2XS2Y

∼ Fn−1,m−1.

Poznámka.

• Z předchozí věty víme, že testová statistika má za platnosti modelu a nulovéhypotézy přesně rozdělení Fn−1,m−1.

• Nulovou hypotézu budeme zamítat, pokud se výběrové rozptyly příliš liší,tj. pokud je testová statistika buď moc velká nebo moc malá.

74

Page 75: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.6 Dvouvýběrové problémy

Kritický obor:

H0 zamítneme ⇔ Fn,m ≤ Fn−1,m−1(α/2) nebo Fn,m ≥ Fn−1,m−1(1− α/2),

kde Fn−1,m−1(α/2) a Fn−1,m−1(1 − α/2) jsou po řadě (α/2)-tý a (1 − α/2)-týkvantil F rozdělení s n− 1 a m− 1 stupni volnosti.

Poznámka. Dvouvýběrový F test na rozptyl je přesný test. Vyžaduje normálnírozdělení v obou výběrech.

P-hodnota: p = 2min(1−F (s), F (s)), kde s je pozorovaná hodnota testové statis-tiky a F je distribuční funkce rozdělení Fn−1,m−1.

Interval spolehlivosti pro σ2X/σ2Y : Z věty 2.16 lze odvodit interval spolehlivosti pro

podíl rozptylů. Dostaneme

P

[S2XS2Y

1

Fn−1,m−1(1− α2 )

< σ2X/σ2Y <

S2XS2Y

1

Fn−1,m−1(α2 )

]= 1− α.

Zde končí

přednáška 24

(6.1.)

75

Page 76: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.7 Analýza rozptylu

Dvouvýběrové testy se hodí, chceme-li zjistit, jestli se dvě disjunktní skupiny nezá-vislých pozorování liší v nějaké charakteristice, nejčastěji ve střední hodnotě. Jakale porovnat střední hodnoty, je-li skupin více? Tento problém budeme studovatnyní.Máme tedy k ≥ 2 nezávislých náhodných výběrů

Y11, . . . , Y1n1 z rozdělení F1,

Y21, . . . , Y2n2 z rozdělení F2,

...

a Yk1, . . . , Yknkz rozdělení Fk.

Pozorování označujeme Yij, kde i je číslo výběru jdoucí od 1 do k a j je indexpozorování v rámci daného výběru běžící od 1 do ni, kde ni je rozsah i-téhovýběru.Model F specifikuje množinu uvažovaných distribučních funkcí F1, . . . , Fk. Pa-

rametrem, který chceme porovnat, budiž střední hodnota. Označme si µi = EYij

střední hodnotu i-tého výběru. Chceme testovat hypotézu

H0 : µ1 = · · · = µk

proti alternativěH1 : ∃i 6= j : µi 6= µj .

Kdybychom si vybrali pouze dvě skupiny i a j, mohli bychom porovnat jejichstřední hodnoty třeba dvouvýběrovým t-testem nebo z-testem. Člověka by snadnonapadlo, že by mohl provést dvouvýběrové testy pro všechny možné dvojice sku-pin a otestovat tak všechny hypotézy H ij

0 : µi = µj. Pokud by některý test zamítlH ij0 na hladině α, pak si střední hodnoty všech výběrů nemohou být rovny. Tetnopřístup však nefunguje, neboť, jak lze snadno nahlédnout, celková pravděpodob-nost zamítnutí platné H0 by byla mnohem větší než ono α, na němž provádímejednotlivé dvouvýběrové testy. Proto potřebujeme vyvinout alternativní metodu,která zaručí dodržení požadované hladiny. Metoda, kterou si nyní ukážeme, senazývá analýza rozptylu∗. Vlastně půjde o nejjednodušší speciální případ analýzyrozptylu, tzv. jednoduché třídění.

∗ Angl. analysis of variance, ANOVA

76

Page 77: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.7 Analýza rozptylu

Model:F = Fi = N(µi, σ

2), µi ∈ R, i = 1, . . . , k, σ2 > 0Všechny výběry mají mít normální rozdělení s totožným rozptylem, mohou se lišitpouze střední hodnotou.

Testované parametry: Střední hodnoty µi = EYij

Hypotéza a alternativa:

H0 : µ1 = · · · = µk, H1 : ∃i 6= j : µi 6= µj .

Testujeme, zdali mají všechny výběry stejnou střední hodnotu.

Značení. Označme n =∑k

i=1 ni. Nechť Yi·df=∑ni

j=1 Yij a Y i·df= n−1i

∑nij=1 Yij

jsou součty a průměry jednotlivých výběrů, nechť Y··df=∑k

i=1

∑nij=1 Yij je celkový

součet a Y ··df= n−1

∑ki=1

∑nij=1 Yij je celkový průměr.

Definice 2.18. Součty čtverců v analýze rozptylu

• SSCdf=∑k

i=1

∑nij=1(Yij − Y ··)2 nazýváme celkový součet čtverců∗.

• SSAdf=∑k

i=1 ni(Y i· − Y ··)2 nazýváme součet čtverců skupin†.

• SSedf=∑k

i=1

∑nij=1(Yij − Y i·)2 nazýváme residuální součet čtverců‡.

Poznámka. PlatíSSC = SSA + SSe.

Jelikož Y i· je odhadem µi a Y ·· je odhadem celkové střední hodnoty (za H0), budeza platnosti hypotézy SSA malé vzhledem k SSe. Pokud je SSA velké vzhledem kSSe, znamená to, že se průměry jednotlivých skupin od sebe příliš liší a hypotézuo rovnosti středních hodnot bychom měli zamítat.

Věta 2.17 (rozdělení součtů čtverců). Za platnosti modelu F máme1.

SSe

σ2∼ χ2n−k, E

SSe

n− k= σ2.

2. Platí-li navíc hypotéza H0, pak

SSC

σ2∼ χ2n−1, E

SSC

n− 1 = σ2.

3. Platí-li navíc hypotéza H0, pak

SSA

σ2∼ χ2k−1, E

SSA

k − 1 = σ2.

∗ Angl. total sum of squares † Angl. between group sum of squares ‡ Angl. residual sum ofsquares, error sum of squares

77

Page 78: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.7 Analýza rozptylu

4. Platí-li navíc hypotéza H0, pak SSA a SSe jsou nezávislé.

Poznámka. SSen−k je nestranný odhad rozptylu (bez ohledu na platnost hypotézy).

SSAk−1 je nestranný odhad rozptylu pouze za hypotézy, jinak má kladné vychýlení(SSA bude příliš velké). Za testovou statistiku vezmeme podíl těchto dvou odhadůrozptylu. Tato metoda se nazývá analýza rozptylu kvůli tomu, jakým způsobemje sestavena testová statistika, nikoli proto, že bychom chtěli testovat rozptyl.

Testová statistika:

FA =SSA

k − 1

/SSe

n− k

Věta 2.18. Za platnosti modelu F a hypotézy H0 platí FA ∼ Fk−1,n−k.

Kritický obor:H0 zamítneme ⇔ FA ≥ Fk−1,n−k(1− α)

kde Fk−1,n−k(1−α) je (1−α)-tý kvantil F rozdělení s k−1 a n−k stupni volnosti.

Poznámka. F test analýzy rozptylu je přesný test rovnosti středních hodnot vk ≥ 2 nezávislých výběrech. Vyžaduje normální rozdělení a stejný rozptyl ve všechvýběrech.

P-hodnota: p = 1− F ∗(s), kde s je pozorovaná hodnota testové statistiky a F ∗ jedistribuční funkce rozdělení Fk−1,n−k.

Poznámka. Výsledky analýzy rozptylu se tradičně uvádějí formou tabulky.

Zdroj Součet Stupňůměnlivosti čtverců volnosti

Podíl F

Skupina SSA k − 1 SSAk−1

SSAk−1

/SSen−k

Residuální SSe n− k SSen−k

Celkový SSC n− 1

Poznámka. Pokud k = 2, analýza rozptylu je ekvivalentní dvouvýběrovému t-testu. Lze ukázat, že FA = T 2n1,n2 a F1,n−2(1− α) = t2n−2(1− α/2).

Zde končí

přednáška 25

(10.1.)

78

Page 79: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.8 Základy regrese

Lineární regrese zkoumá vztah mezi spojitou veličinou Y a vektorem X, kterýmůže obsahovat jednu nebo více spojitých či diskrétních veličin. Předpokládáme,že hodnota vektoru X může ovlivňovat střední hodnotu Y , ale nikoli rozptyl Y .Zajímá nás, které komponenty X ovlivňují EY a jakým způsobem. Můžeme takéchtít předpovídat Y pro danou hodnotu X.Data se sestávají z n nezávislých pozorování vektorů (Yi,Xi), i = 1, . . . , n, kde

každé Xi má p < n složek (Xi1, . . . ,Xip).

Terminologie.

• Náhodnou veličinu Yi nazýváme odezva. Alternativní název: závisle pro-měnná∗.

• Komponenty náhodného vektoru Xi nazýváme regresory. Alternativní ná-zvy: nezávisle proměnné, vysvětlující veličiny, prediktory, kovariáty†.

Poznámka. Původní data nemusí obsahovat přímo pozorování náhodných vek-torůXi, ale nějaké jiné veličiny Zi = (Zi1, . . . , Ziq)T, z nichžXi spočítáme nějakoutransformacíXi = h(Zi). Jedním z problémů, které regresní analýza řeší, je určenívhodné transformace h původních dat Zi. My se tu ale tímto problémem zabývatnebudeme. Budeme předpokládat, že máme dány konkrétní již ztransformovanéregresory Xi.

2.8.1 Model lineární regrese

Definice 2.19. Řekneme, že data (Yi,Xi), i = 1, . . . , n, splňují lineární regresnímodel‡, pokud platí

Yi = β1Xi1 + β2Xi2 + · · ·+ βpXip + εi, (2.1)

kde β = (β1, . . . βp)T je vektor neznámých parametrů a ε1, . . . , εn jsou nezávislénáhodné veličiny splňující E εi = 0, var εi = σ2. Složky vektoru β nazýváme re-gresní koeficienty§, náhodné veličiny εi nazýváme residua¶.

∗ Angl. response, dependent variable, outcome † Angl. regressors, independent variable, ex-

planatory variable, predictors, covariates ‡ Angl. linear regression model § Angl. regression

coefficients ¶ Angl. residuals

79

Page 80: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.8 Základy regrese

Poznámka. V regresní analýze většinou volíme Xi1 = 1 pro všechna i. Parametrβ1 pak nazýváme absolutní člen∗. Speciální případ lineárního regresního modelu,kde p = 2 a Xi1 = 1 (tj. Yi = β1 + β2Xi2 + εi) nazýváme jednoduchá lineárníregrese. Parametr β2 se pak nazývá směrnice regresní přímky†.

Model 2.1 můžeme přepsat několika dalšími způsoby. Například pomocí podmí-něných momentů:

E (Yi | Xi ) = β1Xi1 + β2Xi2 + · · · + βpXip

var (Yi | Xi ) = σ2

Tento zápis zdůrazňuje, že lineární regresní model vyjadřuje podmíněnou středníhodnotu Yi, je-li dáno Xi, pomocí lineárního vztahu a předpokládá, že rozptyl Yi

je konstatní a nezávisí na Xi.

Značení. Nechť Y = (Y1, . . . , Yn)T, ε = (ε1, . . . , εn)T a

X =

XT1

XT2...

XTn

.

Matice X se nazývá regresní matice; má n řádků a p sloupců.

Regresní matice obsahuje v řádcích regresory jednotlivých pozorování. Budemepředpokládat, že X má plnou hodnost, tj. r(X) = p čili sloupce matice X jsoulineárně nezávislé. Model 2.1 nyní můžeme přepsat vektorově:

Y = Xβ + ε,

kde E ε = 0 a var ε = σ2Ip.

Interpretace parametrů regresního modelu

Podívejme se nejprve na parametry jednoduché lineární regrese E (Yi | Xi ) = β1+β2Xi. Máme β1 = E (Yi | Xi = 0 ), tj. absolutní člen vyjadřuje střední hodnotu Yi

pro pozorování s nulovým regresorem. Dále,

β2 = E (Yi | Xi = x+ 1 )− E (Yi | Xi = x ) ,

čili směrnice β2 vyjadřuje rozdíl ve střední hodnotě EYi po zvýšení regresoru Xi ojednu jednotku. Je-li β2 = 0, znamená to, že regresor neovlivňuje střední hodnotu(ani rozptyl) Yi.

∗ Angl. intercept † Angl. slope

80

Page 81: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.8 Základy regrese

V obecné lineární regresi je to podobné. Model je E (Yi | Xi ) = β1 + β2Xi2 +β3Xi3+· · ·+βpXip. Máme β1 = E (Yi | Xi = 0 ), tj. absolutní člen vyjadřuje středníhodnotu Yi pro pozorování s nulovou hodnotou všech regresorů. Podívejme se nynína parametr β2. Dostaneme

β2 = E (Yi | Xi2 = x+ 1,Xi3 = x3, . . . ,Xip = xp )−E (Yi | Xi2 = x,Xi3 = x3, . . . ,Xip = xp )

čili parametr β2 vyjadřuje rozdíl ve střední hodnotě EYi po zvýšení regresoruXi2 o jednu jednotku, přičemž všechny ostatní regresory zůstávají konstantní. Jdetedy o efekt regresoru Xi2 očištěný od vlivu všech ostatních v modelu přítomnýchregresorů. Je-li β2 = 0, znamená to, že kdyby ostatní regresory byly v celé populacikonstantní, neměl by regresor Xi2 žádný vliv na střední hodnotu (ani rozptyl) Yi.∗

2.8.2 Odhady metodou nejmenších čtverců

Nechť β je nějaký odhad vektoru parametrů β. Označme Y = Xβ odhadnutéstřední hodnoty odezvy, tj.

Yi = β1Xi1 + β2Xi2 + · · ·+ βpXip =XT

i β.

Odhad β vybereme tak, aby vektor Y byl co nejblíže vektoru Y v euklidovskévzdálenosti, tj.

β = arg minβ∈Rp

n∑

i=1

(Yi − XT

i β)2.

Definice 2.20. Tento odhad β nazýváme odhad metodou nejmenších čtverců†.

Funkci, kterou minimalizujeme, lze přepsat jako

n∑

i=1

(Yi − XT

i β)2 = (Y −Xβ)T(Y −Xβ).

Vyjádření pro odhad β dostaneme snadno pomocí maticových derivací:

∂β(Y −Xβ)T(Y −Xβ) = −XT(Y −Xβ)−[(Y −Xβ)TX] = −2(XTY −XTXβ).

Položíme-li derivaci rovnou nule, zjistíme, že β řeší soustavu p lineárních rovnic op neznámých

(XTX)β = XTY .

∗Xi2 však může mít vliv na EYi, který je zcela zprostředkován závislostí mezi Xi2 a ostatními

regresory. † Angl. least squares estimator

81

Page 82: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.8 Základy regrese

Řešení musí být globálním minimem, protože minimalizovaná funkce je konvexnív β. Jelikož matice X měla mít plnou hodnost p, matice XTX (čtvercová, p× p)má také plnou hodnost p a tudíž existuje právě jedno řešení dané soustavy

β = (XTX)−1XTY .

Poznámka.

1. Vektor Y = Xβ = X(XTX)−1XTY nazýváme vektorem odhadnutých (vy-rovnaných) hodnot odezvy∗. Je to lineární kombinace původních pozorováníY .

2. Matice Hdf= X(XTX)−1XT je idempotentní. Platí Y = HY a HY =

HHY = Y . Matice H je čtvercová n× n, její hodnost je p.

3. Čtvercová matice In −H = In −X(XTX)−1XT je také idempotentní. Jejíhodnost je n− p.

Definice 2.21.

• Náhodný vektor udf= Y − Y = (In −H)Y se nazývá vektor residuí†. Jeho

prvek ui = Yi − Yi = Yi − XTi β se nazývá residuum.

• Náhodná veličina

SSedf= uTu =

n∑

i=1

(Yi − XT

i β)2

se nazývá residuální součet čtverců‡. Je to vlastně minimalisovaný součetčtverců odchylek.

Věta 2.19 (Vlastnosti odhadu metodou nejmenších čtverců).

1. β je nestranný odhad, E β = β

2. var β = σ2(XTX)−1

3. Jsou-li (Yi,Xi) nezávislé a stejně rozdělené náhodné vektory, pak β je kon-sistentní odhad β a

√n(β − β)

D−→ Np(0, σ2(EXiX

T

i )−1)

Nyní začneme předpokládat normalitu a dokážeme několik dalších užitečnýchvlastností.

∗ Angl. fitted values † Angl. residuals ‡ Angl. residual sum of squares

82

Page 83: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

2.8 Základy regrese

Věta 2.20. Nechť v modelu (2.1) navíc platí ε ∼ Nn(0, σ2In). Pak

SSe

σ2∼ χ2n−p.

Poznámka.

• Z věty 2.20 plyne, že SSen−p je nestranný a konsistentní odhad rozptylu σ

2

(bez předpokladu normality by byl tento odhad konsistentní, nikoli všaknestranný).

• Věta 2.20 může být použita i ke konstrukci intervalu spolehlivosti pro σ2.• Za předpokladu normality lze dokázat, že β a SSe jsou nezávislé.

Věta 2.21. Nechť v modelu (2.1) navíc platí ε ∼ Nn(0, σ2In). Nechť c je libovolnýp-rozměrný vektor reálných konstant. Pak

cTβ − cTβ√SSen−pcT(XTX)−1c

∼ tn−p

Poznámka. Věta 2.21 se používá k testování hypotéz o parametrech a lineárníchkombinacích parametrů a ke konstrukci intervalů spolehlivosti. Chceme-li napří-klad otestovat hypotézu H0 : βj = 0, zvolíme c = ej (vektor nul kromě j-tého

prvku, který je 1). Dostaneme cTβ = βj , cTβ = βj a cT(XTX)−1c = vj , kde vj

je j-tý diagonální prvek matice (XTX)−1. Použijeme testovou statistiku

Tj =βj√SSen−pvj

,

která má za platnosti H0 : βj = 0 rozdělení tn−p. H0 budeme zamítat na hladiněα, pokud |Tj | ≥ tn−p(1− α/2).Chceme-li testovat hypotézu H0 : β2 = β3, zvolíme c = (0, 1,−1, 0, . . . , 0)T a

dále postupujeme stejně.Interval spolehlivosti pro βj s pravděpodobností pokrytí 1− α by vyšel

βj ∓ tn−p(1− α/2)

√SSe

n− pvj.

Zde končí

přednáška 26

(13.1.)

83

Page 84: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

Obsah

1 Základy teorie pravděpodobnosti 3

1.1 Úvod 41.1.1 Kolmogorovova definice pravděpodobnosti . . . . . . . . . . . . . . . 41.1.2 Náhodná veličina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.1.3 Rozdělení náhodné veličiny, hustota . . . . . . . . . . . . . . . . . . . 5

1.2 Reálná náhodná veličina a její rozdělení 61.2.1 Charakterizace rozdělení reálné náhodné veličiny . . . . . . . . . . . . 61.2.2 Momenty reálné náhodné veličiny . . . . . . . . . . . . . . . . . . . . 8

1.3 Náhodný vektor a mnohorozměrné rozdělení 101.3.1 Rozdělení náhodného vektoru . . . . . . . . . . . . . . . . . . . . . . . 101.3.2 Momenty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.3.3 Nezávislost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.3.4 Korelace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.4 Podmíněné rozdělení 161.4.1 Podmíněná hustota . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.4.2 Podmíněná střední hodnota . . . . . . . . . . . . . . . . . . . . . . . . 171.4.3 Podmíněný rozptyl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.5 Transformace náhodných veličin a vektorů 201.5.1 Transformace náhodných veličin . . . . . . . . . . . . . . . . . . . . . 201.5.2 Transformace náhodných vektorů . . . . . . . . . . . . . . . . . . . . 21

1.6 Normální rozdělení 241.6.1 Mnohorozměrné normální rozdělení . . . . . . . . . . . . . . . . . . . 241.6.2 Rozdělení χ2, t a F . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1.7 Limitní věty 281.7.1 Konvergence náhodných veličin a vektorů . . . . . . . . . . . . . . . . 281.7.2 Zákon velkých čísel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

84

Page 85: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

Obsah

1.7.3 Centrální limitní věta . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2 Základy matematické statistiky 32

2.1 Základy teorie odhadu 332.1.1 Bodový odhad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.1.2 Intervalový odhad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.2 Metody pro odhadování parametrů 402.2.1 Empirické odhady a výběrové momenty . . . . . . . . . . . . . . . . . 402.2.2 Odhady v parametrických modelech . . . . . . . . . . . . . . . . . . . 46

2.3 Principy testování hypotéz 482.3.1 Základní pojmy a definice . . . . . . . . . . . . . . . . . . . . . . . . . 482.3.2 Hladina testu a síla testu . . . . . . . . . . . . . . . . . . . . . . . . . 492.3.3 P-hodnota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 522.3.4 Intervalové odhady a testování . . . . . . . . . . . . . . . . . . . . . . 53

2.4 Jednovýběrové problémy 552.4.1 Kolmogorovovův-Smirnovův test . . . . . . . . . . . . . . . . . . . . . 552.4.2 Jednovýběrový t-test . . . . . . . . . . . . . . . . . . . . . . . . . . . 562.4.3 Jednovýběrový z-test . . . . . . . . . . . . . . . . . . . . . . . . . . . 572.4.4 Jednovýběrový znaménkový test . . . . . . . . . . . . . . . . . . . . . 582.4.5 Jednovýběrový test na pravděpodobnost . . . . . . . . . . . . . . . . 592.4.6 Jednovýběrový Wilcoxonův test . . . . . . . . . . . . . . . . . . . . . 602.4.7 Jednovýběrový χ2 test na rozptyl . . . . . . . . . . . . . . . . . . . . 62

2.5 Párové testy 632.5.1 Párový t-test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 632.5.2 Párový z-test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 642.5.3 Párový znaménkový test . . . . . . . . . . . . . . . . . . . . . . . . . 652.5.4 Párový Wilcoxonův test . . . . . . . . . . . . . . . . . . . . . . . . . . 65

2.6 Dvouvýběrové problémy 672.6.1 Dvouvýběrový Kolmogorovovův-Smirnovův test . . . . . . . . . . . . 682.6.2 Dvouvýběrový t-test . . . . . . . . . . . . . . . . . . . . . . . . . . . . 692.6.3 Dvouvýběrový z-test . . . . . . . . . . . . . . . . . . . . . . . . . . . . 702.6.4 Dvouvýběrový Wilcoxonův test . . . . . . . . . . . . . . . . . . . . . . 722.6.5 Dvouvýběrový F test na rozptyl . . . . . . . . . . . . . . . . . . . . . 74

2.7 Analýza rozptylu 76

85

Page 86: home.zcu.czhome.zcu.cz/~potmesil/Skripta - Pravdepodobnost Statistika/Prst-Sta… · Tento dokument poskytuje přehled všech vět, definic, tvrzení a pozná-mek probíraných v

Obsah

2.8 Základy regrese 792.8.1 Model lineární regrese . . . . . . . . . . . . . . . . . . . . . . . . . . . 792.8.2 Odhady metodou nejmenších čtverců . . . . . . . . . . . . . . . . . . 81

86


Recommended