Date post: | 03-Jan-2016 |
Category: |
Documents |
Upload: | bert-montoya |
View: | 56 times |
Download: | 1 times |
Pravděpodobnost a statistikaopakování základních pojmů
Václav Hlaváčkatedra kybernetiky FEL Č[email protected]
poděkování: Martinovi Urbanovi za první verzi přednášky v říjnu 2005
2
Obsah
1. Pravěpodobnost- Definice, základní vztahy- Koncept náhodné veličiny
2. Statistika- Náhodný výběr- Odhad parametrů
Literatura1. J. Novovičová, Pravděpodobnost a Matematiská
Statistika. ČVUT 20022. A. Papoulis, Probability, Random Variables and
Stochatic Processes, McGraw Hill, Edition 4, 2002.3. http://mathworld.wolfram.com/
3
Úvod
• Pravděpodobnost - abstraktní matematický model neurčitosti- modeluje děje, v nichž hraje roli náhodnost
• Statistika- sběr a analýza dat - pracuje s omezenými / konečnými vzorky- odhad parametrů, testování hypotéz, atd.
4
Část 1Pravděpodobnost
5
Pravděpodobnost: definice, základní vztahy
Definice pravděpodobnosti:
• Klasická:
• Limitní (četnostní):
• Axiomatická (Andreje Kolmogorova)
N
NAP
A
N lim)(
N
NAP
A)(
6
A ,A
),()()( then if 3.
1)( 2.
A ,0)( 1.
Ω) podmmnožin (systém pole jevové ...A
jevůích elementárnprostor ... Ω
BA
BPAPBAPBA
P
AAP
Axiomatická (Kolmogorova) definicepravděpodobnosti
7
)(1)( 4.
)()()()( 3.
)()()( potom jestliže 2.
0)( 1.
APAP
BAPBPAPBAP
APBPABPBA
P
Odvozené vztahy
8
0)( ,, , )(
)()|( BPBA
BP
BAPBAP
Příklad: Hod kostkou. Jaká je pravděpodobnost, že padnečíslo větší než 3 za podmínky, že padlo liché číslo.
}5,3,1{
}6,5,4{
}6,5,4,3,2,1{
B
A
5.0)(
5.0)(
BP
AP
3
1
5.0
6/1)|(
6/1})5({)(
BAP
PBAP
Podmíněná pravděpodobnost
9
).()()( nezávisléjsou ,Jevy BPAPBAPBA
Nezávislé jevy:
)|()()|()()( BAPBPABPAPBAP
Příklad: Jsou jevy A a B nezavislé?
}5,3,1{
}6,5,4{
}6,5,4,3,2,1{
B
A 5.0)(
5.0)(
BP
AP
závisléjsou 6/1})5({)( PBAP
Sdružená pravděpodobnost
10
Pojem náhodné veličiny
Náhodná veličina přiřazuje každému elementárnímu jevu reálné číslo
Proč se zavádí?Umožňuje zavést pojmy hustota pravděpodobnosti, distribuční funkce, střední hodnota atd.
Dva základní typy náhodných veličin• Spojité (nabývá spočetně mnoha hodnot)• Diskrétní (nabývá hodnoty z nějakého
intervalu R)
Rx
11• Diskrétní náhodná veličina
- nabývá konečně/spočetně mnoha hodnot- příklady: hod kostkou, počet projetých aut za 1 hod.- rozdělení se popisuje pravděpodobnostní funkcí:
P(X=ai) = p(ai)
~ diskrétní rozdělení pravděpodobnosti
• Spojitá náhodná veličina
- může nabývá nespočetně mnoha hodnot- příklad: výška osob
- rozdělení se popisuje hustotou pravděpodobnosti
- P(X=a)=0, a 2 R
b
a
dxxfbXaP )()(
Koncept náhodné veličiny (2)
12
(Kumulativní) Distribuční funkce:
Funkce náhodné veličiny definována vztahem
Příklady:
a) rovnoměrné rozdělení b) normální rozdělemí
1,0: RF
).()( xXPxF
Distribuční funkce
13
nebo
Příklady:
a) rovnoměrné b) normální
dx
xdFxf
)()(
x
xxXxPxf
x
})({)( lim
0
Hustota pravděpodobnosti
14
Příklad: Délka vlasů. Předpokládejme, že rozložení délky vlasů u dívek má normální (gaussovské) rozdělení N(15,25) a u chlapců N(6,4) a tedy, že rozdělení u všech dětí má charakter směsi dvou normálních rozdělení.
={děti} F(X) ... d.f. délky vlasů všech dětíA={dívky} F(X|A) ... d.f. délky vlasů u dívekB={chlapci} F(X|B) ... d.f. délky vlasů u chlapců
- náhodná veličina X ... délka vlasů
fděti = wd N(15,25) + whN(6,4) = wd f(x|A) + wh f(x|B)
dx
BxdFBxf
)|()|( , )|()|( BxXPBxF
Podmíněná distribuční funkcea hustota pravděpodobnosti
15
• Střední hodnota (též očekávaná hodnota)
• K-tý obecný moment
• K-tý centrální moment
x
xxPxExxxfXE )()( , d )()(
x
kkkk xPxXExxfxXE )()( , d )()(
x
kx
kkx
kx xPxXExxfxXE )()()( , d )()())((
Základní charakteristiky náhodné veličiny
16
Druhý centrální moment
x
xPxExxDxf(x)xExXD )())(()( , d ))(()( 22
Rozptyl, též disperze
17
• Kovariance dvou veličin X, Y
• Kovarianční matice n veličin veličin X1,...,Xn
- symetrická, positivně definitní
))(( yxxy YXE
2
1
12
1
...
...
...
nn
n
Kovariance
18
• p-kvantil Qp
• medián je p -kvantil pro p =0.5
pQXP p )(
Kvantily, medián
5,0)( p
QXP
19
Diskrétní rovnoměrné rozdělení DU(m)- příklady: hodnota první číslice na SPZ
hod kostkou
mxP
1)(
2
1)(
mxE
12
1)(
2
mxD
Rovnoměrné rozdělení, diskrétní
20
Binomické rozdělení B(n,p)
n nezávislých pokusů, při nichž může
nastat jev A s pravděp. pa nenastat s pravděp. (1-p)
x udává počet, kolikrát nastal jev A
při n pokusech
},...,2,1,0{ nxnx pp
x
nxP
)1()(
)1()( ,)( pnpXDnpXE
Binomické rozdělení, diskrétní
21
Geometrické rozdělení G(p)
- opakujeme nezávislé pokusy, při nichž může nastat jev A s pravděp. p
- x udává počet neúspěšných pokusů, než poprvénastane jev A
,...}2,1,0{
xppxP )1()(
Geometrické rozdělení, diskrétní
22
Rovnoměrné rozdělení U(a,b)
),( pro ,1
)(
),( pro ,0)(
baxab
xf
baxxf
2)(
baXE
12
)()(
2abXD
Rovnoměrné rozdělení, spojité
23Normální rozdělení N(,)
Vícerozměrné normální rozdělení N(,)
)2
)(exp(
2
1)( 2
2
x
xf
)),()(2
1exp(
||)2(
1)( 1
2
1
2
xxxf td
Normální rozdělení, spojité
ddd RR ,
24
Mějme n nezávislých náhodných veličin Xi. Jejich součet S=X1+…+Xn je také náhodná veličina se střední hodnotou =1 + … + n a rozptylem 2=1
2 + … + n2.
Centrální limitní věta: S rostoucím n se distribuce F(S) blíží normálnímurozdělení N(,).
Centrální limitní věta
25
Pravděpodobnost: Koncept náhodné veličiny
26
Předpokládejme, že hodnoty číslic na SPZjsou náhodné veličiny X1, X2, ... , X6, nabývající hodnot {0,1,…,9}. Výskyt každéčíslice má rovnoměrné rozložení.
Součet všech číslic na SPZ S = X1+X2+ ... +X6
je také náhodná veličina. Nabývá hodnot {0,1,…,54}a blíží se normálnímu rozložení.
.
.
.
x1 x2 x3 x4 x5 x6 S
13
23
16
Centrální limitní věta, příklad
27
Část 2
Statistika
28
Náhodný výběr rozsahu n
- n nezávislých opakování téhož pokusu- posloupnost n nezávislých náhodných veličin se stejným
rozdělením X1.,..., Xn
Výběrový průměr
Výběrové momenty
Výběrový rozptyl
Poznámka
n
iiX
nX
1
1
n
i
kik X
nM
1
1
n
ii XX
nS
1
22 )(1
1
)()( 2 xDSE
Náhodný výběr
29
Formulace úlohy:
- mějme n nezávislých měření {x1,…,xn}
- známe parametrický model hustoty f(X)= f(x|), případně diskrétní p(xi|), až na neznámou hodnotu parametru
Cíl: Na základě naměřených {x1,…,xn} určit hodnotu
Příklad: Předpokládejme, že rozložení výšky lidí lze popsat normálním
rozdělením s neznámou střední hodnotou a rozptylem . Na základě náhodného vzorku 100 lidí chceme odhadnout ,2
f(x|) = N(,2), = {,2}
Odhad parametrů
30ML-odhad (Maximal Likelihood) :
Hledáme takové , které maximalizuje P({x1,…,xn} )
Přesněji pro spojitý případ: hledáme , které maximalizuje sdruženou hustotu
L(,x) – věrohodnost:
)|},...({ maxarg 1*
nxxP
)|()...|()|( maxarg 21
nxPxPxP
)|()...|()|( maxarg 21
nxfxfxf
)|()...|()|( ),( 21 nxfxfxfxL
Odhad, metoda maxim. věrohodnosti
31
Hledá se :
a) analyticky
b) numericky
- metody gradientního sestupu- EM algoritmus
)|( maxarg* xL
0),(
xL
ML-odhad, možné postupy řešení