1
POPISNÁ STATISTIKA
ZPRACOVÁNÍ DAT
Výpočet výběrových charakteristik
Histogram
Empirická distribuční funkce
2
A. výpočet výběrových charakteristik přímo z napozorovaných hodnot
– rozsah výběru: n
– napozorované hodnoty: x1 , x2 , ... , xn
Charakteristiky polohy :
n
1iix
n
1x
x = ( x1 + x2 + x3 + + xn) / n tj.
Výběrový průměr :x
3
Výběrový medián Me :
– hodnoty uspořádané podle velikosti : x(1) x(2) x(3) ....... x(n)
a) pro n liché, prostřední hodnota ;
b) pro n sudé, průměr dvou prostředních hodnot .
V případě a): x(1) x(2) x(3) x(4) x(5) je medián x(3) .
V případě b): x(1) x(2) x(3) x(4) je medián ( x(2) + x(3) ) / 2 .
4
Výběrový modus Mo :
nejčetnější hodnota .
Uvažujme x(1) x(2) = x(3) = x(4) x(5) x(6) x(7) ;
modus je x(2) ( = x(3) = x(4) ) .
5
Charakteristiky variability :
Výběrová směrodatná odchylka s :
Výběrový rozptyl s2 :
n
1i
2i
2 )xx(1n
1s
Po úpravě :
2n
1i
2i
2n
1ii
n
1i
2i xnx
1n
1x
n
1x
1n
1s
n
1i
2i )xx(
1n
1s2ss tj.
6
Rozptyl statistického (základního) souboru s2 :
n
1i
2i
2 )xx(n
1s
Poznámka:
Nejedná se o výběrový rozptyl vypočítaný z výběru několika náhodně vybraných jednotek z procesu nebo základního souboru,
ale o rozptyl vypočítaný ze všech prvků konečného statistického souboru.
7
Výběrové rozpětí R :
označíme xmin nejmenší x(1) hodnotu ve výběru
xmax největší x(n) hodnotu ve výběru
rozsahu n
potom
R = xmax - xmin
8
Schéma pro výpočet výběrových charakteristik :
i xi xi2
1 x1 x12
2 x2 x22
3 x3 x32
atd. atd. atd.
n xn xn2
součet xii
n
1xi
i
n2
1
9
i xi xi2
1 13,39 179,2921
2 13,42 180,0964
3 13,38 179,0244
4 13,53 183,0609
5 13,51 182,5201
6 13,30 176,8900
7 13,40 179,5600
Součet 93,93 1260,4439
Příklad:
Uspořádané hodnoty:(1) 13,30(2) 13,38(3) 13,39(4) 13,40(5) 13,42(6) 13,51(7) 13,53
Me = 13,40 = (1/7) 93,93 = 13,4186x
R = 13,53 - 13,30 = 0,23
s2 = (1/6) (1260,4439 - (1/7) 93,932) = 0,006248
s = = 0,079042 006248,0
10
B. výpočet výběrových charakteristik z hodnot seskupených do tříd
– rozsah výběru: n– napozorované hodnoty: x1 , x2 , ... ,
xn
– počet tříd: k – šíře třídy: h
Označíme pro j-tou třídu :
– nj třídní četnost (absolutní)
– fj = nj / n relativní třídní četnost
– Nj = kumulovaná třídní četnost (absolutní)
– Fj = Nj / n kumulovaná relativní třídní četnost
– zj = třídní znak (obvykle střed j-té třídy)
– zj + h/2 = horní mez j-té třídy
j
1iin
11
Schéma pro výpočet výběrových charakteristik :
k
1jjj nz
n
1zx
k
1j
2k
1jjjj
2j
2z
2x nz
n
1nz
1n
1ss
k
1jjnn
i zj nj zjnj zj2nj
1 z1 n1 z1n1 z12n1
2 z2 n2 z2n2 z22n2
3 z3 n3 z3n3 z32n3
atd. atd. atd. atd. atd.
k zk nk zknk zk2nk
Součetnj
j
k
1
znj jj
k
1
znj jj
k2
1
12
Příklad: 7,77 7,69 7,73 7,75 7,32 7,69 7,77 7,49 7,69
7,60 7,64 7,84 7,68 7,72 7,87 7,72 7,73 7,59
7,80 7,99 7,88 7,67 7,77 7,68 7,99 7,71 7,84
7,65 7,77 7,70 7,69 7,75 7,74 7,72 7,88 7,61
7,80 7,84 7,81 7,70 7,91 7,79 8,03 7,73
Výběr n = 44
Seskupíme do tříd šíře h = 0,1 , zvolíme třídní intervaly
j třídní interval zj nj fj Nj Fj
1 7,30 až 7,39 7,345 1 0,022727 1 0,022727
2 7,40 až 7,49 7,445 1 0,022727 2 0,045455
3 7,50 až 7,59 7,545 1 0,022727 3 0,068182
4 7,60 až 7,69 7,645 11 0,250000 14 0,318182
5 7,70 až 7,79 7,745 17 0,386364 31 0,704545
6 7,80 až 7,89 7,845 9 0,204545 40 0,909091
7 7,90 až 7,99 7,945 3 0,068182 43 0,977273
8 8,00 až 8,09 8,045 1 0,022727 44 1
Součet 44 1
13
Výpočet výběrových charakteristik a s :x
j zj nj zjnj zj2nj
1 7,345 1 7,345 53,949025
2 7,445 1 7,445 55,428025
3 7,545 1 7,545 56,927025
4 7,645 11 84,095 642,906275
5 7,745 17 131,665 1019,745425
6 7,845 9 70,605 553,896225
7 7,945 3 23,835 189,369075
8 8,045 1 8,045 64,722025
Součet 44 340,580 2636,943100
44nnk
1jj
k
1jjj nz
n
1zx
= 340,58 / 44 = 7,740455
k
1j
2k
1jjjj
2j
2z
2x nz
n
1nz
1n
1ss
= (1/43)(2636,9431 - 340,582 / 44) = 0,016258
016258,0sss 2zzx 0,127507
14
Znázornění napozorovaných hodnot v pořadí jak byly měřeny
15
PŘÍKLADY :1.1 Po roce provozu se měřil na zkušebně výkon motorů pro malotraktory. Jmenovitý výkon motoru xi byl stanoven na 25 kW. U sedmi zkoušených motorů byly naměřeny následující hodnoty v kW:
i 1 2 3 4 5 6 7xi 24,8 26,1 22,7 24,2 25,6 24,5 26,0
Ze zjištěných hodnot jmenovitého výkonu motoru stanovte výběrové charakteristiky: největší a nejmenší naměřenou hodnotu, aritmetický průměr, medián, rozpětí, rozptyl a směrodatnou odchylku ze zjištěných hodnot jmenovitého výkonu motoru.
Příklad 1.1
i 1 2 3 4 5 6 7 xi 24,8 26,1 22,7 24,2 25,6 24,5 26,0x max = 26,1 x min = 22,7 x bar = 24,84 Me = 24,80rozpětí = 3,4 v.rozp.= 1,4362 v.sm.od = 1,1984
16
1.2 Při zkoušení výrobků v klimatické komoře se měří relativní vlhkost. U šesti po sobě zkoušených stejných výrobků byly naměřeny následující hodnoty xi v procentech:
i 1 2 3 4 5 6xi 89,3 94,1 96,4 90,8 92,0 91,4
Vypočtěte všechny základní výběrové charakteristiky polohy (výběrový průměr, výběrový medián) a variability (výběrové rozpětí, výběrový rozptyl a výběrovou směrodatnou odchylku).
Příklad 1.2
i 1 2 3 4 5 6 xi 89,3 94,1 96,4 90,8 92 91,4x max = 96,4 x min = 89,3 x bar = 92,33 Me = 91,70rozpětí = 7,1 v.rozp.= 6,4387 v.sm.od = 2,537
17
1.4 Ze souboru 5 000 ampulí jistého séra byl vzat náhodný výběr rozsahu n = 6 jednotek. Při destruktivní zkoušce byl zjišťován jejich obsah xi v cm3 a zapsán do uvedené tabulky:
i 1 2 3 4 5 6xi 1,7 1,4 1,6 1,1 1,3 1,3
Vypočtěte z uvedených hodnot běžné výběrové charakteristiky polohy (průměr, medián) a variability (rozpětí, rozptyl a směrodatnou odchylku).
Příklad 1.4
i 1 2 3 4 5 6 xi 1,7 1,4 1,6 1,1 1,3 1,3x max = 1,7 x min = 1,1 x bar = 1,40 Me = 1,35rozpětí = 0,6 v.rozp.= 0,0480 v.sm.od = 0,219
18
třídní znak třídní četnost relativní kumulovaná relativní třídní třídní kumulovaná
od do zj nj četnost četnost třídníčetnost
167,82167,845 167,895 167,87 1 0,005 1 0,005167,895 167,945 167,92 5 0,025 6 0,030167,945 167,995 167,97 15 0,075 21 0,105167,995 168,045 168,02 47 0,235 68 0,340168,045 168,095 168,07 98 0,490 166 0,830168,095 168,145 168,12 31 0,155 197 0,985168,145 168,195 168,17 3 0,015 200 1,000
168,22SOUČET 200 1,000
třídní interval
1.8 Ve výběru n = 200 složitých výrobků byla měřena rozteč dvou otvorů s jmenovitou hodnotou 168 mm. Výsledky měření prováděného s přesností na 0,01 mm byly seskupeny do intervalů šíře 0,05 mm a jsou
uvedeny v tabulce: Doplňte uvedenou tabulku o relativní třídní četnosti, kumulované třídní četnosti a relativní kumulované třídní četnosti
19
1.8 pokračování Vypočtěte výběrový průměr a výběrovou
směrodatnou odchylku.
třídní znak třídní četnost relativní kumulovaná relativní třídní třídní kumulovaná
od do zj nj četnost četnost třídní zj*nj zj2*njčetnost
167,82167,845 167,895 167,87 1 0,005 1 0,005 167,87 28180,337167,895 167,945 167,92 5 0,025 6 0,030 839,60 140985,632167,945 167,995 167,97 15 0,075 21 0,105 2519,55 423208,814167,995 168,045 168,02 47 0,235 68 0,340 7896,94 1326843,859168,045 168,095 168,07 98 0,490 166 0,830 16470,86 2768257,440168,095 168,145 168,12 31 0,155 197 0,985 5211,72 876194,366168,145 168,195 168,17 3 0,015 200 1,000 504,51 84843,447
168,22SOUČET 200 1,000 33611,05 5648513,895x bar = 168,0553 v. roz.= 0,0024321 v.sm.od.= 0,0493
třídní interval
0
20
40
60
80
100
120
167,82 167,87 167,92 167,97 168,02 168,07 168,12 168,17 168,22
20
Histogram grafické znázornění dat seskupených do tříd
Napozorované hodnoty x1, x2, ... , xn
náhodný výběr rozsahu n .
Konstrukce histogramu:
počet tříd k stejné šíře h ;
zjistí se absolutní třídní četnosti nj , případně relativní třídní četnosti fj ;
na osu x se vynesou hranice třídních intervalů, případně třídní znaky zj ;
na osu y se vynáší třídní četnosti nj (absolutní) nebo fj (relativní); nad třídními intervaly se sestrojí obdélníky.
21
Příklad :j třídní interval zj nj fj
1 7,30 až 7,39 7,345 1 0,022727
2 7,40 až 7,49 7,445 1 0,022727
3 7,50 až 7,59 7,545 1 0,022727
4 7,60 až 7,69 7,645 11 0,250000
5 7,70 až 7,79 7,745 17 0,386364
6 7,80 až 7,89 7,845 9 0,204545
7 7,90 až 7,99 7,945 3 0,068182
8 8,00 až 8,09 8,045 1 0,022727
HISTOGRAM
0,023 0,023 0,023
0,25
0,386
0,204
0,068
0,023
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
7,345 7,445 7,545 7,645 7,745 7,845 7,945 8,045
délka x
rela
tivn
í če
tno
st
22
0
20
40
60
80
100
120
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Ukázky některých základních typů histogramů
a) Symetrický histogram zvonovitého tvaru
23
0
20
40
60
80
100
120
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0
20
40
60
80
100
120
140
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
b) Dvojvrcholové histogramy
24
0
20
40
60
80
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0
20
40
60
80
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
c) Histogramy plochého a hřebenovitého tvaru
25
0
20
40
60
80
100
120
140
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0
20
40
60
80
100
120
140
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
d) Histogramy asymetrického tvaru
26
e) Dvojvrcholové histogramy s výraznou četností v krajní třídě
0
20
40
60
80
100
120
140
160
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0
20
40
60
80
100
120
140
160
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
27
Empirická distribuční funkce grafické znázornění dat uspořádaných podle velikosti
Napozorované hodnoty x1, x2, ... , xn
náhodný výběr rozsahu n .
Konstrukce empirické distribuční funkce:
hodnoty uspořádáme podle velikosti x(1) x(2) … x(n) ;
na osu x se vynesou hodnoty x(i), (i = 1, 2, …, n) ;
na osu y se vynese ke každé hodnotě x(i) hodnota i / (n + 1) ;
body [ x(i) ; i / (n + 1) ] tvoří graf empirické distribuční funkce.
28
Konstrukce empirické distribuční funkce v případě údajů seskupených do tříd:
na osu x se vynesou horní meze třídních intervalů ;
na osu y se vynesou proti nim kumulované relativní třídní četnosti
zakreslené body [ zj + h/2 ; Fj ] tvoří graf empirické distribuční funkce.
k
1jjj n
n
1F
29
POZNÁMKA:
Je-li stupnice, na kterou vynášíme hodnoty Fj , resp. (i) / (n+1)
pravděpodobnostní, potom v případě normálního rozdělení sledované
náhodné veličiny jsou zakreslené body soustředěny v úzkém okolí
přímky, která odpovídá teoretické distribuční funkci normálního rozdělení
N(, 2) pro = a = s .
Zakreslení přímky na pravděpodobnostní papír
Z výběrových hodnot xi (i=1, 2, ..., n) se vypočtou hodnoty
výběrového průměru a výběrové směrodatné odchylky s , které jsou
odhady parametrů a normálního rozdělení N(, 2).
Na pravděpodobnostní papír se zakreslí body
(x = ; y = 50) a (x = + s ; y = 84,1)
a těmito body se proloží přímka, která představuje průběh odhadu
distribuční funkce rozdělení N(, 2).
x
x
x x
30
Příklad :
Uspořádáme naměřené délky podle velikosti a přiřadíme jim hodnoty i / (n+1).
Pokud se některé hodnoty opakují, s četností n(i) , potom jim přísluší nárůst n(i)/(n+1) empirické distribuční funkce.
Uspořádané hodnoty sestavíme do tabulky:
x(i) i / (n+1) i x(i) i / (n+1) i x(i) i / (n+1) i x(i) i / (n+1) i x(i) i / (n+1)
1 7,32 0,0222 11 7,69 21 7,73 31 7,79 0,6889 41 7,91 0,9111
2 7,49 0,0444 12 7,69 22 7,73 32 7,80 42 7,99
3 7,59 0,0667 13 7,69 23 7,73 0,5111 33 7,80 0,7333 43 7,99 0,9556
4 7,60 0,0889 14 7,69 0,3111 24 7,74 0,5333 34 7,81 0,7556 44 8,03 0,9778
5 7,61 0,1111 15 7,70 25 7,75 35 7,84 45 1,0000
6 7,64 0,1333 16 7,70 0,3556 26 7,75 0,5778 36 7,84
7 7,65 0,1556 17 7,71 0,3778 27 7,77 37 7,84 0,8222
8 7,67 0,1778 18 7,72 28 7,77 38 7,87 0,8444
9 7,68 19 7,72 29 7,77 39 7,88
10 7,68 0,2222 20 7,72 0,4444 30 7,77 0,6667 40 7,88 0,8889
31
Uspořádané hodnoty zakreslíme do grafu:
32
Empirická distribuční funkce zakreslená do pravděpodobnostního papíru: