STATISTIKASTATISTIKASTATISTIKASTATISTIKA
„„VĚDA JE, DÁVÁ SPRÁVNÉ ÚDAJE, VĚDA JE, DÁVÁ SPRÁVNÉ ÚDAJE, NEKLESEJTE NA MYSLI, NEKLESEJTE NA MYSLI,
ONA VÁM TO VYČÍSLÍ“ONA VÁM TO VYČÍSLÍ“
Teze přednášky prof. MVDr. Petra Dvořáka, CSc.
Exaktnost věd
• „míra platnosti určité zákonitosti, vztahu, popisu, pravidla“
• matematika x biologie• 1 + 1 = 2 1 + 1 ~ (v 68
%) 2• „věda je omyl na úrovni své doby“
ETAPY STATISTICKÉHO ZKOUMÁNÍ
• Statistické zjišťování (plán experimentu, rozsah souboru, přesnost, pravděpodobnost testování, shromažďování dat)
• Zpracování statistických údajů (výsledky, setřídění, tabulky, grafy)
• Vyhodnocení zpracovaných údajů a jejich analýza (diskuse a závěr, konečný výsledek - nejčastěji střední hodnota a míra její variability, analýza,
• 0 hypotézu potvrdíme, vyvrátíme, • zdůvodníme, srovnáme s jinými
autory)
Statistické zjišťování
• ZÁKLADNÍ X VÝBĚROVÝ soubor N, X (µ), σ n, x, s
Výběr NÁHODNÝ X ZÁVISLÝpomocí PC, tabulek člověkem, neobjektivní
Zákon rozdělení náhodných veličin
• Každé hodnotě, či množství hodnot z každého intervalu je přiřazena pravděpodobnost, že náhodná veličina nabude určitou hodnotu, resp. hodnotu v rámci určitého intervalu.
ROZDĚLENÍ ČETNOSTI
četnost
sledovaný znak - tuk [%]
ZNAKY
SPOJITÉ X NESPOJITÉ (diskrétní)
KVALITATIVNÍ X KVANTITATIVNÍ
ROZDĚLENÍ SOUBORU ZNAKŮnormální, exponenciální, studentizované atd.
Charakteristika souboru znaků
• VARIABILITA (proměnlivost)• ASYMETRIE (šikmost)• EXCES (špičatost)
Normální rozložení a interval spolehlivosti
Čím plošší křivka, tím větší variabilita sledovaného znaku,tím více plochy pro odlehlé hodnoty s nižší pravděpodobností.
Chyby stanovení (měření)
• HRUBÉ – testování odlehlých hodnot
• SOUSTAVNÉ – opravný faktor
• NÁHODNÉ – třídění statistických dat
Test odlehlých hodnotQ – test (Deanův –Dixonův
test)
Tabulka hodnot QT (Eckschlager et al. 1980)
Qt
n P = 95% P = 99%
3 0,914 0,9884 0,765 0,8895 0,642 0,7606 0,560 0,6987 0,507 0,6378 0,468 0,5909 0,437 0,555
10 0,412 0,527
R
xxQ se R= xmax-xmin
Zpracování statistických údajů
• Třídění statistických dat• Statistické charakteristiky• Tabulky – uvádějí přesné hodnoty• Grafy – udávají průběh závislostí
Třídění statistických dat
1. Podle obměn dle diskrétního znaku2. Intervalové rozdělení četností u velkého počtu znaků nebo značného rozsahu souboru- Počet intervalů 6 – 20- Stejná šířka intervalů- Střed intervalu – celé číslo
Stupnice nepravdy
32 1
LEŽ
VELKÁ LEŽ
STATISTIKA
Statistické charakteristiky
Střední hodnoty (míry polohy) 1. Aritmetický průměr X x (nikoliv Ø - technický průměr trubky)
.
Střední hodnoty (míry polohy)
2. Medián hodnota znaku stojícího přesně uprostřed souboru, který byl uspořádán podle velikostiNecitlivý k extrémním hodnotám.
Střední hodnoty (míry polohy)
3. Modusmá nejvyšší četnost
•L dolní hranice modálního intervalu,
•D1 rozdíl četností modálního intervalu a
• četností jemu předcházejícímu intervalu,
•D2 rozdíl četností modálního a následujícího
• intervalu, •h šířka intervalu
hDD
DLx
21
1ˆ
(4)
Míry variability
• Variační rozpětí
R x x max min
Metoda nejmenších čtverců
∑ Δ = 0 rozptyl (variance) = ------
+
+
+
+
+Δ
∑ Δ2
n
Míry variabilitysměrodatná odchylka σ
výběru sstřední chyba výběru, SD standard
deviation
• n < 8
• n ≥ 8
s R kn n 3 4 5 6 7
nk
591,0
486,0
430,0
395,0
370,0
1
)(1
1
)( 222
n
xn
x
n
xx
s i iii
ii
n – 1 = ν počet stupňů volnosti výběrového souborun > 50 ↔ ν se významem blíží N základního souboru
Míry variability
• relativní směrodatná odchylka sr
Variační koeficient Vx, vk [%]
kontrola vzorců !!!
ssxr
100(%)
Míry variability• Směrodatná odchylka průměru sx
(střední chyba průměru) S.E.M. standard error of mean
• X = ( x ± sx ) jednotka
)1(
)(1
)1(
)( 222
nn
xn
x
nn
xx
n
ss i i
iii
i
x
68,3 % pravděpodobnost X = | x ± sx |
95,4 % pravděpodobnost X = | x ± 2sx |
99,7 % pravděpodobnost X = | x ± 3sx |
Vícerozměrné statistické soubory
• Závislosti, kde hodnotě nezávisle proměnné odpovídá jediná hodnota (nebo střední hodnota) závisle proměnné nazýváme funkční závislost dvourozměrného statistického souboru.
• Lineární, exponenciální, logaritmické,
• polynomické různého stupně
Metoda lineární regresey = bx + a
+
+
+
+
+Δ
Nezávisle proměnná x
y
Závisle proměnná
α
b = tg α a
a
Výpočet parametrů lineární regrese
y = bx + a
bx x y y
x x
n x y x y
n x x
i ii
ii
i i i iiii
i iii
( )( )
( ) ( )2 2 2
ay
nb
x
ny bx
ii
ii
Grafické metody• Metoda těžišť• Metoda obalových přímek
Korelace - těsnost závislosti
• Koeficient korelace r | -1; 1|
• Koeficient determinace r2 . 100 [%] (kolik % bodů leží ideálně na přímce)• Index korelace I |0; 1| • u nelineárních závislostí
i iii
i iii
i i iiiii
yynxxn
yxyxnr
2
2
2
2
Korelacestupeň závislosti,
těsnost
• r < 0,3 nízká• 0,3 – 0,5 mírná (9 – 25 %)• 0,5 – 0,7 význačná (25 – 49 %)• 0,7 – 0,9 velká (49 – 81 %)• 0,9 – 0,99 velmi vysoká (81 – 99 %)
Testování hypotéz• prokázat shodnost nebo rozdílnost
několika souborů získaných dat • úkolem je vypočítat hodnotu tzv.
testovacího kriteria α , tuto hodnotu porovnat s hodnotou ”kritickou” (nalezneme v tabulkách pro určitou pravděpodobnost 95 nebo 99 %) definovanou pro hladinu významnosti testů α = 0,05 a α = 0,01
Testování hypotéz• Procentuální interval shody
Testování kvantitativních znaků
studentův t-test
analýza variance ANOVA
Testování kvalitativních znaků
χ2 test
test nezávislosti v kontingenčních
tabulkách
Procentuální interval shody
• Rychlá orientační metoda ve cvičeních• Experimentální hodnotu vyjádříme jako
procento hodnoty tabulkové (ta je 100 %)• rozdíl ± 1 % (5 %) odpovídá α = 0,01 (0,05)• Testování shody experimentálních souborů
výsledků mezi sebou • Sřední hodnota jednoho z nich se považuje za 100 %.
t - test
• test průkaznosti rozdílů dvou průměrů ze souborů na sobě nezávislých
• základní ku výběrovému µ : x• dva výběrové vůči sobě 1) rozsahy shodné 2) rozsahy různé
t - test
2/122
1 :
B
B
A
ABA
n
s
s
sxxt
hladina významnosti (α)
(ν)
6 7 8 9 10 11 12 14 16 20 50
0,05 2,45 2,36 2,31 2,26 2,23 2,20 2,18 2,14 2,12 2,09 2,01
0,01 3,71 3,50 3,36 3,25 3,17 3,11 3,06 2,98 2,92 2,84 2,68
homogenita rozptylů ! F test ν = nA + nB - 2
n
nehomogenita rozptylů
• je třeba vypočítat počet stupňů volnosti ν
1
1
1
1 22
BA n
c
n
c
v
1222
B
B
A
A
A
A
n
s
n
s
n
sc
Párový t - test
• testování rozdílu dvou průměrů na sobě závislých znaků
- před pokusem po pokusu - dvojice hodnot na témže jedinci - hodnocení léčiva dvěma metodami
ANOVA - analýza variancejednofaktorová
• rozdíl mezi průměry několika na sobě nezávislých souborů
• TESTOVACÍ KRITÉRIUM KRITICKÁ HODNOTA tabulky rozdělení F f1 k-1 k = sloupce (skupiny) f2 n-k n = řádky (hodnoty)f1 počet stupňů volnosti čitatelef2 počet stupňů volnosti jmenovatele ANOVA dvoufaktorová bez interakce
testování nezávislosti kvalitativních znaků
• χ2 test (2 znaky ve 2 souborech)• test nezávislosti v kontingenčních
tabulkách
χ2 testobměny kvalitativního
znakusuma
obměnypodle
souborů
a b a+b
c d c+d
suma a+c b+d n
2222
22
dbcadcba
bcadx
α = 0,05 χ2(1) = 3,84 α = 0,01 χ2(1) = 6,63
Tabulky a grafy
• název musí být natolik výstižný, aby čtenář nemusel číst text
• na osu x grafu – nezávisle proměnnou• na osu y grafu – závisle proměnnou• veličiny [ jednotky ]• graf uvádí přehledně závislost a
variabilitu• tabulka uvádí přesné hodnoty• zaokrouhlování !
Grafické metody
• Metoda těžišť, sudý počet bodů n = 6 – 10
• Metoda vyhodnocování terčů
• Metoda obalových přímek n > 20