Statistika
Pohled z ptačí perspektivy
Statistika z ptačí perspektivy
• Úloha statistiky v experimentálním výzkumu
• Explorační metody• Konfirmační metody• Sedm + 1 praktických rad
Statistika z ptačí perspektivy
• Úloha statistiky v experimentálním výzkumu
• Explorační metody• Konfirmační metody• Sedm + 1 praktických rad
Poslání statistiky
Statistika nám pomáhá odhalovat zákonitosti v našem stochastickém světě. Umožňuje nám odfiltrovávat či alespoň kvantifikovat vliv náhody na naše experimentální data.
Vlivy náhody na naše data
1) Chyba malých čísel, velikost výběrového souboru (vzorku), reprezentativnost vzorku2) Studovaný jev (například vliv stáří na tělesnou váhu) může být překryt vlivy jiných (z hlediska studovaného jevu náhodných) faktorů
Statistické metody
Základní rozdělení podle účelu:
1) Explorační metody2) Konfirmační metody
Statistika z ptačí perspektivy
• Úloha statistiky v experimentálním výzkumu
• Explorační metody• Konfirmační metody• Sedm + 1 praktických rad
Explorační metody
popisná statistika zobrazovací metody shluková analýza diskriminační analýza faktorová analýza a mnohé další
Charakteristiky polohy (centrální tendence)
Průměr (aritmetický, geometrický, harmonický) [arithmetic, geometric, harmonic mean] Medián a kvantily [Median, Quantiles] Modus Konfidenční interval [confidence interval] týká se odhadu polohy „středu“ v základním souboru
Charakteristiky variability (disperse)
Rozsah (range) Variance, rozptyl, 2, var [variance]
2={(xi-X)2}/n s2={(xi-X)2}/(n-1) Směrodatná odchylka, s, s.d., SD [standard deviation] s = var Variační koeficient, CV [coeficient of variation] CV=s/X
Přehled nejčastějších grafů Koláčový graf (podíly z celku)
Sloupcový graf (průměry pro kategorie) Krabicový graf (velikosti a rozptyl pro kategorie) Čárový graf (funkční závislost) Histogram (četnosti pro kategorie) XY (XYZ) graf (závislost 2 (3) kvantitativních veličin)
Koláčový graf [Pie chart]
1. čtvrt.2. čtvrt.3. čtvrt.4. čtvrt.
Sloupcový graf [bar/collumn plot]
0
10
20
30
40
50
60
70
80
90
1. čtvrt. 2. čtvrt. 3. čtvrt. 4. čtvrt.
VýchodZápadSever
Krabicový graf [box plot]
Čárový graf
0102030405060708090
100
1. čtvrt. 2. čtvrt. 3. čtvrt. 4. čtvrt.
Východ
Západ
Sever
Histogram [histogram]
XY-graf [scatterplot]
Další metody explorační statistiky
• Shluková analýza (cluster analysis)
Na základě kombinace hodnot velkého počtu proměnných uspořádá studované objekty do přirozených skupin (hierarchicky nebo nehierarchicky).
Použití: Numerická taxonomie
Další metody explorační statistiky
• Diskrimanační analýza
Najde kombinaci proměnných na jejichž základě lze rozpoznat příslušnost objektu do některé z předem známých skupin. Cross validizace – leave-one-out metoda
Použití: Determinace organismů.
Další metody explorační statistiky
• Faktorová analýza
Redukuje větší počet proměnných na menší počet faktorů. Faktory vytvoří kombinací různých proměnných, které na studovaných objektech spolu souvisely.
Použití: Vytváření osobnostních dotazníků.
Statistika z ptačí perspektivy
• Úloha statistiky v experimentálním výzkumu
• Explorační metody• Konfirmační metody• Sedm + 1 praktických rad
Konec 1. dílu
Konfirmační metody
Principy statistického rozhodování
Nulová hypotéza H0- pozorovaný jev je dílem náhody, její chybné zamítnutí by bylo závažnější (forézní medicína – justiční vražda, věda – Occamova břitva), chyba prvního druhu [Type I error] Alternativní hypotéza - chybné zamítnutí alternativní hypotézy = chyba druhého druhu Síla testu - pravděpodobnost oprávněného přijetí alternativní hypotézy 1- (přesněji řečeno: pravděpodobnost oprávněného zamítnutí nulové hypotézy)
Testové statistiky a jejich využití
Testová statistika pro testování shody četností 2
2 = {(fi - fiteor.)2/fi
teor.} Příklad: 152 : 39 : 53 : 6 9 : 3 : 3 : 1 ??? očekávané: 140,6 : 46,9 : 46,9 : 15,62 = 11,42/140,6 + (-7,9)2/46,9 + 6,12/46,9 + (-9,62/15,6 = 8,97 V tabulkách zjistíme, že 8,97 > 7,81 (kritická hodnota pro = 0,05 při 3 stupních volnosti)Závěr: Nulovou hypotézu (odchylky od očekávaných četností jsou dílem náhody) zamítáme na hladině významnosti 0,05 (t.j. 5%)
Statistika v době počítačů
Provedení: není třeba znát vzorečky (či dokonce pomocí nich počítat), je třeba vědět jaké testy kdy použít pro danou úlohu. Výstupy: možno získat přímo hodnotu P (pravděpodobnost chyby I. druhu). Dříve: P<0,05 P<0,01 P<0,001 Nyní: P=0,048
Testování hypotéz
• hypotézy o poloze (t-test, ANOVA)• hypotézy o rozptylu (F-test)• hypotézy o rozložení (Chi2,
Kolmogorov Smirnov)• hypotézy o vychýlených hodnotách
(Grubbsův test, Dixonův test)
Typy proměnných a typy statistických dat
• Cílové (závislé) [dependent], vysvětlující [independent], rušivé [confoundings]
• Kvantitativní ×kvalitativní• spojité a nespojité• kategoriální (nominální) [nominal
data], × ordinálníbinární [binary data]
Typy metod v závislosti na charakteru studovaných
veličin
Příslušný test nám může pomoci odpovědět na otázku, jestli, případně do jaké míry, nám variabilitu v cílové veličině vysvětluje veličina(y) vysvětlující.
Cílové (závislé)
Vysvětlující kategoriální spojité
kategoriálníKontingenční tabulky
ANOVAt-test
spojitéLogistická regrese
Lineární regrese
ordinální i spojité
Logistická regrese
ANCOVA
Vztahy kvantitativních veličin
Regresní analýza [regression] (závislá a nezávislá proměnná) - regresní koeficient (směrnice přímky) a P (pravděpodobnost, že = 0) Korelační analýza [correlation] (nelze říci, která proměnná je závislá, obě jsou navíc zatíženy chybou) -Pearsonův koeficient korelace (r), koeficient determinance (R2) (těsnost vztahu)
Význam regresního a korelačního koeficientu
nižší korelační koeficient
nižší regresní koeficient
Neparametrické metody
Wilcoxonův (= Mann-Whitney) test Mediánový (= znaménkový) test Kruskal-Wallis ANOVA Friedman ANOVA Wald-Wolfowitz test neparametrická korelace
Monte Carlo Metody
Jackknifing Bootstrapping Permutační testy
Příklad 1
Angličané: 180, 177, 164, 169, 178, 170, 172Francouzi: 170, 165, 181, 169, 162, 170,171
Jsou Francouzi menší než Angličané?
t-test
Příklad 2Novákovi: 180, 175Horákovi: 168, 169Dolákovi: 179, 171Červeňákovi: 175, 159Zeleňákovi: 190, 177
Existuje souvislost mezi výškou manželů?
Korelační analýza
Příklad 3
V posluchárně je 80 žen a 70 mužů, z žen jich už 23 usnulo a z mužů jich usnulo 24.
Jsou spáči stejně zastoupeni mezi muži i ženami?
Kontingenční tabulky
Příklad 4
AB: 111, 120, 105, 118, 130, 98A: 120, 122, 119, 125, 126, 122B: 110, 129, 99, 160, 111, 1020: 129, 122,105, 110,120, 101
Má krevní skupina vliv na inteligenci?
ANOVA
Příklad 5
Novák: ano Praha 30 Horák: ne vesnice 18 Dolák: ano vesnice 60 Červeňák: ne město 29 Zeleňák: ano městečko 35
Má velikost bydliště vliv na pravděpodobnost infekce?
infikován bydliště věk
Logistická regrese
Statistika z ptačí perspektivy
• Úloha statistiky v experimentálním výzkumu
• Explorační metody• Konfirmační metody• Sedm + 1 praktických rad
Několik užitečných rad1) Na statistiku je třeba myslet včas. cíl projektu
velikost souboru homogenita a nezávislost dat subjektivní vlivy nenáhodný výběr možnost ovlivnění monitorovat možné rušivé proměnné promyslet způsob záznamu dat
Rada 2
garbage in garbage out přesnost měření kontrola dat před analýzou - odstranění chyb - rozhodnutí o sporných případech - ošetření odlehlých a vzdálených hodnot kontrola splnění podmínek testů transformace (logaritmická, arcsin, odmocninová)
Kvalitní data jsou základem úspěchu.
Rada 3Méně (testů) je někdy (skoro vždy)
více. Ze 20 testů vyjde jeden signifikantní na hladině významnosti 0,05 (nutnost Bonferroniho korekce)
Rada 4
Jednostranný test je dvakrát citlivější.
počet všech možných kombinací
počet stejně podezřelých kombinacíP =
P = 1
64 = 0,01562 (přesně!!!)
11 11 2 1
1 3 3 11 4 6 4 1
1 5 10 10 5 11 6 15 20 15 6 1
Příklad jednostranného t-testu
Výsledek dvoustranného t-testu
2%
P=0,02 - pravděpodobnost, že průměry dvou souborů budou takto vzdáleny jen díky náhodě jsou 2 %.V 1% případů bude průměr v souboru A větší než průměr v souboru B, v 1% případů tomu bude naopak.
Výsledek jednostranného t-testu
1%
P=0,01 - pravděpodobnost, že průměr v souboru A je větší než průměr v souboru B jen díky náhodě, bude 1%.
Rada 5Pozor na rozdíl mezi základním a výběrovým souborem - jednovýběrové a vícevýběrové
testy.
Rada 5Vliv sebepodobnosti na důvěryhodnost. Každý proband dostal 30 dvojic, kdyby neexistoval vliv sebepodobnosti, stejně často by volil jako důvěryhodnědnější podobnou i nepodobnou tvář.
nepodobná podobná nepodobný podobný
Rada 6Párový test je silnější než test nepárový.
neškodný nebezpečný1 2 3 4 5 6 7
Rada 7Pozor na výsledky metaanalýzy.
Šuplíkový efekt
páni mají radši blondýnky a oponenti pozitivní výsledky
Rada 8
MYSLET, MYSLET, MYSLET !!!(zejména při interpretaci výsledků)
Statistické programy(velmi neúplný seznam)
BMDPSTATISTICA, STATGRAPHICSSYSTAT, SAS, SIGMASTAT, SPSSNTSYSS+ , R+StatXact, TREEPT
Statistická literatura(pro nematematiky)
Statistika pro zdravotníky, Kubánková, HendlMetody matematické statistiky, ReisenauerObecná genetika, Nečásek (Biometrika)(Statistika pro biologické a lékařské vědy, Havránek)(Statistické metody, Anděl)Biometry, Sokal, RohlBiostatistika, LepšBiostatistika, ZváraBiostatistics A methodology for the health sciences Fisher, van Belle
Rada 9
Líná huba holý neštěstí
(Statistici to umí přeci jenom lépe...)