VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA
STATISTIKA V SPSS
Jana Borůvková, Petra Horáčková, Miroslav Hanáček
2014
Katedra matematiky
2
Jana Borůvková, Petra Horáčková, Miroslav Hanáček STATISTIKA V SPSS
1. vydáníISBN 978-80-87035-86-3
Vydala Vysoká škola polytechnická Jihlava, Tolstého 16, Jihlava, 2014 Tisk Ediční oddělení VŠPJ, Tolstého 16, Jihlava Za jazykovou a věcnou správnost obsahu díla odpovídá autor. Text neprošel jazykovou ani redakční úpravou.
© Jana Borůvková, Petra Horáčková, Miroslav Hanáček, 2014
3
Vážení čtenáři,
dostává se vám do ruky studijní text primárně určený studentům katedry zdravotnických
studií, jehož obsahem je popis základních statistických metod a jejich aplikace s využitím
statistického softwaru IBM SPSS.
Text je rozdělen do tří stejně strukturovaných částí. V první teoretické, části lze nalézt stručný
popis základních statistických metod a způsob jejich využití při analýze dat. Na tuto část
navazují Řešené příklady softwarem IBM SPSS, ve které naleznete podrobný popis postupu
při zpracování dat včetně interpretací výsledků spočítaných tímto softwarem. Studijní text je
završen krátkou sbírkou úkolů a příkladů určených k samostatnému řešení, aby bylo čtenáři
umožněno ověřit si, že studovanou problematiku pochopil a umí ji v praxi aplikovat.
Jak již bylo řečeno, všechny tři části obsahují shodná témata. Jedná se o popisnou statistiku
(třídění dat a výpočet příslušných charakteristik), grafickou prezentaci dat, korelační analýzu,
regresní analýzu a testování hypotéz (t-testy, neparametrické testy a chí-kvadrát test
o nezávislosti).
Tento studijní text pokrývá jednosemestrovou výuku statistiky s hodinovou dotací 0/1, takže
si v žádném případě neklade za cíl úplný a vyčerpávající popis studované tématiky ani do
hloubky ani do šířky. Cílem autorů bylo vytvořit studijní text, který bude prvním průvodcem
studentům i vyučujícím VŠPJ v případě, že se rozhodnou zpracovat svá data získaná pro
seminární práce, bakalářské práce nebo odborné články s využitím softwaru IBM SPSS, který
je na VŠPJ dostupný jak studentům, tak i vyučujícím.
kolektiv autorů
Jihlava, únor 2014
4
Obsah
Teoretickacast1 Popisná statistika ................................................................................................................ 8
1.1 Základní statistické pojmy ........................................................................................... 8
1.2 Typy dat ....................................................................................................................... 8
1.3 Základní zpracování statistických údajů ...................................................................... 9
1.4 Charakteristiky polohy (úrovně) ................................................................................ 12
1.5 Charakteristiky variability ......................................................................................... 14
1.6 Charakteristiky šikmosti a špičatosti ......................................................................... 15
2 Grafická prezentace dat .................................................................................................... 15
2.1 Grafické znázornění dat tříděných bodovým tříděním .............................................. 15
2.2 Grafické znázornění dat tříděných intervalovým tříděním ........................................ 18
2.3 Grafické znázornění závislosti dvou proměnných – bodový graf ............................. 21
2.4 Grafické znázornění časové řady – spojnicový graf .................................................. 23
3 Korelační analýza ............................................................................................................. 24
4 Regresní analýza .............................................................................................................. 27
5 Testování hypotéz ............................................................................................................ 28
5.1 Postup při testování hypotéz ...................................................................................... 28
5.2 Chyba I. a II. druhu .................................................................................................... 30
5.3 Rozdělení statistických testů ..................................................................................... 31
5.4 Kontingenční tabulky ................................................................................................ 32
5.5 Neparametrické testy ................................................................................................. 33
5.6 T-testy ........................................................................................................................ 35
5
ReseneprıkladysoftwaremSPSS
1 Sběr dat a jejich příprava pro import do softwaru SPSS .................................................. 40
1.1 Vytvoření datové matice v MS Excel ........................................................................ 40
1.2 Import dat do softwaru SPSS ..................................................................................... 42
1.3 Příprava datové matice .............................................................................................. 44
1.4 Popisná statistika ....................................................................................................... 50
2 Grafická prezentace dat .................................................................................................... 54
2.1 Grafická prezentace kategoriálních dat ..................................................................... 54
2.2 Kategorizované grafy ................................................................................................ 57
2.3 Spojitá proměnná ....................................................................................................... 59
2.4 Závislost proměnných – bodový graf ........................................................................ 62
2.5 Spojnicový graf .......................................................................................................... 64
3 Korelační analýza ............................................................................................................. 66
3.1 Pearsonova korelační analýza .................................................................................... 66
3.2 Pořadová korelace ...................................................................................................... 72
4 Lineární regrese ................................................................................................................ 74
4.1 Jedna nezávislá proměnná ......................................................................................... 74
4.2 Více nezávislých proměnných ................................................................................... 79
5 Testování hypotéz ............................................................................................................ 84
5.1 Neparametrické testy ................................................................................................. 84
5.2 Parametrické testy ...................................................................................................... 89
6
Prıkladykprocvicenı
1 Popisná statistika .............................................................................................................. 96
1.1 Otázky k datovému souboru Spánek.xlsx .................................................................. 96
1.2 Otázky k datovému souboru Zaměstnanec.xlsx ......................................................... 97
1.3 Otázky k datovému souboru Náročnost povolání zdravotní sestry.xlsx .................... 99
2 Grafické zpracování dat ................................................................................................. 100
2.1 Otázky k datovému souboru Spánek.xlsx ................................................................ 100
2.2 Otázky k datovému souboru Zaměstnanec.xlsx ....................................................... 100
2.3 Otázky k datovému souboru Náročnost povolání zdravotní sestry.xlsx .................. 102
3 Korelační analýza ........................................................................................................... 102
3.1 Otázky k souboru Korelace a regrese.xlxs .............................................................. 102
3.2 Otázky k souboru Spánek.xlsx ................................................................................. 102
3.3 Otázky k souboru Zaměstnanec.xlsx ....................................................................... 103
3.4 Otázky k souboru Náročnost povolání.xlsx ............................................................. 103
4 Regresní analýza ............................................................................................................ 103
4.1 Otázky k souboru Korelace a regrese.xlsx .............................................................. 103
4.2 Otázky k souboru Náročnost povolání.xlsx ............................................................. 104
4.3 Otázky k souboru Spánek.xlsx ................................................................................. 104
5 Testování hypotéz .......................................................................................................... 105
5.1 Neparametrické testy ............................................................................................... 105
5.2 Parametrické testy .................................................................................................... 107
7
Teoretickacast
8
1 Popisná statistika
Se statistickým zpracováním dat se setkáváme už od starověku. Tehdy se jednalo o soupisy
obyvatel, nejčastěji pro daňové účely. V dnešní době už neexistuje vědní obor, ve kterém by
se nepracovalo s hromadnými daty a k jejich vyhodnocení by se nevyužilo statistických
metod. Údajů, které získáváme, je často mnoho, proto je musíme zpracovat, zpřehlednit.
Pokud takto učiníme např. pomocí tabulek rozdělení četností, grafickou vizualizací dat nebo
pomocí některých charakteristik popisné statistiky (průměr, střední hodnoty, extrémní
hodnoty,…) jsme na začátku statistického zpracování dat, protože zatím jde jen o prvotní
popis resp. o přiblížení se podstatě věci. V dnešní době bychom se také těžko obešli bez
zpracování dat pomocí některého statistického softwaru, jako je např. Statistica, SPSS,
případně statistických funkcí v běžném MS Excel nebo OpenOffice.
1.1 Základní statistické pojmy
Většinou současně analyzujeme více objektů, událostí, procesů, skutečností. Ty samy o sobě
ještě netvoří statistiku. Statistika se tedy zabývá zpracováním a zkoumáním hromadných
jevů. Množina zkoumaných objektů se ve statistice nazývá statistický soubor. Počet prvků
této množiny nazýváme rozsah souboru a značíme ho . Základní prvky statistického
pozorování se nazývají statistické jednotky. Celý statistický soubor se nazývá populace
nebo základní soubor. Pokud z populace vybereme podle předem stanovených pravidel
množinu statistických jednotek, nazýváme ji výběrový soubor nebo vzorek. Je to část
základního souboru, kterou zkoumáme, a pokud jsme data získali v souladu s teorií
pravděpodobnosti, můžeme získané výsledky zobecnit na celou populaci.
Statistické jednotky mají řadu různých vlastností, které potom dál analyzujeme. Nazýváme je
proměnné (případy, statistické znaky). Hodnoty, které proměnná nabývá, nazýváme
obměna statistického znaku.
1.2 Typy dat
Z hlediska základního zpracování dat dělíme proměnné na dva základní typy:
1. kategoriální, 2. spojité.
Kategoriální proměnné dále dělíme na:
a. nominální (vždy slovní),
9
b. ordinální slovní, c. ordinální číselné.
Kategoriální proměnné jsou ty, u kterých je počet obměn statistického znaku „rozumný“.
Nelze přesně říci, co ještě považujeme za rozumný počet, protože to závisí i na rozsahu
souboru. Zpravidla budeme počet obměn považovat za rozumný, bude-li menší než 10. Ale
máme-li soubor velkého rozsahu (několik tisíc statistických jednotek), může být za rozumný
počet obměn považováno i 20 či 25 obměn statistického znaku.
Nominální proměnné jsou vždy slovní. Je pro ně typické to, že obměny této proměnné
nemají žádné přirozené pořadí. Příkladem může být používaný dopravní prostředek pro cestu
do školy/práce. Pořadí, v jakém vyjmenováváme obměny statistického znaku, se řídí jejich
významností, tedy četností, s jakou se v datech vyskytují.
Ordinální proměnné mohou být jak slovní, tak i číselné. Obměny statistického znaku mají
vždy přirozené pořadí, které je nutné respektovat. Například nejvyšší dosažené vzdělání je
smysluplné uvádět v pořadí: základní, středoškolské bez maturity, středoškolské s maturitou,
bakalářské, magisterské, doktorské.
Spojité proměnné jsou vždy číselné a vykazují se vysokým počtem obměn statistického
znaku. Počet obměn je tak vysoký, že jejich vyjmenování nepřináší již lépe vypovídající
pohled na data, jak je tomu v případě kategoriální proměnné. Proto u této proměnné nestačí
obměny vyjmenovat, ale je nutné je seskupit do intervalů a nadále prezentovat jako intervaly,
případně jako středy těchto intervalů.
1.3 Základní zpracování statistických údajů
Výsledkem statistického šetření je zpravidla databáze s mnoha řádky a sloupci a ani zkušený
pracovník z nich mnoho nevyčte. Informace musíme zpřehlednit, abychom jednoduše viděli,
jakých hodnot daná proměnná nabývá a kolikrát se obměny vyskytují, tzv. četnosti. Tuto
činnost nazýváme třídění dat a pro každou proměnnou vytvoříme tabulku rozdělení
četností (frekvenční tabulku).
1.3.1 Bodové třídění
Bodové třídění používáme pro kategoriální proměnné (nominální a ordinální) s „rozumným“
počtem obměn (zpravidla do 10, ale pro soubory s velkým rozsahem třeba i 15 nebo 20).
10
Takto můžeme třídit počet narozených dětí, známky ve škole, pohlaví, kraje, míru souhlasu
s výrokem vyjádřenou např. na škále 1–7,…
Tabulka rozdělení četností obsahuje:
pořadové číslo obměny (nemusí být uvedeno) ,
hodnotu znaku ,
absolutní četnost ,
relativní četnost , můžeme uvádět v % (100 %),
kumulativní relativní četnost , můžeme uvádět v % (100 %). Kumulativní relativní četnost u nominálních dat nemá smysl (neexistuje přirozené pořadí dat).
Pro absolutní četnost platí ( je rozsah souboru, j je počet tříd)
.
Pro relativní četnost platí
.
Pro kumulativní relativní četnost platí
.
Ukázka bodového třídění nominálního (tedy slovního) znaku je v tabulce 1-1. Obměny jsou
seřazeny podle absolutní četnosti sestupně.
Tabulka1-1: Příklad tabulky rozdělení četností pro nominální znak Počet bytů v osobním vlastnictví
Jihlava 11578 0,236
Havl. Brod 10515 0,214
Žďár nad Sázavou 9489 0,193
Třebíč 8815 0,180
Pelhřimov 8711 0,178
Celkem 49108 1,000
11
V tabulce 1-2 je ukázka bodového třídění ordinálního znaku. Obměny jsou seřazeny podle
přirozeného pořadí.
Tabulka 1-2: Počet dětí v rodině, příklad tabulky rozdělení četností diskrétní ordinální proměnné
0 125 0,063 0,063
1 561 0,281 0,344
2 924 0,463 0,807
3 324 0,162 0,969
4 58 0,029 0,998
6 3 0,002 1,000
Celkem 1995 1,000 x
1.3.2 Intervalové třídění
Intervalové třídění používáme pro číselnou proměnnou, která má velké množství obměn,
takže by potom bodové třídění nemělo smysl. Hodnoty znaků sdružujeme do intervalů, které
mají obvykle (pro jednoduchost) stejnou šířku, značíme ji . Hledaný počet intervalů
zpravidla závisí na počtu pozorování a můžeme ho vyjádřit např. pomocí Sturgesova pravidla
1 3,3 log ,
kde je počet intervalů a rozsah souboru.
Intervaly volíme tak, aby se nepřekrývaly a těsně na sebe navazovaly. Pro odlehlé hodnoty
nevytváříme samostatný interval, ale zahrneme je do prvního nebo posledního intervalu.
Tabulka rozdělení četností obsahuje:
pořadové číslo obměny (nemusí být uvedeno), značíme ,
intervaly,
středy intervalů ,
absolutní četnost ,
relativní četnost , můžeme uvádět v procentech (100 %),
kumulativní relativní četnost , můžeme uvádět v procentech (100 %).
12
Vzorce pro absolutní četnost, relativní četnost a kumulativní relativní četnost jsou stejné jako
u bodového třídění.
Tabulka 1-3 je ukázkou tabulky rozdělení četností při intervalovém třídění dat.
Tabulka 1-3: Hmotnost dívek, příklad tabulky rozdělení četností pro spojitý číselný znak
intervaly
1 (40–46> 43 8 0,030 0,030
2 (46–52> 49 35 0,131 0,161
3 (52–58> 55 81 0,303 0,464
4 (58–64> 61 75 0,281 0,745
5 (64–70> 67 48 0,180 0,925
6 (70–76> 73 12 0,045 0,970
7 (76–82> 79 8 0,030 1,000
Celkem x x 267 1,000 x
1.4 Charakteristiky polohy (úrovně)
K základním charakteristikám polohy patří:
Extrémy – minimum , resp. Maximum je nejmenší, resp. největší hodnota
v datovém souboru.
Aritmetický průměr . Jedná se o nejznámější, a proto nejpoužívanější
charakteristiku polohy. Ne vždy však je vhodná pro popis datového souboru. Máme-li
datový soubor zešikmený, je aritmetický průměr nevhodnou charakteristikou. Vyplývá
to ze způsobu výpočtu (n je rozsah souboru):
∑
.
Použití tohoto vzorce předpokládá, že máme k dispozici všechny naměřené hodnoty,
tedy data netříděná. Takto vypočítaný aritmetický průměr nazýváme prostý
aritmetický průměr.
V praxi však máme velmi často k dispozici pouze tříděná data a musíme tedy pro
výpočet aritmetického průměru použít jiný vztah (j je počet tříd):
∑
.
13
Takto vypočítaný aritmetický průměr nazýváme vážený aritmetický průměr.
Máme-li data tříděná bodovým tříděním, vychází prostý aritmetický průměr i vážený
aritmetický průměr stejně. V případě intervalového třídění jsou data charakterizovaná
pouze středem intervalu, tříděním dochází ke ztrátě původních hodnot, a proto i prostý
aritmetický průměr z původních dat se zpravidla nepatrně liší od váženého
aritmetického průměru.
Medián . Střední hodnota. Pokud datový soubor není symetrický nebo obsahuje
odlehlou hodnotu, je lepší charakteristikou než aritmetický průměr. Medián dělí
soubor na dvě poloviny.
Při lichém počtu hodnot n je medián prostřední hodnota seřazených dat
,
při sudém počtu hodnot je medián průměr dvou prostředních hodnot seřazených dat
2
.
Dolní kvartil , , horní kvartil , . Dolní kvartil udává hodnotu 25 % nejnižších
hodnot, horní kvartil 75 % nejnižších hodnot.
Percentil ( -kvantil) odděluje % nejnižších hodnot souboru.
Modus . Nejčetnější hodnota. Problém této charakteristiky je, že při intervalovém
třídění se může velmi lišit od hodnoty určené z původních dat. Některé soubory
mohou mít i více modů.
Pro číselné proměnné můžeme počítat všechny výše vyjmenované charakteristiky polohy. Pro
ordinální slovní znaky lze určit pouze modus a kvantily (zejména medián, případně kvartily).
Občas však interpretace trochu „pokulhává“ (např. prostřední hodnotou nejvyššího vzdělání
u zkoumaného vzorku může být něco mezi ZŠ a SŠ).
U nominálních proměnných má smysl určit pouze modus.
14
1.5 Charakteristiky variability
Často se setkáváme se situací, že dva nebo více souborů bude mít stejné charakteristiky
polohy (průměr, medián,…), ale jinak se budou od sebe výrazně lišit. Proto je potřeba
charakteristiky polohy doplnit charakteristikami variability.
Základní charakteristiky variability:
Variační rozpětí . Uvádí škálu (šířku intervalu), ve které se pohybují všechny
hodnoty souboru, tzn. rozdíl největší a nejmenší hodnoty znaku. Jeho předností je
snadnost a rychlost výpočtu, nevýhodou je, pokud v souboru máme odlehlé hodnoty,
jeho malá vypovídací schopnost.
.
Mezikvartilové rozpětí . Rozdíl mezi horním a dolním kvartilem. Udává, jak je
široký interval, ve kterém je 50 % prostředních hodnot. Tato míra variability už není
ovlivněná extrémními hodnotami proměnné, takže vypovídací schopnost je vyšší než
u rozpětí.
, , .
Rozptyl . Nejčastější charakteristika variability, která se počítá jako průměrná
kvadratická odchylka od průměru. Rozptyl má interpretační nevýhodu, že není ve
stejných jednotkách jako původní hodnoty.
∑
1∑
1.
Směrodatná odchylka . Odmocnina rozptylu, která má stejnou vypovídací
schopnost jako rozptyl a je ve stejných jednotkách jako původní data.
.
Variační koeficient . Směrodatná odchylka a rozptyl jsou vhodné k porovnání
variability souborů, které mají stejné průměry. Pokud se průměry porovnávaných
souborů liší je potřeba spočítat variační koeficient, který je většinou
uváděn v procentech.
.
15
1.6 Charakteristiky šikmosti a špičatosti
Koeficient šikmosti . Symetrii uspořádání dat kolem aritmetického průměru si
můžeme vyjádřit pomocí koeficientu šikmosti. Nulová hodnota znamená symetrii,
pokud nám koeficient šikmosti vyjde záporný, mluvíme o pravostranné asymetrii,
resp. vyjde-li kladný, jedná se o levostrannou asymetrii.
1
.
Koeficient špičatosti . Zjišťujeme koncentraci hodnot souboru kolem průměru.
Zápornou hodnotu interpretujeme jako podnormální špičatost, kladnou hodnotu
interpretujeme jako nadnormální špičatost.
1
3.
2 Grafická prezentace dat
2.1 Grafické znázornění dat tříděných bodovým tříděním
Pro prezentaci jednotlivých proměnných je nutné volit vhodné typy grafů, které mají vysokou
vypovídací schopnost a nejsou pro příjemce informací zavádějící. Pokud máme data
zpracovaná bodovým tříděním, je nejvhodnějším typem grafu graf výsečový, který znázorňuje
strukturu proměnné a jakou část tvoří jednotlivé obměny. Pokud chceme porovnávat absolutní
četnosti připadající na jednotlivé obměny, je vhodnějším typem graf sloupcový. Okrajově lze
použít i graf skládaný pruhový, který má podobnou vypovídací schopnost jako graf
výsečový. Příklady jednotlivých typů grafů a jejich použití je na obrázcích 2-1, 2-2 a 2-3.
16
Obrázek 2-1: Výsečový graf pro proměnnou „počet nemocničních lůžek v kraji Vysočina k 31. 12. 2008“
Zatímco grafy uvedené na obrázcích 2-1 a 2-2 jsou vhodné jak pro nominální tak i pro
ordinální proměnnou, je graf na obrázku 2-3 vhodný pouze pro ordinální proměnnou. Dále je
nutné, aby pořadí obměn znaku v grafu bylo stejné jako ve frekvenční tabulce – tedy pro
ordinální proměnnou existuje nějaké „přirozené“ pořadí obměn a pro nominální proměnnou
pořadí obměn určuje absolutní četnost.
U všech grafů musíme dbát na to, aby bylo jasné, co který graf obsahuje. Je tedy nutné volit
vhodné popisky os a výstižný titulek, případně název grafu. Z každého grafu by mělo být na
první pohled jasné, jakou situaci popisuje. Graf by měl mít vyšší vypovídací schopnost než
samotná frekvenční tabulka.
Jihlava; 758
Žďár nad Sázavou; 598Havlíčkův Brod;
561
Třebíč; 541
Pelhřimov; 341
17
Obrázek 2-2: Sloupcový graf pro proměnnou „počet nemocničních lůžek v kraji Vysočina k 31. 12. 2008“
Obrázek 2-3: Skládaný pruhový graf pro proměnnou „míra souhlasu s daným výrokem“
0
100
200
300
400
500
600
700
800
Jihlava Žďár nad Sázavou
Havlíčkův Brod Třebíč Pelhřimov
0 50 100 150 200 250 300
počty odpovědí
zcela souhlasím spíš souhlasím spíš nesouhlasím zcela nesouhlasím bez odpovědi
18
2.2 Grafické znázornění dat tříděných intervalovým tříděním
Intervalové třídění používáme tehdy, chceme-li vytvořit frekvenční tabulku pro spojitou
číselnou proměnnou, např. výška člověka v cm. V tomto případě je obměn statistického znaku
obrovské množství a bodové třídění by nepřineslo to, co od frekvenční tabulky očekáváme –
tedy zjednodušený pohled na data, protože frekvenční tabulka by mohla mít i stovky řádků.
Proto hodnoty neuvádíme jednotlivě, ale sdružíme je do intervalů.
Poznamenejme, že zatímco při bodovém třídění zůstanou zachovány všechny informace, které
databáze obsahuje, při intervalovém třídění dojde k jejich částečné ztrátě. Ta je způsobena
tím, že již nemáme přesné informace o hodnotách, víme jen, jaké jsou četnosti výskytů
v jednotlivých intervalech. Příklad frekvenční tabulky pořízené intervalovým tříděním dat je
uveden v tabulce 2-1.
Tabulka 2-1: Příklad frekvenční tabulky pro spojitý číselný znak – výška 300 chlapců
i intervaly xi ni pi kpi
1 168–172 170 10 3,3 % 3,3 %
2 172–176 174 41 13,7 % 17,0 %
3 176–180 178 81 27,0 % 44,0 %
4 180–184 182 98 32,7 % 76,7 %
5 184–188 186 60 20,0 % 96,7 %
6 188–192 190 10 3,3 % 100,0 %
x celkem x 300 100,0 % x
2.2.1 Histogram
Pro grafické znázornění proměnné, která je tříděná intervalovým tříděním, používáme
histogram. Jedná se o sloupcový graf, ve kterém je velikost mezery mezi sloupci nulová.
Histogram pro data uvedená v tabulce 2-1 je znázorněn na obrázku 2-4.
U tohoto typu grafu je nutné popsat osy (na vodorovnou osu vynášíme intervaly, na svislou
osu absolutní četnosti) a uvést do titulku nebo do názvu grafu, o jaká data se jedná, aby byl
graf dobře čitelný a srozumitelný všem čtenářům.
19
Obrázek 2-4: Histogram – výška chlapců
2.2.2 Krabicový graf
Krabicový graf je jednou z dalších možností, jak graficky zobrazit datový soubor číselné
proměnné (výjimečně jej lze použít i pro ordinální proměnnou). Krabicový graf zobrazuje
rozpětí a rozložení dat kolem číselné osy. V praxi se používá celá řada variant tohoto grafu.
Ve své nejjednodušší podobě graf zachycuje polohu pěti významných hodnot – mediánu,
obou kvartilů a obou extrémů (minima a maxima) – viz obrázek 2-5.
Obrázek 2-5: Krabicový graf
Nevýhodou tohoto poměrně snadno interpretovatelného grafu je jeho nedostupnost v Excelu.
Tento graf je sice možné v Excelu zkonstruovat, ale vyžaduje to značné úsilí a pokročilou
znalost Excelu. V dnes běžně používaných statistických programech (jakým je například
0
10
20
30
40
50
60
70
80
90
100
170 174 178 182 186 190
četnosti
výška v cm
20
SPSS, Statistica) však lze krabicové grafy konstruovat jednoduše. Tyto softwary dokážou též
detekovat tzv. odlehlé a extrémní hodnoty a v grafu je vyznačit.
V tom případě nevynášíme do grafu minimum a maximum, ale kromě mediánu a kvartilů
vynášíme tzv. horní a dolní vnitřní hradbu a horní a dolní vnější hradbu. Jejich poloha se
odvozuje od mezikvartilového rozpětí Q:
horní vnější hradba x0,75 + 3Q
horní vnitřní hradba x0,75 + 1,5Q
horní kvartil x0,75
medián x0,5
dolní kvartil x0,25
dolní vnitřní hradba x0,25 – 1,5Q
dolní vnější hradba x0,25 – 3Q
Hodnoty, které leží mezi vnitřní a vnější hradbou (dolní nebo horní) se nazývají odlehlé
a zpravidla se vyznačují kroužkem, hodnoty ležící za vnějšími hradbami se nazývají extrémní
a vyznačují se hvězdičkou.
Příklad krabicového grafu je uveden na obrázku 2-6 Krabice vyznačuje oblast mezi kvartily
a vousy vnitřní hradby. V datech jsou 3 odlehlé hodnoty, extrémní hodnoty se v datovém
souboru nevyskytly.
Obrázek 2-6: Krabicový graf s odlehlými hodnotami
Pokud se data řídí normálním rozdělením, je možné do krabicových grafů použít místo
mediánu průměr a směrodatnou odchylku nebo směrodatnou chybu místo Q.
21
Krabicové grafy však častěji než k prezentaci rozložení hodnot kolem číselné osy používáme
k porovnání dvou nebo i více souborů dat. Může se jednat o více číselných proměnných nebo
o jednu kategorizovanou proměnnou, jak je ukázáno na obrázku 2-7. Zde jsou dva krabicové
grafy, které porovnávají výši platů mužů a žen v jistém zdravotnickém zařízení. Proměnná je
zde plat. Proměnná pohlaví, která obsahuje dvě kategorie – muž a žena, slouží ke
kategorizování hodnot proměnné plat.
Spodní vodorovná čárka vyznačuje minimální mzdu (muži 14 500 Kč, ženy 8 200 Kč), horní
vodorovná čárka maximální mzdu (muži 33 600 Kč, ženy 27 600 Kč). Dno krabice vyznačuje
dolní kvartil, víko krabice horní kvartil a vodorovná bílá čára medián. Z tohoto grafu je na
první pohled zřejmé, nejen že se platy žen v tomto zdravotnickém zařízení pohybují níže než
platy mužů, ale je vidět i to, že maximální mzda žen je nižší než medián mzdy mužů.
Obrázek 2-7: Krabicový graf – porovnání příjmů mužů a žen ve sledovaném zdravotnickém zařízení
Krabicové grafy je možné umístit svisle, jako je tomu na obrázcích 2-6 a 2-7, ale i vodorovně
(viz obrázek 2-5), kdy je možné kombinovat krabicový graf s histogramem.
2.3 Grafické znázornění závislosti dvou proměnných – bodový graf
Máme-li v datech dvě proměnné, u kterých lze předpokládat příčinný vztah, je možné tento
vztah znázornit graficky pomocí bodového grafu. Např. pokud máme informace o výšce
0
5000
10000
15000
20000
25000
30000
35000
40000
Muž Žena
22
a váze respondentů, můžeme pomocí bodového grafu zjistit, jestli je mezi těmito dvěma
proměnnými závislost.
Bodový graf zobrazuje body roviny, jejichž x-ová souřadnice je hodnota jedné (nezávislé)
proměnné a y-ová souřadnice je hodnota druhé (závislé) proměnné. Každý bod tedy
představuje jednu statistickou jednotku.
Na obrázku 2-8 je bodový graf znázorňující závislost váhy na výšce deseti náhodně
vybraných studentek VŠPJ. V připojené tabulce jsou uvedeny též zjištěné výšky a váhy, které
byly použity pro konstrukci grafu a pro bližší představu o tělesné konstituci jednotlivce je
dopočítáno BMI.
výška váha BMI
168 65 23,0
162 50 19,1
172 83 28,1
171 67 22,9
166 67 24,3
168 81 28,7
169 77 27,0
164 55 20,4
170 73 25,3
165 60 22,0
Obrázek 2-8: Bodový graf závislosti váhy na výšce
Graf konstruujeme zejména proto, abychom zodpověděli otázku, zda jsou naše data vhodná
pro analýzu závislosti dvou proměnných. Největší problém by způsobily odlehlé hodnoty
(jeden nebo několik bodů ležících mimo oblast většiny bodů) nebo dva samostatné shluky
bodů, které by svědčily o tom, že statistické jednotky tvoří dvě skupiny s odlišnými vztahy
mezi proměnnými (například pokud bychom do analýzy zahrnuli nejen dívky, ale i chlapce).
Dále je nutné zkontrolovat, zda je vhodné proložit body rostoucí nebo klesající přímku (zda
by nebylo vhodnější proložit body nějakou složitější křivku). Z tohoto pohledu se jeví data
v pořádku, je tedy možné přistoupit ke korelační a regresní analýze.
0
10
20
30
40
50
60
70
80
90
160 162 164 166 168 170 172 174
váha v kg
výška v cm
23
2.4 Grafické znázornění časové řady – spojnicový graf
Další z typů grafů, které nabízí MS Excel, je spojnicový graf, který se používá zejména pro
analýzu časových řad. Jejich princip spočívá v zakreslení jednotlivých hodnot časové řady do
souřadných os, na kterých jsou vyznačeny příslušné stupnice. Na vodorovnou osu x se vynáší
časová proměnná t a na svislou osu hodnoty časové řady (obrázek 2-9). Do grafu můžeme
zakreslit i více časových řad (obrázek 2-10). V případě, že zobrazujeme dvě časové řady lišící
se měřítkem, můžeme použít kromě levé i pravou svislou osu. V obou níže uvedených grafech
jsou spojnice splajny, čehož lze docílit volbou „hladká čára“ při formátování grafu.
Obrázek 2-9: Spojnicový graf časová řada
Obrázek 2-10: Spojnicový graf – více časových řad
24
3 Korelační analýza
Korelační analýzu používáme k popisu vzájemného vztahu dvou kardinálních (spojitých
číselných) nebo ordinálních proměnných. Pomocí korelačních koeficientů měříme směr
a intenzitu (sílu) závislosti. Pokud je mezi proměnnými jiný typ závislosti než lineární, není
vhodné korelační koeficient použít.
Korelační koeficient nabývá hodnot od –1 do 1. Znaménko určuje směr závislosti, tzn. pro
kladné hodnoty korelačního koeficientu se jedná o pozitivní korelaci (pokud roste jedna
proměnná, roste i druhá proměnná, resp. pokud klesá jedna, klesá i druhá proměnná), pro
záporné hodnoty mluvíme o negativní korelaci (roste-li jedna proměnná, klesá druhá nebo
naopak). Intenzita korelace se vztahuje k samotné hodnotě korelačního koeficientu (nezávisí
na znaménku, to určuje pouze směr). Pokud je korelační koeficient roven 0, mezi
proměnnými není žádný lineární vztah. Je třeba však zdůraznit, že koeficient korelace, který
se blíží nule, nemusí nutně znamenat slabou závislost. Proměnné mohou být silně závislé, ale
ne lineárně. Blíží-li se korelační koeficient ±1, mluvíme o silnější závislosti proměnných.
V mezních případech, kdy je korelační koeficient roven –1 nebo 1, jde o úplnou funkční
závislost (v bodovém grafu by všechny body ležely na přímce).
Interpretace intenzity hodnot korelačního koeficientu (bez znaménka, které reprezentuje
pouze směr) se v různých oborech liší, můžeme použít např. následující:
Koeficient korelace Síla závislosti
0,1 – 0,3 Slabá závislost
0,3 – 0,7 Středně silná závislost
0,7 – 0,9 Silná závislost
> 0,9 Velmi silná závislost
Pro porovnávání vztahu mezi ordinálními proměnnými, daty s odlehlými hodnotami a daty,
která nemají normální rozdělení, používáme neparametrický Spearmanův korelační
koeficient (ró). Např. závislost počtu dioptrií a vzdělání.
Pokud hledáme lineární závislost dvou číselných proměnných (např. výška dítěte ve dvou
letech a v dospělosti), můžeme použít parametrický Pearsonův korelační koeficient r, jehož
použití má následující předpoklady:
25
lineární vztah mezi proměnnými,
neexistence odlehlých hodnot,
normální rozdělení dat (pro proměnné rozdělené pomocí grupovací proměnné je nutný
předpoklad normality v jednotlivých skupinách, např. výška žen, výška mužů).
Tyto předpoklady ověřujeme zpravidla pomocí bodového grafu. Všechny body by měly ležet
uvnitř pomyslné elipsy, bez odlehlých hodnot.
Pozn.: Pokud bychom získali bodový graf, jako je na obrázku 3-1, musíme jednotlivé skupiny
analyzovat odděleně.
Obrázek 3-1: Heterogenita v datech
26
Obrázek 3-2 ukazuje různé hodnoty koeficientů korelace pro různé typy bodových grafů.
Zdroj: wikipedia.org
Obrázek 3-2: Korelační koeficienty vybraných bodových grafů
Obrázky 3-3 a 3-4 ukazují vliv odlehlých hodnot na korelační koeficient. Odlehlá hodnota,
která leží na regresní přímce, zvyšuje Pearsonův korelační koeficient. Pokud budeme mít ve
stejném grafu odlehlou hodnotu, která leží mimo regresní přímku, velikost korelačního
koeficientu je podstatně nižší. Vliv odlehlých hodnot závisí na velikosti zkoumaného vzorku,
v naší ukázce máme 100 pozorování, takže odlehlá hodnota výsledek tolik neovlivňuje jako
v případě malého rozsahu vzorku. V praxi to znamená, že výzkumník musí sám rozhodnout,
zda do datového souboru odlehlé hodnoty zahrne, případně zda použije Spearmanův korelační
koeficient.
Obrázek 3-3: Odlehlý bod původní korelační koeficient (0,77) zvýšil, r = 0,81
27
Obrázek 3-4: Odlehlý bod původní korelační koeficient (0,77) snížil, r = 0,537
Pro posouzení úrovně statistické významnosti Pearsonova i Spearmanova korelačního
koeficientu používáme tzv. -hodnotu, která je zobrazena či naznačena ve výstupech
statistických programů. Jedná se o p-hodnotu k testu1, který testuje nulovou hypotézu
„Korelační koeficient je nulový“. Pokud je 0,05, je korelační koeficient statisticky
nevýznamný a je nutné jej považovat za nulový.
Je potřeba zdůraznit, že p-hodnota neukazuje na intenzitu závislosti mezi proměnnými (ta je
dána přímo korelačním koeficientem), ale říká nám, zda je korelační koeficient možné
považovat za nenulový. Statistická významnost korelačního koeficientu je kromě vlastního
lineárního vztahu mezi proměnnými také ovlivněná velikostí vzorku, např. pro malé vzorky
( 30) nemusí být korelační koeficient 0,4 (středně silná závislost) statisticky významný
(nepotvrdili jsme, že mezi proměnnými je nějaký vztah) a naopak pro velké vzorky
(např. n > 100) může být statisticky významná i slabá závislost, kdy je korelační koeficient
např. 0,2.
4 Regresní analýza
Hlavním úkolem regresní analýzy je najít nejvhodnější regresní funkci, pomocí které můžeme
odhadnout hodnoty závislé proměnné na základě zvolených hodnot nezávislé proměnné.
Např. odhad váhy na základě výšky, odhad střední hodnoty očekávané doby přežití pacienta
s rakovinou na základě jeho zdravotního stavu, odhad doby zmírnění bolesti po aplikaci
určitého množství léku apod.
1 Podrobně je metoda testování hypotéz popsána v kapitole 5.
28
Posuzujeme tedy vztah závislé proměnné (např. váha) na vybrané nezávislé proměnné (např.
výška). Předpokládáme pouze jednostrannou závislost, tj. závislá (vysvětlovaná) proměnná
zpětně neovlivňuje nezávislou proměnnou. Vysvětlovanou proměnnou zpravidla značíme Y
a vysvětlující proměnnou X. Je-li vysvětlujících proměnných více, používáme pro ně označení
X1, X2 atd.
Lineární regresní funkce má potom tvar , obecně pro více (n) vysvětlujících
proměnných ⋯ . Tento typ regrese, kterým se budeme
zabývat v našem kurzu, se nazývá (vícenásobná) lineární regrese.
Vhodnost volby lineárního modelu můžeme odvodit z bodového grafu, ve kterém také
můžeme vypozorovat případné vybočující hodnoty, které mohou velmi ovlivnit kvalitu
vytvořeného modelu. Vhodnost modelu nám také ukáže graf reziduí (rozdíl mezi
předpovězenou a pozorovanou hodnotou), kde by rezidua měla být rozmístěna náhodně,
nikoli ve tvaru nějaké funkce.
O kvalitě modelu vypovídá také koeficient determinace, který je zpravidla značený 2 ( ).
Ten nám říká, kolik procent variability závislé proměnné model vysvětluje pomocí variability
nezávislých proměnných. Upravený koeficient determinace „Upravené 2“ slouží
k porovnávání modelů, jež se liší počtem nezávislých proměnných.
Poslední hodnota, na kterou bychom neměli zapomenout, je -hodnota, která určuje
statistickou významnost jak regresní funkce, tak i jednotlivých koeficientů. Pro 0,05
považujeme regresní model, resp. odhad konkrétního koeficientu statisticky významný, tedy
nenulový.
5 Testování hypotéz
5.1 Postup při testování hypotéz
Kvantitativní výzkum se zaměřuje na hledání vztahů mezi dvěma či více proměnnými.
Hlavním cílem kvantitativního výzkumu je ověřování platnosti teorií pomocí testování
z těchto teorií vyvozených hypotéz.
Proto je hlavní součástí každé analýzy dat statistické testování hypotéz. V této kapitole se
seznámíme s hlavními principy a postupy při tomto procesu, který je tvořen dvěma
základními kroky:
29
1. Formulace nulové a alternativní hypotézy.
2. Testování hypotézy na hladině významnosti .
5.1.1 Formulace nulové a alternativní hypotézy
Na začátku procesu testování hypotéz je nutné vyslovit dvě hypotézy: nulovou hypotézu a její
negaci, tzv. alternativní hypotézu. V této fázi se nezabýváme pravdivostí těchto hypotéz, ale
stanovíme hypotézy tak, aby vyhovovaly následujícím pravidlům.
Nulovou hypotézu standardně označujeme . Je to jednoznačné tvrzení, které většinou
uvádíme ve tvaru, že něco platí (např. průměrná výška žen je stejná jako průměrná výška
mužů, směrodatná odchylka hmotností dívek je stejná jako směrodatná odchylka hmotností
chlapců, počet vykouřených cigaret nezávisí na velikosti sídla, ve kterém respondent žije,
tržby loňského a letošního roku se rovnají, korelační koeficient je roven nule,…). Je to ovšem
také hypotéza, kterou bychom rádi zamítli (vyloučili jednu konkrétní možnost), protože
nezamítnutí nulové hypotézy neznamená, že platí (že jsme ji dokázali), zjistíme pouze, že
nemáme dostatek důkazů na to, abychom ji mohli zamítnout. Naopak zamítnutím nulové
hypotézy konkrétní tvrzení vyvrátíme.
Alternativní hypotéza je tvrzení, že nulová hypotéza neplatí. Alternativní
hypotézy k výše uvedeným nulovým hypotézám by mohly znít např.: průměrná výška mužů
a žen se liší, směrodatné odchylky hmotností dívek a chlapců se liší, počet vykouřených
cigaret závisí na velikosti sídla, ve kterém respondent žije, tržby loňského a letošního roku
jsou různé, korelační koeficient je nenulový.
Zatímco nulová hypotéza je platná vždy pouze v jediné situaci, alternativní hypotéza může
být platná v celé řadě situací.
5.1.2 Testování hypotézy na hladině významnosti
Testování hypotéz s využitím statistického softwaru je poměrně snadná záležitost. Statistický
software nám kromě řady dalších výsledků poskytuje k testované hypotéze tzv. p-hodnotu,
která nám říká, jak velké chyby se dopustíme, zamítneme-li nulovou hypotézu.
Dále je nutné si stanovit, jak velká chyba je pro nás ještě akceptovatelná. Tomuto číslu se při
testování hypotéz říká hladina významnosti a značíme ji . Nejčastěji hladinu významnosti
volíme 0,05 (5 %) nebo 0,01 (1 %). Zamítneme-li nulovou hypotézu na hladině
významnosti 0,05, mluvíme o statisticky významném rozdílu mezi testovanými proměnnými.
30
V případě, že zamítneme nulovou hypotézu na hladině významnosti 0,01, mluvíme
o statisticky vysoce významném rozdílu.
Ve zdravotnických výzkumech, např. při zavádění nových léků, považujeme hladinu
významnosti 0,01 ještě za velmi vysokou a testování hypotéz v těchto případech (kdy jde
o zdraví či život pacientů) provádíme na několikanásobně nižší hladině významnosti.
Při interpretaci výsledků mohou nastat dvě situace:
1. p-hodnota je menší než hladina významnosti , potom nulovou hypotézu musíme
zamítnout a musíme přijmout alternativní hypotézu H ,
2. p-hodnota je větší než hladina významnosti , potom nulovou hypotézu
nezamítneme, protože pravděpodobnost, že bychom se dopustili chyby, je pro nás již
neakceptovatelná. Měli bychom se vyvarovat špatnému závěru, že jsme potvrdili nebo
dokázali nulovou hypotézu . Toto je chybná interpretace výsledku, protože jsme
pouze neměli dostatek důkazů k zamítnutí nulové hypotézy, tzn. nepodařilo se nám
dokázat, že nulová hypotéza neplatí. (Výsledek neukázal velkou neshodu mezi
zjištěnou skutečností a testovanou hypotézou.)
Příklad: Interpretace -hodnoty pro 0,015, 0,05: 0,015 0,05, proto na hladině
významnosti 5 % nulovou hypotézu zamítáme a přijímáme alternativní hypotézu .
Kdybychom však v tomto případě zvolili hladinu významnosti 0,01, nemohli bychom již
nulovou hypotézu zamítnout. Test tedy prokázal statisticky významný rozdíl.
Zamítnutí nulové hypotézy závisí kromě jiných parametrů také na rozsahu výběru. Jestliže
provedeme výběr rozsahu 1000, je možné, že nulová hypotéza bude zamítnuta, i když by při
rozsahu výběru 100 zamítnuta nebyla.
5.2 Chyba I. a II. druhu
Při testování statistických hypotéz se můžeme dopustit dvou nesprávných závěrů: chybně
zamítneme nulovou hypotézu, která platí, nebo nezamítneme nulovou hypotézu, která ve
skutečnosti ovšem neplatí. Mohou tedy nastat možnosti, které popisuje tabulka 5-1.
.
31
Tab. 5-1: Chyby při testování hypotéz
Rozhodnutí
Skutečnost nezamítneme zamítneme
platí Správně Chyba I. druhu
neplatí Chyba II. druhu Správně
Chyba I. druhu se označuje a je to podmíněná pravděpodobnost, že zamítneme nulovou
hypotézu za předpokladu, že platí, je to tedy hladina významnosti testu. Pravděpodobnost
1 se nazývá spolehlivost testu. Standardními hodnotami je 0,05 nebo 0,01.
Chyby II. druhu se označuje a je to podmíněná pravděpodobnost, že nezamítneme nulovou
hypotézu za předpokladu, že neplatí. Pravděpodobnost 1 se nazývá síla testu.
Standardními hodnotami je 0,2 nebo 0,1.
5.3 Rozdělení statistických testů
Statistické testy rozdělujeme podle vlastností testovaných proměnných na dvě základní
skupiny: parametrické a neparametrické.
Parametrické testy můžeme použít pouze tehdy, jsou-li splněny všechny předpoklady pro
použití testu. Tyto testy mají větší sílu testu než testy neparametrické.
Neparametrické testy jsou speciální testy, které nevyžadují splnění žádných nebo skoro
žádných předpokladů o charakteru rozdělení studovaných náhodných veličin. Proto mají širší
použitelnost než testy parametrické. Jako nedostatek se uvádí zejména jejich menší síla
(tj. menší schopnost zamítnout nesprávnou nulovou hypotézu) v porovnání s parametrickými
testy.
Jsou-li splněny předpoklady použití parametrických testů, potřebují neparametrické testy
analogických hypotéz větší rozsah náhodného výběru k dosažení stejné síly testu proti
analogickým parametrickým testům.
Statistické testy také můžeme rozdělit podle počtu porovnávaných proměnných.
32
Jednovýběrové testy srovnávají hodnoty jedné statistické proměnné s referenční hodnotou
(s nějakou danou konkrétní hodnotou), např. jestli je průměrná výška studentů ve skupině
rovna 173 cm nebo zda průměrná teplota pacienta je 36,7°C,….
Dvouvýběrové testy porovnávají dva výběrové soubory a většinou se ptáme, jestli jsou oba
výběry stejné. Nejčastěji testujeme shodnost průměrů a rozptylů. Dvouvýběrové testy dále
dělíme na párové a nepárové.
Párové testy – porovnávají dvě proměnné, mezi kterými existuje nějaká závislost,
např. srovnání ranní a večerní teploty pacienta, srovnání hodnocení CK klienty před
a po zájezdu,… Hodnoty jsou měřené u jednoho subjektu dvakrát, zpravidla v nějakém
časovém odstupu. Z uvedeného vyplývá, že velikost porovnávaných skupin musí být
stejná.
Nepárové testy – testované skupiny jsou nezávislé, např. porovnání délky
hospitalizace ve dvou různých odděleních nemocnice, porovnání spokojenosti klientů
dvou cestovních kanceláří, srovnání průměrné hmotnosti mužů a žen,… Hodnoty jsou
měřené u každého subjektu jedenkrát (jedná se o jednu proměnnou) a rozdělení na dvě
skupiny zajišťuje jiná proměnná, která má právě dvě obměny (dvě oddělení, dvě CK,
pohlaví, …). Porovnávané skupiny tedy mohou mít (a v praxi zpravidla mají) různou
velikost.
Vícevýběrové testy porovnávají více skupin. Analogicky k dvouvýběrovým testům se může
jednat jak o porovnání více proměnných, tak o porovnání více skupin v rámci jedné
proměnné. Vícevýběrové testy nebudou v tomto kurzu studovány.
5.4 Kontingenční tabulky
Kontingenční tabulka přehledně shrnuje příslušné četnosti dvou statistických znaků. Záhlaví
řádků je tvořené obměnami jedné proměnné, záhlaví sloupců je tvořené obměnami druhé
proměnné. Kontingenční tabulka také často obsahuje celkové počty jednotlivých, sloupců
a celkový počet všech zkoumaných případů. Četnosti mohou být absolutní i relativní
(procentuální zastoupení).
Typ kontingenční tabulky se určuje počtem řádků a počtem sloupců , tzn. mluvíme o
kontingenční tabulce. Jednotlivé četnosti v kontingenční tabulce označujeme , kde
1, 2, … , je pořadí řádku, 1, 2, … , , je pořadí sloupce, ve kterém hodnota leží.
Kontingenční tabulky 2 2 nazýváme asociační (čtyřpolní) tabulky.
33
Pomocí kontingenčních tabulek můžeme analyzovat závislost dvou kategoriálních
proměnných. Koeficientů závislosti je mnoho a obvykle je klasifikujeme podle
velikosti tabulky (počtu řádků a sloupců),
typu proměnných (nominální, ordinální),
typu závislosti (symetrická, asymetrická).
Závislost dvou nominálních proměnných se nazývá kontingence. Základním testem pro
zjištění vzájemné závislosti dvou kategoriálních proměnných je (čteme chí kvadrát) test
o nezávislosti (kapitola 5.5.1).
Ze statistiky chí-kvadrát jsou odvozeny další koeficienty, které v případě nezávislosti
nabývají hodnoty 0.
Pokud bychom měli vyhodnotit intenzitu závislosti pouze jednoho vztahu, pak nejlépe
interpretovatelným koeficientem je Cramerovo V, protože nabývá hodnoty z intervalu 0, 1.
Můžeme tedy říci, zda závislost je velmi slabá – slabší – středně silná – silná. Ostatní
koeficienty se využívají pro porovnání intenzit závislostí (vyhodnocujeme-li intenzitu více
vztahů).
Závislost dvou ordinálních proměnných nazýváme korelace (viz kapitola 3 Korelační
analýza).
5.5 Neparametrické testy
Neparametrické testy používáme zejména pro kategoriální (nominální, ordinální) data, na
malé vzorky nebo na data, která nesplňují předpoklady parametrických testů. Výhodou
neparametrických testů je, že nevyžadují splnění žádných nebo skoro žádných předpokladů.
Mají ovšem tu nevýhodu, že jsou méně citlivé a nemusejí odhalit existující rozdíly mezi
skupinami.
5.5.1 Neparametrické testy pro kategoriální proměnné
5.5.1.1 test o nezávislosti
(čteme chí kvadrát) test o nezávislosti používáme pro zjištění závislosti mezi dvěma
nepárovými kategoriálními proměnnými, např. počet vykouřených cigaret závisí na pohlaví,
preference politických stran závisí na velikosti obce, ve které dotazovaný žije, pití
34
alkoholických nápojů závisí na vzdělání, volba destinace dovolené závisí na počtu dětí
v rodině,…
Nulová hypotéza předpokládá, že mezi pozorovanými a očekávanými četnostmi nebude
rozdíl, tzn. že proměnné budou nezávislé. Pokud se nám podaří zamítnout nulovou hypotézu,
přijmeme alternativní, která zní, že pozorovaná data jsou závislá.
Výpočet -hodnoty se technicky provádí na základě porovnání dvou kontingenčních tabulek
s pozorovanými četnostmi a s očekávanými četnostmi.
Předpoklady testu: očekávané četnosti by měly mít hodnotu nejméně 5 (někteří autoři
navrhují méně přísnější kritérium: alespoň 80 % očekávaných četností má mít hodnotu 5 nebo
vyšší). Pokud máme kontingenční tabulku typu 2 2, doporučuje se, aby očekávané četnosti
neklesly pod 10.
Formulce nulové a alternativní hypotézy
: Mezi proměnnými není závislost.
: Proměnné jsou závislé.
Poznámka: Obecně tabulku s očekávanými daty můžeme sestavit tak, že jednotlivá pole
kontingenční tabulky přepočítáme podle vzorce ∗ , kde je součet všech četností
v i-tém řádku, je součet všech četností v -tém sloupci a je celkový počet pozorovaných
hodnot. Takto přepočtené očekávané hodnoty využívají očekávaného procentuálního
zastoupení jednotlivých četností.
5.5.1.2 McNemarův test
McNemarův test používáme pro zjištění závislosti mezi dvěma párovými kategoriálními
proměnnými se dvěma obměnami, které jsou opakovaně měřená ve dvou různých časových
obdobích. Příkladem může být srovnání zdravotního stavu pacientů před zahájením a po
skončení léčebné procedury nebo průzkum volby konkrétního politického kandidáta před
zahájením a po skončení jeho volební kampaně.
Formulce nulové a alternativní hypotézy
: Mezi počátečními a konečnými daty se neprojevila žádná změna (nezávislost).
: Mezi počátečními a konečnými daty existuje rozdíl (závislost).
35
5.5.2 Neparametrické testy pro spojité proměnné
5.5.2.1 Mann-Whitney U test
Mann-Whitney U test používáme pro testování rozdílu mezi dvěma nezávislými skupinami
spojité proměnné, např. Liší se sebevědomí (měřeno na škále 0–100 %) žen a mužů? nebo
Liší se hmotnost lidí se světlými a s tmavými vlasy?
Formulce nulové a alternativní hypotézy
:Mediány obou skupin jsou stejné, tzn. .
: Mediány obou skupin se liší, tzn. .
5.5.2.2 Wilcoxonův znaménkový test
Wilcoxonův znaménkový test se používá pro porovnání dvou párových (opakovaně
měřených) spojitých proměnných měřených na stejném vzorku, např. Je obava ze statistiky na
začátku a na konci semestru stejná? nebo Je tep pacienta před vpichem jehly stejný jako po
vpichu.
Tento test srovnává pořadí rozdílů konečných a počátečních dat a lze jej použít za
předpokladu, že se data dají od sebe smysluplně odečítat.
Formulce nulové a alternativní hypotézy
:Mediány obou skupin jsou stejné, tzn. .
: Mediány obou skupin jsou jiné, tzn. .
5.6 T-testy
V minulé kapitole jsme se seznámili s tzv. neparametrickými testy. Jejich výhodou je, že
nevyžadují splnění žádných nebo skoro žádných předpokladů. Na druhou stranu jsou méně
citlivé a nemusejí zamítnout nulovou hypotézu i v případě existujících rozdílů mezi
skupinami. Pro kategoriální proměnné neexistuje žádná "lepší" varianta testu, ale pro spojité
proměnné lze při splnění konkrétních předpokladů použít tzv. t-testy, které jsou silnější než
testy neparametrické. T-testy tedy mohou zamítnout nulovou hypotézu i v případě, že
36
neparametrický testu nulovou hypotézu nezamítnul. Z uvedeného vyplývá, že použití t-testu
v případě zamítnutí nulové hypotézy neparametrickým testem je celkem zbytečná práce.
V tabulce Tab. 5-2 je shrnutí mezi uvedenými neparametrickými a parametrickými testy
a jejich vzájemné vztahy.
Tab. 5-2: Příslušné vztahy mezi neparametrickými a parametrickými testy
Neparametrické testy Parametrické testy
test o nezávislosti ---
McNemarův test ---
Mann-Whitney U test Dvouvýběrový t-test
Wilcoxonův znaménkový test Párový t-test
V této kapitole si ukážeme pouze dva t-testy, které jsou analogiemi k neparametrickým
testům, a to:
dvouvýběrový t-test – porovnáváme, jestli (průměrné) hodnoty dvou nezávislých
výběrů jsou stejné, např. hmotnost mužů a žen,
párový t-test – porovnáváme, jestli (průměrné) hodnoty dvou závislých (párových)
výběrů jsou stejné (mezi dvěma proměnnými může být časová závislost), např.
pacientova ranní a večerní teplota.
V obou případech srovnáváme hodnoty spojité proměnné (teplota) ve dvou kategoriích nebo
událostech (ráno, večer).
5.6.1 Testování rovnosti průměrů
5.6.1.1 Dvouvýběrový t-test
Dvouvýběrový t-test používáme pro srovnání hodnot dvou nezávislých výběrů, kdy
porovnáváme mezi sebou rozdíl spojité proměnné (výška, hmotnost) ve dvou skupinách
(pohlaví, oddělení A a B) (např. Liší se průměrná výška žen a mužů? nebo Je hmotnost
diabetiků na oddělení A a B stejná?). Tento test tedy použijeme v případě, že máme data
rozdělena pomocí tzv. grupovací proměnné do dvou skupin (např. muži a ženy) a chceme
porovnat průměry spojité proměnné (např. výška) pro tyto dvě skupiny.
Vzhledem k tomu, že se jedná o parametrický test, musí být splněny následující předpoklady:
37
výběry musejí pocházet z normálního rozdělení nebo rozsah souboru musí být větší
než 30,
oba vzorky musí mít stejný rozptyl nebo velmi malý rozdíl v četnostech obou výběrů
(poměr nmax/nmin < 1,5 ).
Tento test testuje následující nulovou hypotézu oproti alternativní hypotéze:
: (průměrné hodnoty obou skupin jsou stejné).
: (průměrné hodnoty obou skupin nejsou stejné).
5.6.1.2 Párový t-test
Párový t-test (výsledek opakovaného měření) se používá pro srovnání hodnot dvou spojitých
proměnných, které jsou měřené na jedné skupině ve dvou různých okamžicích zpravidla za
působení jiného vlivu, např. počet bílých krvinek před a po užití léku, strach ze statistiky
(škála 0 – 100 %) před začátkem a na konci semestru.
Pro použití tohoto testu musí být splněn následující předpoklad:
proměnné musejí mít normální rozdělení nebo četnost skupiny musí být vyšší než 30.
Tento test testuje následující nulovou hypotézu oproti alternativní hypotéze:
: (průměrné hodnoty obou proměnných jsou stejné).
: (průměrné hodnoty obou proměnných nejsou stejné).
5.6.2 Testování předpokladů normality
Jestliže četnosti v obou porovnávaných skupinách jsou malé, musíme ověřit, že data z obou
skupin pocházejí z normálního rozdělení. K tomuto účelu mohou sloužit dva testy, které
testují následující nulovou hypotézu oproti alternativní hypotéze:
: Výběr pochází z normálního rozdělení.
: Výběr nepochází z normálního rozdělení.
5.6.2.1 Kolmogorov-Smirnovův a Lilieforsův test
Tento test nemá žádné omezující podmínky, proto jím můžeme testovat jakákoli data. Pro
otestování normality používáme v praxi zpravidla Lilieforsovu modifikaci Kolmogorov-
Smirnovova testu. Kolmogorův-Smirnovův test použijeme v případě, že předem známe
parametry rozdělení, tzn. pro normálního rozdělení ; , kde je střední hodnota a
rozptyl, Lilieforsův test použijeme, pokud parametry neznáme (většina reálných dat).
38
5.6.2.2 Shapiro-Wilkův test normality
Jeden z nejsilnějších tesů normality, který používáme v případě, že testujeme normalitu
u souboru menšího rozsahu (zpravidla méně než 2000).
5.6.2.3 Posouzení normality z grafického výstupu
Normalitu proměnné také můžeme posoudit vzhledově podle histogramu nebo tzv. N-P
plotu (normálního grafu), v němž jsou body tvořené pomocí naměřených a očekávaných
hodnot soustředěné kolem přímky, která reprezentuje normální rozdělení proměnné. Čím více
se body budou blížit přímce, tím je lepší soulad mezi našimi hodnotami a normálním
rozdělením.
5.6.3 Testování shody rozptylů
Pokud máme dva výběry různých rozsahů (např. počet mužů několikanásobně převyšuje
počet žen zapojených do výzkumu), musíme pro dvouvýběrové t-testy ještě otestovat
homogenitu rozptylu. Při testování homogenity rozptylu testujeme následující nulovou
hypotézu oproti alternativní hypotéze:
: (rozptyly obou výběrů jsou stejné),
: (rozptyly obou výběrů nejsou stejné).
Software Statistika nabízí tři testy: F-test, Leveneův test a Brown-Forsythův test.
5.6.3.1 F-test
Předpokladem F-testu je normalita dat.
5.6.3.2 Leveneův test, Brown-Forsythův test
Testy jsou silnější (robustnější) než F-test, dají se použít i pro data, která nemají normální
rozdělení. V Leveneově testu počítáme rozptyl z průměrů, v Brown-Forsythově testu se
rozptyly počítají z mediánů (je tedy ještě robustnější).
39
ReseneprıkladysoftwaremSPSS
40
1 Sběr dat a jejich příprava pro import do softwaru SPSS
1.1 Vytvoření datové matice v MS Excel
Při sběru dat je potřeba postupovat co nejefektivnějším způsobem, jaký situace umožňuje.
Pokud údaje existují v elektronické podobě (např. v laboratorním měřicím přístroji nebo
v databázi pacientů), je potřeba najít způsob, jak je efektivně získat. Je velkou chybou data
ručně přepisovat, protože to je časově náročné a pravděpodobnost vzniku chyby je obrovská.
Místo toho je lepší požádat statistika, informatika nebo technika, který dokáže data exportovat
do vhodného programu (nejčastěji Excelu) za pár minut a bez chyb.
Pokud provádíme dotazníkové šetření, je vhodné vždy, pokud to situace umožňuje, nahradit
papírové formuláře elektronickými. Využití webových formulářů eliminuje riziko vzniku
chyby při přepisování údajů do počítače a získaná data je možné ihned analyzovat ve
statistickém programu. Takový postup zvýší kvalitu výzkumu a ušetří čas i energii.
Samozřejmě, že i při využití internetu je nutné mít na paměti, že musíme oslovovat záměrně
vybrané respondenty a požádat je o vyplnění dotazníku. Nelze postupovat tak, že dotazník
zveřejníme a čekáme, kdo jej objeví a vyplní.
Ať už máme data posbíraná jakýmkoli způsobem, převedeme je před zpracováním do
excelovské databáze. Jedná se o tabulku v Excelu, která se řídí několika pravidly:
Jednotlivé řádky tabulky obsahují informace o jednotlivých respondentech – tzn.
tabulka obsahuje tolik řádků, kolik jsme oslovili respondentů + jeden řádek záhlaví.
Záhlaví tabulky obsahuje názvy proměnných (sloupců tabulky) – zpravidla jde
o zkrácené znění otázek z dotazníku. Záhlaví tabulky smí tvořit pouze jeden řádek,
nesmí se zde slučovat buňky.
V prvním sloupci je vhodné uvést číslo respondenta, pro případ nějakých
nesrovnalostí a nutnosti kontroly. Stejně očíslované by měly být dotazníky či jiné
informační zdroje, aby byly propojené s elektronickou podobou dat.
V tabulce nesmí zůstat prázdný řádek nebo prázdný sloupec – to by rozdělilo databázi
na dvě databáze, které by nespolupracovaly. Prázdné buňky databáze obsahovat může
a v praxi i velmi často obsahuje. Pokud chybí informace (např. respondent
neodpověděl), necháme buňku prázdnou, nepíšeme otazník, pomlčku či jiný znak.
41
Formátování datové tabulky by mělo být co nejjednodušší, zejména nesmí být použito
slučování buněk. Příkladem databáze může být např. tabulka 1-1 z teoretické části.
Při zapisování jednotlivých informací do Excelu je nutné znát pravidla, kterými se Excel řídí
a která používá při zpracování informací:
Buňka může obsahovat číslo nebo text. S čísly Excel umí počítat, s texty nikoli, ale
umí je zpracovávat jinými metodami. Je tady nutné rozlišit, co Excel vnímá jako text a
co jako číslo. Ne vždy se jedná o triviální a zřejmou záležitost, takže Excel pomocí
zarovnání informuje uživatele, zda obsah buňky považuje za číslo (Excel zarovná
neformátovany obsah vpravo) nebo za text (Excel jej zarovná vlevo)2. Vyzkoušejte do
dvou buněk napsat „6 Kč“ a „6 kč“. Nepatrná změna (velké K zaměníme za malé k)
způsobí, že Excel s první informací bude schopen počítat, zatímco s druhou nikoli.
Projeví se to zarovnáním obsahu buňky. Aby nedocházelo ke zbytečným
nedorozuměním, jednotky uvedeme v záhlaví sloupce (např. výška v cm) a vlastní
data již píšeme bez jednotek.
Pokud zapisujeme do sloupce stejné texty, Excel nám nabízí texty, které jsme již
jednou ve sloupci napsali. Např. když budeme mít proměnnou pohlaví, je možné do
tohoto sloupce napsat muž nebo žena. Jestliže jsme již jednou slovo např. muž napsali,
v dalším řádku stačí napsat m a Excel sám nabízí celé slovo muž. Je vhodné s těmito
nabídkami pracovat a přijímat je pomocí klávesy Enter. Tím zajistíte, že vždy stejný
text napíšete stejně, neboť se nabízí víc variant: muž, muz, Muž, Muz, MUZ atd.
Poté, co dokončíme zápis všech dat, je nutné u všech proměnných (sloupců) provést
kontrolu, jaké informace obsahují. Za tímto účelem použijeme Automatický filtr, který
dokáže zobrazit, přehledný seznam všech obměn, které sloupec obsahuje. Pokud by
některou variantu bylo nutné změnit, je možné ji vyfiltrovat a změnu provést
najednou.
Vzhledem k tomu, že databáze bývají zpravidla obrovské tabulky, je vhodné ukotvit
první řádek, abychom vždy věděli, co který sloupec obsahuje. V tom případě však je
potřeba dávat pozor na skryté řádky a zobrazovat si je klávesovou zkratkou Ctrl +
Home.
2 Uživatel může nastavit zarovnání podle svých potřeb a změnit pomocí formátování původní zarovnání v neformátované buňce.
42
Z důvodu rozsahu databáze není nutné celou datovou tabulku označovat. Stačí umístit
aktivní buňku kamkoli do databáze a Excel si databázi načte sám – postupuje od
označené (aktivní) buňky nahoru, dolu, doleva a doprava tak daleko, až najde prázdný
řádek nebo sloupec. Nalezenou oblast potom zpracovává. Proto databáze nesmí
obsahovat prázdný řádek a sloupec. V prvním řádku oblasti je uvedeno pojmenování
sloupců, proto zde (ale ani jinde v databázi) nesmí být použito slučování buněk.
Po vytvoření a kontrole databáze je již možné přistoupit k vlastní analýze dat a jejich
prezentaci. V současné době je běžné pro tyto účely použít statistický software, buď Excel,
který obsahuje celou řadu statistických funkcí, ale pro pokročilejší analýzy je vhodné použít
specializovaný statistický software, jakým je např. SPSS, ale i STATISTICA nebo SAS.
1.2 Import dat do softwaru SPSS
Začínající uživatel programu SPSS se pravděpodobně rozhodne pro možnost připravit si
datový soubor v programu MS Excel, neboť se tak bude pohybovat v prostředí důvěrně
známém. Proto je nutné připomenout, jaká pravidla musí platit pro excelovskou tabulku, aby
správně mohla fungovat jako databáze a také aby ji bylo možné vyexportovat do programu
SPSS.
Tato tabulka by měla mít
pokud možno co nejjednodušší formátování, v žádném případě nesmí obsahovat
sloučené buňky,
nesmí obsahovat prázdný řádek nebo prázdný sloupec (což neznamená, že nemůže
obsahovat prázdné buňky),
do řádků píšeme odpovědi jednotlivých respondentů (případy resp. záznamy nebo
pozorování), první řádek by měl obsahovat názvy sledovaných vlastností (např.
označení jednotlivých otázek nebo jejich částí),
do sloupců zapisujeme tzv. proměnné (např. odpovědi na jednotlivé otázky nebo jejich
části), první sloupec může obsahovat názvy případů (např. jméno respondenta nebo
označení případu),
všechny informace by měly být uvedeny na jednom listu (tzn. existuje jediná tabulka,
která tvoří databázi).
43
Takto připravenou tabulku velmi jednoduše otevřít v programu SPSS pomocí příkazu Open
data document. Za pozornost stojí, že většina ikon (dostupných i nedostupných) je dobře
známa z MS Office – mají nejen stejný vzhled, ale i funkci.
SPSS dokáže importovat data z jiných programů velmi snadno pomocí dialogu File – Open –
Data. Je však nutné před prohledáváním uložených dat zkontrolovat nastavení položky Files
of type, která je přednastavena tak, aby bylo možné otevírat datové soubory SPSS, které mají
příponu sav. Pokud je v položce Files of type nastaven vhodný typ (viz obrázek 1-1), nic
nebrání tomu, aby byl obvyklým způsobem nalezen a otevřen požadovaný soubor.
Obrázek 1-1: Otevření souboru xlsx nebo xls
Nyní proběhne pro uživatele velmi nenáročný import dat do SPSS. V dalším kroku (viz
obrázek 1-2) pouze potvrdíme volbu tlačítkem OK (rozsah ponecháme tak, jak jej program
sám nastaví, a protože námi připravená Excelovská tabulka obsahuje v prvním řádku názvy
proměnných, vždy v této tabulce zkontrolujeme zatržení příslušné volby).
44
Obrázek 1-2: Import dat z Excelu
1.3 Příprava datové matice
Dříve, než přistoupíme k vlastní analýze dat, je nutné připravit data do podoby, ve které na
nich bude možné provádět potřebné analýzy. Jde zejména o kontrolu a úpravu základních
nastavení datové matice a kontrolu vložených dat.
1.3.1 Pohled na proměnné (Variable View)
Jak je vidět na obrázku 1-3, na data importovaná do programu SPSS je možné pohlížet dvěma
způsoby: vlastní pohled na data umožňuje záložka Data View a bližší informace
o proměnných je na záložce Variable View. Na této záložce je možné proměnné přidávat,
mazat nebo měnit jejich pořadí.
Před vlastním zpracováním dat je nejprve nutné upravit proměnné na záložce Variable View.
Obrázek 1-3: Variable View
45
Pro každou proměnnou je možné nastavit celou řadu parametrů:
Name – identifikuje proměnnou, jedná se o krátký text bez mezer, který začíná
písmenem. Není vhodné používat českou diakritiku.
Type – nejčastěji používané typy jsou String (pro textové proměnné), Date (pro
proměnné obsahující data) a Numeric (číselné spojité proměnné).
Width – šířka sloupce v datové matici.
Decimals – počet desetinných míst u číselné proměnné.
Label – popis proměnné.
Values – slouží k překódování kategoriálních proměnných (viz dále).
Missing – slouží k identifikaci obměn, které nechceme zahrnovat do analýzy a které
budeme považovat za chybějící hodnoty (viz dále).
Columns – počet míst v proměnné.
Align – zarovnání ve sloupci (čísla zarovnáváme vpravo).
Measure – volíme typ proměnné (nominální, ordinální, číselná).
Role – pro běžně užívané statistické metody nebudeme využívat, ponecháme typ
Imput.
1.3.2 Kódování textových proměnných
Pokud datový soubor, který jsme připravili v Excelu, obsahuje textové proměnné, je nutné po
importu do SPSS nejprve tyto proměnné tzv. překódovat, tzn. každé kategorii přiřadit číselný
kód. Má-li např. proměnná Pohlaví dvě obměny (žena/muž), překódováním jim přiřadíme
číselné kódy např. žena = 1 a muž = 2. Překódování je nutné proto, aby bylo možné provádět
nad daty výpočty a lze je provést pomocí Automatic Recode, které nalezneme pod položkou
Transform v hlavním menu.
46
Obrázek 1-4: Automatické překódování
S dialogovým oknem uvedeném na obrázku 1-4 pracujeme následujícím způsobem: V levé
části vybereme proměnnou, kterou chceme překódovat, tedy přiřadit každé obměně pořadové
číslo. Pomocí modré šipky tuto proměnnou přesuneme do pravé části dialogového okna a do
okénka New Name vepíšeme nový název této proměnné, který potvrdíme tlačítkem Add New
Name. Toto zopakujeme pro všechny textové proměnné. Po odeslání tlačítkem OK se pro
každou textovou proměnnou vytvoří nová proměnná, která bude obsahovat obě informace –
původní text a jeho číselný kód. Mezi zobrazením textových hodnot a číselných kódů je
možné přepínat tlačítkem Value Labels .
1.3.3 Kontrola dat – frekvenční tabulky, popisná statistika
Před vlastními analýzami dat je nutné data prohlédnout a podívat se, zda neobsahují nějaké
zřejmé chyby. V tuto chvíli můžeme odhalit extrémní hodnoty, které se nemohou v souboru
dat vyskytovat. Když je např. ve spojité proměnné Výška uveden údaj 56 cm, jedná se
pravděpodobně o chybu, která mohla vzniknout např. chybným zápisem čísla 156. Tato chyba
se dá odhalit a opravit. Pokud však místo výšky 156 je uvedena výška 165, chyba kontrolou
47
dat odhalena nebude. V kategoriální proměnné Pohlaví se mohou vyskytovat jen dvě obměny:
žena = 1 a muž = 2, jakákoli jiná hodnota indikuje chybu v datech.
Při přepisování dat je proto nutné pracovat velmi pečlivě a nesvěřovat tuto práci lidem, kteří
nemají o datech jasnou představu. Protože výška 135 cm může znamenat chybu v datech nebo
skutečnost, že byl osloven člověk, který skutečně měří jen 135 cm (což je málo
pravděpodobné, nikoli nemožné). Pouze člověk, který data získával, ví, zda mezi jeho
respondenty člověk s touto výškou skutečně byl, či zda se jedná o chybu.
Pro kontrolu kategoriální proměnné vytvoříme frekvenční tabulku (tabulku četností).
Obrázek 1-5 zachycuje dialog, který se zobrazí po příkazu Analyze – Descriptive Statistics –
Frequencies a pomocí něhož lze vygenerovat frekvenční tabulku pro proměnné uvedené
v okně Variable(s). Po potvrzení volby tlačítkem OK je vygenerována frekvenční tabulka (viz
Tabulka 1-1).
Obrázek 1-5: Vytvoření frekvenční tabulky
Tabulka 1-1: Ukázka frekvenční tabulky pro kategoriální proměnnou Pohlaví
Pohlaví
Frequency Percent Valid Percent Cumulative
Percent
Valid
žena 30 50,0 50,0 50,0
muž 30 50,0 50,0 100,0
Total 60 100,0 100,0
48
Ke kontrole spojité proměnné vygenerujeme popisnou statistiku a zkontrolujeme minimum,
maximum, aritmetický průměr a směrodatnou odchylku. Zobrazíme dialog Analyze –
Descriptive Statistics – Descriptives a do okna Variable(s) zadáme spojité proměnné.
Výsledek analýzy je uveden v tabulce Tabulka 1-2.
Tabulka 1-2: Výpočet popisné statistiky pro spojitou proměnnou
Descriptive Statistics
N Minimum Maximum Mean Std. Deviation
Hmotnost 60 53 105 79,77 12,220
Výška 60 160 194 173,85 9,719
Věk 60 19 64 37,73 12,059
Valid N (listwise) 60
1.3.4 Překódování kategoriální proměnné
Jak již bylo uvedeno v kapitole 1.3.2, kategoriální proměnná by měla být vždy kódována, to
znamená, že by měla obsahovat kromě původního textu také jeho číselný kód. Přiřazení
číselných kódů jednotlivým položkám je možné vidět a upravovat na záložce Variable View
ve sloupci Values. Po kliknutí do buňky ve sloupci Values a řádku kategoriální proměnné se
zobrazí dialog, který ukazuje Obrázek 1-6. Pomocí tohoto dialogu je možné kódování položek
upravovat tak, aby pořadí obměn proměnné (viz Tabulka 1-1) odpovídalo našim potřebám.
Obrázek 1-6: Kódování kategoriální proměnné
49
Pro přidání kódované položky je potřeba vyplnit kód (Value) a textový popisek (Label) a poté
přidat do seznamu tlačítkem Add. Pro změnu položky (Change) nebo její odstranění (Remove)
je nutné položku nejprve označit a poté ji měnit nebo mazat.
1.3.5 Chybějící hodnoty
V praxi může poměrně často dojít k situaci, že některé informace o respondentech neznáme.
Může to být způsobené tím, že respondent nechtěl nebo zapomněl zodpovědět otázku nebo je
jeho odpověď špatně čitelná či nastal nějaký jiný problém. Pokud neznáme odpověď,
necháváme buňku prázdnou. V žádném případě ji nevyplňujeme otazníkem, pomlčkou a
podobně. Po importu do SPSS bude buňka vyplněna tečkou a systém tuto informaci nebude
používat do prováděných analýz.
Poněkud odlišná je situace, kdy sice respondent zvolil některou z nabízených odpovědí (např.
nevím nebo nechci odpovídat, příp. další), my však takovou odpověď nechceme do analýzy
zahrnout. V tuto chvíli není vhodné takovéto odpovědi smazat, protože bychom tím přišli a
část informací. Je ale možné na záložce Variable View ve sloupci Missing označit takovéto
položky. Obrázek 1-7 ukazuje, jaké možnosti má uživatel k dispozici:
Obrázek 1-7: Definování chybějících hodnot
Discrete missing values – umožňuje zadat až tři kódy položek, které nebudou do
analýz zahrnuty,
Range plus one optional discrete missing value – umožňuje zadat číselný interval a
jednu diskrétní hodnotu.
50
U některých analýz, ze kterých je nutné chybějící hodnoty vyloučit, potom SPSS nabízí dvě
možnosti, jak při vyloučení chybějících hodnot postupovat:
Exclude cases listwise – z analýz jsou vyloučeni všichni ti respondenti, u kterých je
nějaká chybějící hodnota.
Exclude cases pairwise – jsou vyloučeni jen respondenti, u kterých je v analyzovaných
proměnných nějaká chybějící hodnota.
1.4 Popisná statistika
V kapitole 1.3 byl naznačen postup, jak vytvořit frekvenční tabulku pro kategoriální
proměnnou a jak vypočítat několik základních statistik pro spojitou proměnnou. V této
kapitole ukážeme funkci Explore, která je jednou ze základních průzkumných metod
používaných pro spojité proměnné. Funkci vyvoláme příkazem Analyze – Descriptive
Statistics – Explore. Obrázek 1-8 ukazuje úvodní dialog této funkce, ve kterém volíme
proměnné. Do okna Dependent list přesuneme spojité proměnné, které chceme analyzovat
(zpravidla všechny). Další dvě okna zpravidla nevyplňujeme – okno Factor list umožňuje
vložit kategoriální proměnnou, která rozdělí soubor na několik částí (pro každou kategorii
jednu) a ty je možné mezi sebou porovnat. V našem případě by proměnná Pohlaví umožnila
porovnat hmotnosti mužů a žen. Do okna Label Cases by vkládáme proměnnou, která
identifikuje jednotlivé případy, v našem datovém souboru takovou proměnnou nemáme.
Pomocí tlačítka Statistics zvolíme Descriptives a Outliers.
Pomocí tlačítka Plots zatrhneme v části Descriptives volbu Histogram. Dále zatrhneme volbu
Normality plots with tests.
Pomocí tlačítka Options zvolíme Exclude cases pairwise.
Analýzu spustíme tlačítkem OK.
51
Obrázek 1-8: Úvodní dialog funkce Explore
Výstupem je několik tabulek a grafů:
tabulka Descriptives obsahuje základní popisnou statistiku,
tabulka Extreme Values obsahuje 5 nejmenších a 5 největších hodnot,
Test of normality obsahuje ve sloupcích Sig. p-hodnotu dvou testů normality
(interpretace bude vysvětlena v 5. kapitole),
Histogram (viz Obrázek 1-9),
Normal Q–Q plot, který slouží k posouzení normality v datech – normálně rozložená
data v tomto grafu sledují přímku y = x, která je v grafu vyznačena. Jakákoli odchylka
bodů od této přímky ukazuje na odchylku od normality v datech. (Obrázek 1-10),
Detrended Normal Q–Q plot, který rovněž slouží k posouzení normality v datech –
normálně rozložená data v tomto grafu sledují přímku y = 0, která je v grafu
vyznačena. (Obrázek 1-11),
Observed Value znázorněné pomocí krabicového grafu (viz Obrázek 1-12).
52
Obrázek 1-9: Histogram proměnné Hmotnost
Obrázek 1-10: Q–Q graf proměnné Hmotnost
53
Obrázek 1-11: Detrended Normal Q–Q plot
Obrázek 1-12: Krabicový graf proměnné Hmotnost
54
2 Grafická prezentace dat
2.1 Grafická prezentace kategoriálních dat
2.1.1 Výsečový graf
Výsečový graf, který je vhodný zejména pro nominální proměnné, lze vytvořit pomocí
příkazu Graphs – Legacy dialogs – Pie. V dalším dialogovém okně klikneme na Summaries
for groups of cases. Potvrdíme stisknutím tlačítka Define. Zobrazí se nám dialogové okno,
které je na obr. 2-1.
Obrázek 2-1: Definování výsečového grafu
55
V nabídce Slices Representant vybereme, jaké hodnoty budou charakterizovat jednotlivé
kategorie, např. v popiscích (N of cases jsou absolutní četnosti, % of cases jsou relativní
četnosti). Do položky Define Slices by vybereme danou (nominální) proměnnou. Potvrdíme
tlačítkem OK.
Všechny součásti grafu je možné upravovat tak, že na graf poklepeme myší (dvojklik) a
zobrazí se nám okno s úpravami grafu (obr.2-2).
Obrázek 2-2: Úprava grafu
Zde můžeme měnit např.
Popisky v legendě – dvakrát pomalu klikneme na slovo, které chceme změnit (slovo je
ve zlatém rámečku a kurzor změní barvu na červenou).
Výplň jednotlivých součástí grafu .
Popisky .
Nadpis grafu3 .
Skrýt/zobrazit legendu .
2.1.2 Sloupcový graf
Nominální proměnnou je možné popsat také sloupcovým grafem. Tato možnost je však
v praxi využívána méně často než výsečový graf a využívá se zejména tehdy, když proměnná
má více obměn a výsečový graf by byl nepřehledný. Nejčastěji však tento typ grafu použijeme
pro ordinální proměnnou.
3 V praxi však grafy vytváříme bez nadpisu a raději každý graf opatříme titulkem.
56
Sloupcový graf vytvoříme pomocí příkazu Graphs – Legacy Dialogs – Bar. Pokud chceme
graficky znázornit pouze četnost jedné (kategoriální) proměnné v dalším zvolíme Simple a
Summaries for groups of cases. Zobrazí se dialogové okno, které je na obr. 2-3.
Obrázek 2-3: Definování sloupcového grafu
V nabídce Bars Representant vybereme, jaké hodnoty budou charakterizovat jednotlivé
kategorie, např. v popiscích (N of cases – absolutní četnosti, % of cases – relativní četnosti,
Cum. N – kumulativní absolutní četnosti, Cum. % – kumulativní relativní četnosti, Other
statistic (e.g., mean) – charakteristiky vybrané spojité proměnné, např. průměrný věk,
57
směrodatná odchylka váhy,…). Do položky Category Axis vybereme danou (kategoriální)
proměnnou. Potvrdíme tlačítkem OK.
Všechny jeho součásti je opět možné upravovat tak, že na ně poklepeme myší. Ukázka
sloupcového grafu je na obrázku 2-4.
Obrázek 2-4: Ukázka sloupcového grafu
2.2 Kategorizované grafy
Kategorizované grafy slouží k porovnání odpovědí respondentů různých kategorií. Tedy
kromě zkoumané proměnné musíme zadat i tzv. grupovací proměnnou, která je kategoriální a
počet obměn této proměnné určuje počet jednotlivých grafů, které v rámci kategorizovaného
grafu vzniknou. Příklad kategorizovaného grafu je vidět na obrázku 2-5.
58
Obrázek 2-5: Ukázka kategorizovaných grafů
Kategorizované grafy vytvoříme stejně, jak když jsme vytvářeli výsečové nebo sloupcové
grafy (Graphs – Legacy Dialogs – Bar), v další nabídce vybereme Simple a Summaries for
groups of cases). V dialogovém okně, které je totožné s tím, co je na obrázku 2-3, v nabídce
Panel by umístíme grupovací proměnnou do Rows (kategorizované grafy budou pod sebou
v řádcích), případně do Columns (jednotlivé grafy budou umístěné vedle sebe ve sloupcích).
Použít můžeme i víc grupovacích proměnných, viz obrázek 2-6.
59
Obrázek 2-6: Ukázka kategorizovaných grafů
2.3 Spojitá proměnná
Pro proměnnou, která nabývá mnoha hodnot, je nutné použít skupinové třídění a pro tento typ
proměnné je nejvhodnějším typem grafu histogram nebo krabicový graf. Oba grafy jsou běžné
a často používané.
2.3.1 Histogram
Histogram je možné vytvořit pomocí nabídky Graphs – Legacy Dialogs – Histogram.
Spojitou proměnnou přemístíme do položky Variable. Zaškrtneme-li Display normal curve,
můžeme graf proložit Gaussovou křivkou normálního rozdělení. Díky tomu dostaneme
grafický přehled o možnosti normálního rozdělení naměřených dat. Pokud bychom chtěli
kategorizovaný histogram (např. zvlášť pro muže a ženy), uvedeme v nabídce Panel by –
60
Rows, příp. Panel by – Columns grupovací proměnnou. Vše potvrdíme OK. Ukázka
histogramu je na obrázku 2-7.
Obrázek 2-7: Ukázka histogramu
Chceme-li změnit parametry histogramu, jako např. počet nebo velikost intervalů, můžeme
tak učinit pomocí editačního okna grafu – dvojklik na graf. Dalším dvojklikem na libovolný
sloupec histogramu se dostaneme do okna vlastností histogramu, kde můžeme na kartě
Binning upravovat některé parametry. Na obrázku 2-8 je ukázka, jak si můžeme šířku
intervalu nastavit na 5 jednotek.
61
Obrázek 2-8: Nastavení počtu nebo šířky intervalů
2.3.2 Krabicový graf
Krabicové grafy v programy SPSS jsou tvořené mediánem (čára uvnitř krabice), kvartily
(dolní a horní „víko“ krabice), nejmenší a největší hodnotou („vousy“) a odlehlými hodnotami
(kolečka). Vytvoříme ho příkazy Graphs – Legacy Dialogs – Boxplot. V další nabídce
vybereme Simple a Summaries for groups of cases. Do pole Variable přeneseme proměnnou
(např. váha), do pole Category Axis vložíme kategoriální proměnnou (např. pohlaví). Program
SPSS automaticky popisuje případné odlehlé hodnoty pomocí čísla řádku, ve kterém se
položka nachází. Pokud bychom je chtěli popsat jinak, např. pomocí proměnné ID, roku
narození, výškou… můžeme tuto proměnnou vložit do pole Label cases by. Ukázka
krabicového grafu je na obrázku 2-9.
62
Obrázek 2-9: Ukázka krabicového grafu
2.4 Závislost proměnných – bodový graf
Pro grafické prezentování a posuzování vztahu dvou proměnných se používá bodový graf.
Je-li jedna proměnná závislá na druhé proměnné (např. váha může být závislá na výšce
člověka), je nutné tuto závislou proměnnou umístit na svislou osu y.
Na obrázku 2-10 je prezentován vztah mezi diastolickým a systolickým tlakem. Zde
nedokážeme rozhodnout, která proměnná je závislá a která nezávislá, takže je jedno, kterou
z proměnných umístíme na osu x a kterou na osu y.
Bodový graf je možné vytvořit pomocí příkazu Graphs – Legacy Dialogs – Scatter/Dot.
V další nabídce vybereme Simple Scatter. Do pole Y Axis přeneseme jednu proměnnou (např.
diastolický tlak), do pole X Axis vložíme druhou (např. systolický tlak).
63
Obrázek 2-10: Ukázka bodového grafu
Vytvořený graf můžeme proložit regresní přímkou (funkcí). Dvojklikem se dostaneme do
okna s možností úprav grafu (obrázek 2-11). Použijeme tlačítko , poté se zobrazí
dialogové okno, které je na obrázku 2-11. Označíme přímku (Linear). Chceme-li si zobrazit
rovnici regresní funkce, zaškrtneme Attach label to line.
64
Obrázek 2-11: Proložení bodového grafu regresní přímkou
2.5 Spojnicový graf
Spojnicový graf nejčastěji používáme k prezentování časových řad. Vytvoříme ho Graphs –
Legacy Dialogs – Line. Chceme-li zobrazit jednu časovou řadu, označíme Simple, pokud jich
v jednom grafu chceme víc, označíme Multiple, Dále označíme Values of individual cases.
Zobrazí se dialogové okno, které je na obrázku 2-12.
Do pole Lines Represent vybereme proměnnou/proměnné, v nabídce Category Labels
můžeme změnit popis vodorovné osy, např. rok. Ukázka spojnicového grafu je na obrázku 2-
13.
Spojnicové grafy můžeme vytvářet i jako kategorizované grafy. (Nabídka Panel by.)
65
Obrázek 2-12: Tvorba spojnicového grafu
66
Obrázek 2-13: Ukázka spojnicového grafu
3 Korelační analýza
3.1 Pearsonova korelační analýza
Úkol 1: Otevřete soubor absence.sav a zjistěte, zda existuje vztah mezi počtem dní absence za
rok (proměnná Y) a věkem pracovníka (proměnná X).
Řešení:
Předpoklad o dvourozměrné normalitě dat ověříme orientačně pomocí 2D bodového grafu.
Ten je možné vytvořit Graphs – Legacy Dialogs – Scatter/Dot, Simple Scatter. Bodový
graf je znázorněný na obrázku 3-1.
67
Obrázek 3-1: Závislost absence na věku
Při splnění předpokladu o dvourozměrné normalitě dat by body měly ležet uvnitř pomyslné
elipsy. Vzhled grafu svědčí o tom, že předpoklad je oprávněný.
Nyní přejděme k vlastnímu zjištění korelačního koeficientu. Z menu Analyze vybereme
Correlate a poté Bivariate. Do pole Variables přeneseme obě proměnné (absenci, věk).
V nabídce Correlation Coeffiecients označíme Pearson (musí být splněný předpoklad
normality). Po potvrzení OK dostaneme tabulku 3-1.
Tabulka 3-3: Korelační koeficient a signifikance
Correlations
Absence Věk
Absence Pearson Correlation 1 -,858**
Sig. (2-tailed) ,000
N 31 31
Věk Pearson Correlation -,858** 1
Sig. (2-tailed) ,000
N 31 31
**. Correlation is significant at the 0.01 level (2-tailed).
68
Korelační koeficient pro proměnné věk a absence nabývá hodnoty – 0,858, což ukazuje na
silnou nepřímou lineární závislost mezi těmito proměnnými.
Další věc, kterou musíme posoudit, je statistická významnost (uvedená jako Sig. 2 tailed). Ta
nám neurčuje, jak moc jsou na sobě proměnné závislé (to nám určuje korelační koeficient),
ale jak moc se můžeme na získaný výsledek spolehnout. Signifikance (významnost) by
neměla překročit standardní p-hodnotu 0,05. V našem případě je signifikance 0,000 (SPSS
zaokrouhluje na tři desetinná místa), tudíž je korelační koeficient statisticky významný.
Úkol 2: V tabulce Test.sav jsou výsledky studentů ze dvou zápočtových testů. Určete
parametry obou sdružených regresních přímek, odhadněte počet bodů z druhého testu, jestliže
z prvního testu dostal student 15 bodů a počet bodů z prvního testu, jestliže student z druhého
testu získal 10 bodů. Dále vypočítejte korelační koeficient a na hladině významnosti = 0,05
otestujte hypotézu, zda existuje lineární závislost mezi výsledky obou testů.
Řešení:
Postupujeme podobně jako v předchozím příkladu. V tabulce 3-2 je zobrazený korelační
koeficient a signifikance. Korelační koeficient je 0,254, tzn. mezi body z 1. a 2. testu je velmi
malá závislost. (Nasvědčuje tomu i graf – obrázky 3-2 a 3-3.) Signifikance je 0,011 (< 0,05),
výsledek je tedy statisticky významný.
Tabulka 3-4: Korelační koeficient a signifikance
Correlations
Test 1 Test 2
Test 1 Pearson Correlation 1 ,254*
Sig. (2-tailed) ,011
N 99 99
Test 2 Pearson Correlation ,254* 1
Sig. (2-tailed) ,011
N 99 99
*. Correlation is significant at the 0.05 level (2-tailed).
Na položené otázky je možné odpovědět pomocí bodového grafu, do kterého vygenerujeme
rovnici sdružené regresní přímky a koeficient determinace.
69
Jako proměnnou X označíme 1. test a do proměnné Y vložíme 2. test. Výsledný graf je
zobrazen na obrázku 3-2.
Obrázek 3-2
Koeficient determinace nabývá hodnoty 0,064, tedy příslušná regresní přímka (y = 9,13 +
0,25x) vysvětluje 6,4 % variability závislé proměnné. Pokud do rovnice této regresní přímky
dosadíme za x = 15, získáme příslušný odhad počtu bodů z 2. testu: 12,88. U studentů, kteří
v prvním testu dosáhli 15 bodů, tedy můžeme ve druhém testu očekávat přibližně 13 bodů.
Nyní zaměníme proměnné a vytvoříme další bodový graf – 2. test označíme jako proměnnou
X a 1. test jako proměnnou Y. Výsledný graf je na obrázku 3-3.
70
Obrázek 3-3
Koeficient determinace vyšel shodně s předchozím výpočtem. Rovnice druhé regresní přímky
vyšla poněkud odlišně. Pokud do ní za x dosadíme 10, dostáváme y = 9,59. U studentů, kteří
dosáhli ve druhém testu 10 bodů, lze očekávat, že v prvním testu získali průměrně 9,6 bodů.
Úloha 3: Při zkoumání hodinové výkonnosti dělníka na jeho věku a době zapracování byly
zjištěny údaje, které jsou uvedeny v souboru vykon.sav. Určete párové koeficienty korelace a
jejich statistické významnosti.
Řešení:
Z menu Analyze vybereme Correlate a poté Bivariate. Do pole Variables přeneseme
všechny tři proměnné (věk, zapracování, výkon).
Předpoklad o vícerozměrné normalitě dat lze orientačně ověřit pomocí 3D bodového grafu.
Ten je možné vytvořit na kartě Graphs – Lergacy Dialogs – Scatter/Dot – 3D. Do pole
Y Axis byla vložená proměnná výkon, do pole X Axis proměnná věk, do pole Z Axis proměnná
zapracování. Graf je na obrázku 3-4.
71
Obrázek 3-4
Hodnoty párových korelací vygenerujeme pomocí Analyze – Correlate – Bivariate. Do pole
Variables přeneseme všechny tři proměnné (věk, zapracování, výkon). Zkontrolujeme, jestli
jsme zaškrtli Pearsonův korelační koeficient.
Párové korelační koeficienty a příslušné signifikance jsou uvedené v tabulce 3-3.
Tabulka 3-5: Párové korelační koeficienty
Correlations
věk zapracování výkon
věk Pearson Correlation 1 ,837** ,555**
Sig. (2-tailed) ,000 ,001
N 30 30 30
zapracování Pearson Correlation ,837** 1 ,545**
Sig. (2-tailed) ,000 ,002
N 30 30 30
výkon Pearson Correlation ,555** ,545** 1
Sig. (2-tailed) ,001 ,002
N 30 30 30
**. Correlation is significant at the 0.01 level (2-tailed).
Z korelační matice vyplývá, že mezi hodinovou výkonností dělníka a jeho věkem (resp. dobou
zapracování) existuje středně silná pozitivní závislost (korelační koeficient je 0,555 resp.
0,545). Mezi věkem pracovníka a dobou zapracování je silná pozitivní závislost (korelační
72
koeficient je 0,837). Všechny výsledky jsou statisticky významné. Kladná hodnota
koeficientu korelace znamená, že se jedná o přímou závislost – vyššímu věku dělníka
odpovídá větší doba zapracovanosti.
3.2 Pořadová korelace
Úkol 1: Na základě údajů v souboru Domacnosti.sav, který obsahuje pořadí 15 náhodně
vybraných domácností podle vybavenosti a podle podílu výdajů na služby, máme ověřit
hypotézu, že podíl výdajů domácnosti na služby nezávisí na vybavenosti domácnosti
předměty dlouhodobé spotřeby.
Řešení:
Z hlavní nabídky vybereme Analyze – Correlate – Bivariate. Do pole Variables vložíme obě
proměnné (vybavenost, výdaje). V nabídce Correlation Coeficients zaškrtneme Spearman.
Potvrdíme tlačítkem OK. Výsledek je zobrazen v tabulce 3-4.
Tabulka 3-6: Spearmanův korelační koeficient
Correlations
vybavenost výdaje
Spearman's rho vybavenost Correlation Coefficient 1,000 -,160
Sig. (2-tailed) . ,570
N 15 15
výdaje Correlation Coefficient -,160 1,000
Sig. (2-tailed) ,570 .
N 15 15
Spearmanův korelační koeficient vyšel – 0,160, ale není statisticky významný (signifikance je
0,570, není menší než standardních 0,05). Nemůžeme tedy potvrdit, že podíl výdajů na služby
s rostoucí vybaveností klesá.
Úkol 2: V souboru Obrat.sav je uveden počet obyvatel několika vybraných států (proměnná
X) a obrat zahraničního obchodu (proměnná Y). Zjistěte, zda existuje závislost mezi počtem
obyvatel a obratem.
73
Řešení:
Data si můžeme prohlédnout pomocí bodového grafu. V nabídce Graphs – Legacy Dialogs –
Scatter/Dot zvolíme Simple Scatter. Zadáme proměnné a potvrdíme tlačítkem OK.
Z bodového grafu, který je uveden na obrázku 3-5, je zřejmé, že proměnná X obsahuje odlehlá
pozorování, a proto použijeme jako míru závislosti Spearmanův korelační koeficient,
případně Kendallovo .
Obrázek 3-5
Z hlavní nabídky vybereme Analyze – Correlate – Bivariate. Do pole Variables vložíme obě
proměnné (počet obyvatel, obrat). V nabídce Correlation Coeficients zaškrtneme Spearman a
Kendall’s tau-b. Potvrdíme tlačítkem OK. Výsledek je zobrazen v tabulce 5.
Spearmanův korelační koeficient vyšel 0,664 a je statisticky významný. To ukazuje na středně
silnou závislost mezi pořadím podle počtu obyvatel a pořadím podle velikosti obratu
zahraničního obchodu. (Hodnota Kendallova je 0,564 a udává nám pravděpodobnost, že
seřazení dvou náhodně vybraných států podle počtu obyvatel bude stejné jako podle obratu.)
74
Tabulka 3-7: Pořadová korelace
Correlations
Počet obyvatel Obrat
Kendall's tau_b Počet obyvatel Correlation Coefficient 1,000 ,564*
Sig. (2-tailed) . ,016
N 11 11
Obrat Correlation Coefficient ,564* 1,000
Sig. (2-tailed) ,016 .
N 11 11
Spearman's rho Počet obyvatel Correlation Coefficient 1,000 ,664*
Sig. (2-tailed) . ,026
N 11 11
Obrat Correlation Coefficient ,664* 1,000
Sig. (2-tailed) ,026 .
N 11 11
*. Correlation is significant at the 0.05 level (2-tailed).
4 Lineární regrese
4.1 Jedna nezávislá proměnná
Úkol 1: V souboru Poptavka.sav jsou uvedeny údaje od šesti obchodníků, kteří uvedli
poptávku po jistém druhu zboží v loňském a letošním roce (v tisících Kč).
Odhadněte parametry regresní přímky, která vystihuje závislost letošní poptávky (proměnná
Y) na loňské poptávce (proměnná X) a tyto koeficienty interpretujte. Určete, kolik procent
variability závislé proměnné model vysvětluje.
Dále odhadněte střední hodnotu letošní poptávky při loňské poptávce 110 ks.
Zhodnoťte rezidua a rozhodněte, zda je použití lineárního modelu pro tento případ vhodné.
Řešení:
Nejprve si prohlédneme data a prověříme, zda neobsahují nějaké odlehlé hodnoty (chyby
nebo netypické případy), které by mohly výsledky regrese zkreslit. Vytvoříme bodový graf,
ve kterém na ose x bude nezávislá proměnná (loňská poptávka) a na ose y závislá proměnná
(letošní poptávka). V nabídku vyvoláme příkazy Graphs – Legacy Dialogs – Scatter/Dot,
poté vybereme Simple Scatter a v dialogovém okně bodového grafu zadáme proměnné. Vše
75
potvrdíme tlačítkem OK. Z bodového grafu, který je uvedený na obrázku 4-1, je zřejmé, že
data neobsahují odlehlé hodnoty.
Do grafu můžeme vložit regresní přímku s rovnicí a koeficient determinace (viz kapitola 2).
Pokud by nám toto stačilo, mohli bychom výsledek interpretovat, že lineární regrese
vysvětluje 94,5 % variability závislé proměnné (R2 = 0,945), závislost mezi loňskou a letošní
poptávkou je velmi silná a pozitivní (R = 0,972, museli bychom sami odmocnit). Rovnice
regresní přímky je Y = 0,69 + 1,27 X. Lineární člen z rovnice ještě můžeme okomentovat tak,
že pokud se zvýší loňská poptávka o 1 tisíc Kč, letošní poptávka bude o 1,27 tisíce vyšší.
Obrázek 4-1: Závislost poptávky
Pokud chceme použít pokročilejší metody regresní analýzy, nabídku vyvoláme z menu
Analyze – Regression – Linear. V dialogovém okně lineární regrese zvolíme závislou –
Dependent (letos) a nezávislou – Independent(s) (loni) proměnnou, potvrdíme OK. Mimo
jiné se vygeneruje několik tabulek, z nichž nás budou zajímat zejména dvě (tabulka 4-1,
tabulka 4-2).
V tabulce 4-1 je uvedený korelační koeficient (0,972, velmi silná pozitivní závislost),
koeficient determinace (0,945, regresní model vysvětluje 94,5 % variability závislé proměnné
– letošní poptávka), upravený koeficient determinace (0,931), který se používá pro porovnání
modelů z různým počtem nezávislých proměnných.
76
Tabulka 4-8: Přehled lineárního modelu
Model Summary
Model R R Square Adjusted R
Square
Std. Error of the
Estimate
1 ,972a ,945 ,931 29,219
a. Predictors: (Constant), loni
Tabulka 4-9: Koeficienty lineárního modelu
Coefficientsa
Model Unstandardized Coefficients Standardized
Coefficients
t Sig.
B Std. Error Beta
1 (Constant) ,687 20,642 ,033 ,975
loni 1,266 ,153 ,972 8,269 ,001
a. Dependent Variable: letos
Z tabulky 4-2 lze vyčíst rovnici regresní přímky Y = 0,687 + 1,266 X. Zatímco koeficient 1,27
je statisticky významný (signifikance je 0,001), má tedy v modelu své opodstatnění,
statistická významnost absolutního členu se nepodařilo prokázat (signifikance 0,975).
Odhad hodnoty letošní poptávky (zaokrouhleno na celá čísla), když loňská činila 110 tisíc Kč
je Y(110) = 0,687 + 1,266 . 110 = 140 (tisíc Kč).
Závěrem je ještě nutné prohlédnout rezidua a jejich náhodnost. V dialogovém okně regresní
analýzy (Analyze – Regression – Linear nebo jednoduše zobrazíme předchozí nabídku
pomocí ikony ) klikneme na Plots. Do pole Y vložíme *ZRESID, do pole X vložíme
*ZPRED, potvrdíme Continue. Na výsledném grafu vidíme (viz obrázek 4-4), že rezidua jsou
v tomto grafu rozmístěna náhodně.
77
Obrázek 4-2: Rezidua versus loňská poptávka
Úkol 2: V souboru Spotreba.sav jsou uvedeny informace o průměrně spotřebě auta při
různých rychlostech. Ověřte, zda je vhodný pro popis závislosti spotřeby na rychlosti lineární
model.
Řešení:
Vytvoříme 2D bodový graf (viz obrázek 4-3), ze kterého je již vidět, že závislost spotřeby na
rychlosti není lineární (spotřeba nejprve klesá a pro vyšší rychlosti opět stoupá) a lineární
model tedy není vhodný.
Obrázek 4-3: Závislost spotřeby na rychlosti
78
Podívejme se však, jaké koeficienty by tento lineární model obsahoval a jak by se nevhodnost
modelu projevila na reziduích.
Z tabulky 4-3 a 4-4 je vidět, že oba koeficienty jsou statisticky významné a model vysvětluje
asi 60 % variability spotřeby. Přesto použití tohoto lineárního modelu není vhodné. Je to
zřejmé z grafu rezidua vs. nezávislá proměnná, který je na obrázku 4-4. Body nejsou
rozmístěny náhodně, tvoří přibližně parabolu.
Tabulka 4-10: Přehled lineárního modelu
Model Summaryb
Model R R Square Adjusted R
Square
Std. Error of the
Estimate
1 ,810a ,656 ,599 ,6909
a. Predictors: (Constant), rychlost
b. Dependent Variable: spotřeba
Tabulka 4-11: Koeficienty lineárního modelu
Coefficientsa
Model Unstandardized
Coefficients
Standardized
Coefficients
t Sig. 95,0% Confidence Interval for B
B Std. Error Beta Lower Bound Upper Bound
1 (Constant) 3,407 ,836 4,075 ,007 1,361 5,453
rychlost ,036 ,011 ,810 3,384 ,015 ,010 ,062
a. Dependent Variable: spotřeba
79
Obrázek 4-4: Rezidua versus rychlost
4.2 Více nezávislých proměnných
Úkol 3: V souboru Vydaje.sta jsou údaje o měsíčních výdajích na potraviny a nápoje (závisle
proměnná Y), počtu členů domácnosti (nezávisle proměnná X1), počtu dětí (nezávisle
proměnná X2), průměrném věku vydělávajících členů domácnosti (nezávisle proměnná X3) a
měsíčním příjmu domácnosti (nezávisle proměnná X4), které byly zjištěné u náhodně
vybraných domácností. Rozhodněte, které proměnné významně přispívají k vysvětlení
variability výdajů, a zkonstruujte lineární regresní model s nejlepší podmnožinou
vysvětlujících proměnných.
Řešení:
Nejprve si prohlédneme data, ta si zobrazíme bodovým maticovým grafem: Graphs – Legacy
Dialogs - Scattre/Dot, v následném dialogovém okně vybereme Matrix Scatter. Do pole
Matrix Variables vložíme všechny proměnné a potvrdíme tlačítkem OK. Graf je na obrázku
4-5.
80
Obrázek 4-5: Maticový graf proměnných vícenásobné regrese
Z grafu zjistíme orientační závislost mezi výdaji (nezávisle proměnnou) a ostatními (závisle)
proměnnými. Mezi výdaji a věkem není příliš velká závislost, proto v regresním modelu ho
můžeme předem vyloučit. Dále také vidíme, že mezi nezávisle proměnnými počet členů
domácnosti a počet dětí je velmi silná závislost a silná závislost je vidět i mezi počtem členů
domácnosti a příjmem. Tzn. v regresním modelu by mohla být zastoupená pouze proměnná
počet členů v domácnosti (ovlivňuje počet dětí i příjem).
Ačkoli nám graf napověděl, které proměnné zřejmě budou vstupovat do modelu,
vícenásobnou regresi je vhodné začít metodou ENTER, tedy se všemi nezávislými
proměnnými, podle které zjistíme párové korelační koeficienty a statistickou významnost
nezávisle proměnných a jejích koeficientů v regresním modelu. Poté je vhodné použít metodu
STEPWISE, díky níž můžeme zjistit přínos jednotlivých nezávisle proměnných a najít
„optimální“ model a pokud co nejmenším počtem relevantních proměnných.
Na obrázku 4-6 je ukázka nastavení lineární regrese.
81
Nabídku regresního modelu vyvoláme příkazy Analyze – Regression – Linear. Na obrázku
V korelační matici (tabulka 4-5) provedeme prvotní kontrolu multikolinearity a signifikance
jednotlivých korelačních koeficientů. Korelační koeficient mezi závislou a nezávislou
proměnnou by měl být větší než 0,3 (slabá závislost). Korelace mezi nezávislými
proměnnými by naopak měla být menší než 0,9 (podle některých autorů by neměla
přesáhnout 0,7). Signifikance by měla být menší než 0,05 (standardní hodnota).
V našem příkladu je pro regresní model statisticky nevýznamná proměnná věk (R = 0,182,
sig. = 0,222). Mezi proměnnými počet členů domácnosti a počet dětí je velmi silná závislost
(R = 0,958), mezi proměnnými počet členů domácnosti a příjem je silná závislost (R = 0,788).
Počet členů domácnosti tedy ovlivňuje obě proměnné, proto v optimálnějším regresním
Obrázek 4-6: Nastavení lineární regrese
82
modelu (méně nezávislých proměnných) bychom jako nezávislou proměnnou vzali pouze
počet členů domácnosti.
Tabulka 4-12: Korelační matice se zvýrazněnými hodnotami
Correlations
výdaje počet členů
domácnosti
počet dětí věk příjem
Pearson
Correlation
výdaje 1,000 ,768 ,671 ,182 ,732
počet členů domácnosti ,768 1,000 ,958 -,173 ,788
počet dětí ,671 ,958 1,000 -,280 ,682
věk ,182 -,173 -,280 1,000 ,089
příjem ,732 ,788 ,682 ,089 1,000
Sig.
(1-tailed)
výdaje . ,000 ,001 ,222 ,000
počet členů domácnosti ,000 . ,000 ,233 ,000
počet dětí ,001 ,000 . ,116 ,000
věk ,222 ,233 ,116 . ,354
příjem ,000 ,000 ,000 ,354 .
N výdaje 20 20 20 20 20
počet členů domácnosti 20 20 20 20 20
počet dětí 20 20 20 20 20
věk 20 20 20 20 20
příjem 20 20 20 20 20
V tabulce 4-6 je přehled modelu, zajímá nás především upravené R2 = 0,629. Regresní model
se všemi čtyřmi nezávislými proměnnými by vysvětloval téměř 63 % variability závisle
proměnné výdaje.
Tabulka 4-13: Přehled modelu, metoda ENTER
Model Summaryb
Model R R
Square
Adjusted
R
Square
Std. Error of the
Estimate
Change Statistics
R Square
Change
F Change df1 df2 Sig. F
Change
1 ,841a ,707 ,629 2448,475 ,707 9,067 4 15 ,001
a. Predictors: (Constant), příjem, věk, počet dětí, počet členů domácnosti
b. Dependent Variable: výdaje
Pomocí koeficientů v tabulce 4-7 si sice můžeme zkonstruovat regresní rovnici, ale podíváme-li se na signifikanci jednotlivých koeficientů, jsou tyto statisticky nevýznamné a regresní model by nebyl vhodný.
83
Tabulka 4-14: Koeficienty vícenásobné regrese, metoda ENTER
Coefficientsa
Model Unstandardized
Coefficients
Standardized
Coefficients
t Sig. Correlations Collinearity
Statistics
B Std.
Error
Beta Zero
-
order
Partial Part Tolerance VIF
1 (Constant) -4027,035 2981,415 -1,351 ,197
počet členů
domácnosti
3353,419 2068,233 1,043 1,621 ,126 ,768 ,386 ,226 ,047 21,22
7
počet dětí -1348,294 2262,207 -,335 -,596 ,560 ,671 -,152 -,083 ,062 16,17
6
věk 84,188 52,060 ,259 1,617 ,127 ,182 ,385 ,226 ,763 1,311
příjem ,042 ,095 ,114 ,444 ,664 ,732 ,114 ,062 ,294 3,407
a. Dependent Variable: výdaje
Nyní přistupme k lineární regresi metodou STEPWISE, která hledá optimální model (v obrázku 4-6 metodu změníme v zeleně označeném poli). Do modelu budou vstupovat pouze ty proměnné, které jsou statisticky významně vztažené se závisle proměnnou. Zajímat nás budou především přehled modelu (tabulka 4-8) a koeficienty regresní rovnice (tabulka 4-9).
Tabulka 4-15: Přehled modelu, metoda STEPWISE
Model Summaryc
Model R R
Square
Adjusted
R Square
Std. Error of
the Estimate
Change Statistics
R Square
Change
F
Change
df1 df2 Sig. F
Change
1 ,768a ,590 ,567 2646,809 ,590 25,871 1 18 ,000
2 ,832b ,692 ,656 2360,278 ,102 5,636 1 17 ,030
a. Predictors: (Constant), počet členů domácnosti
b. Predictors: (Constant), počet členů domácnosti, věk
c. Dependent Variable: výdaje
Ve srovnání s metodou ENTER se nám podařilo nalézt modely s menším počtem nezávisle proměnných a podobnou vypovídající schopností. Model 1 obsahuje závisle proměnnou výdaje, konstantu a nezávisle proměnnou počet členů domácnosti. Model 2 obsahuje navíc proměnnou věk. Podle hodnoty upraveného R2 můžeme říct, že 1. model vysvětluje více než 56 % variability výdajů pomocí počtu členů domácnosti. 2. model je vhodnější, vysvětluje více než 65 % variability výdajů pomocí dvou proměnných počet členů domácnosti a věk.
84
Tabulka 4-16: Koeficienty, metody STEPWISE.
Coefficientsa
Model Unstandardized
Coefficients
Standardized
Coefficients
t Sig.
B Std. Error Beta
1 (Constant) 1704,007 1459,834 1,167 ,258
počet členů domácnosti 2468,252 485,265 ,768 5,086 ,000
2 (Constant) -3063,799 2393,396 -1,280 ,218
počet členů domácnosti 2648,925 439,374 ,824 6,029 ,000
věk 105,651 44,505 ,325 2,374 ,030
a. Dependent Variable: výdaje
Nejlepší lineární regresní model má tvar Y = –3063,799 + 2648,925X1 + 105,651X3, kde X1 je
počet členů domácnosti a X3 je průměrný věk vydělávajících členů domácnosti. Kromě
konstanty jsou všechny koeficienty statisticky významné (signifikance koeficientů).
5 Testování hypotéz
V této kapitole budou ukázány dva typy statistických technik – parametrické a neparametrické
testy. Parametrické techniky obecně předpokládají existenci číselné (spojité) proměnné
s normálním rozdělením. Neparametrické testy jsou vhodné pro ordinální škály, pro malé
vzorky a pro data, která nesplňují podmínky pro použití parametrických technik (zejména
požadavek na normální rozdělení dat).
5.1 Neparametrické testy
V této kapitole se seznámíme s třemi neparametrickými testy, které jsou vodné pro testování
závislosti
dvou kategoriálních proměnných (chí-kvadrát test o nezávislosti),
dvou nezávislých skupin jedné spojité proměnné (Mann-Whitney U test),
dvou závislých spojitých proměnných (Wilcoxonův párový test).
85
5.1.1 Závislost dvou kategoriálních proměnných
(chí-kvadrát test nezávislosti)
Úkol 1: Otevřete soubor Vyzkum.sav a zjistěte, zda existuje závislost mezi kategoriálními proměnnými pohlaví a Je kuřák?.
Řešení:
Budeme tedy testovat nulovou hypotézu „Kouření nezávisí na pohlaví“ (jinými slovy, že mezi
muži i ženami je stejné procento kuřáků) na hladině významnosti 0,05.
Zvolíme analýzu: Analyse – Descriptive Statistics – Crosstabs. Jednu z proměnných (např.
Pohlaví) přesuneme do pole Row(s) a druhou proměnnou (Je kuřák?) do pole Column(s).
Kliknutím na tlačítko Statistics otevřeme dialogové okno, ve kterém zvolíme požadovaný test
(Chi-square). Klikneme na Continue.
Kliknutím na tlačítko Cells otevřeme nové dialogové okno, kde v části Counts zvolíme
Observed (zobrazí pozorované četnosti) a v části Percentages zvolíme Row (zobrazí relativní
četnosti z řádků). Klikneme na Continue. Klikneme na OK.
Tato procedura generuje jako výstup několik tabulek. Tabulka 5-1 je kontingenční tabulka pro
zvolené proměnné, obsahující jak absolutní četnosti tak i relativní četnosti z četností
v řádcích.
Tabulka 5-1: Kontingenční tabulka pro proměnné Pohlaví a Je kuřák?
pohlaví * Je kuřák? Crosstabulation
Je kuřák? Total
ano ne
pohlaví
muž Count 33 151 184
% within pohlaví 17,9% 82,1% 100,0%
žena Count 52 200 252
% within pohlaví 20,6% 79,4% 100,0%
Total Count 85 351 436
% within pohlaví 19,5% 80,5% 100,0%
Tabulka 5-2 obsahuje chí-kvadrát test o nezávislosti. Předpokladem použití tohoto testu je to,
že počet očekávaných četností je 5 nebo menší v alespoň 80 % buněk. Pod druhou tabulkou je
uvedeno, kolik procent buněk obsahuje očekávané četnosti nejvýše 5 (0 buněk = 0,0 %).
V našem případě je tedy tento předpoklad splněn a výsledky testu jsou relevantní.
86
Tabulka 5-2: Chí-kvadrát test o nezávislosti
Chi-Square Tests
Value df Asymp. Sig. (2-
sided)
Exact Sig. (2-
sided)
Exact Sig. (1-
sided)
Pearson Chi-Square ,494a 1 ,482
Continuity Correctionb ,337 1 ,562
Likelihood Ratio ,497 1 ,481
Fisher's Exact Test ,541 ,282
Linear-by-Linear
Association ,493 1 ,483
N of Valid Cases 436
a. 0 cells (0,0%) have expected count less than 5. The minimum expected count is 35,87.
b. Computed only for a 2x2 table
Pro případné zamítnutí nulové hypotézy je rozhodující velikost p-hodnoty Pearsonova chí-
kvadrát testu, která je uvedena ve sloupečku Asymp. Sig. (2-sided). Pro kontingenční tabulky
2 x 2 najdeme p-hodnotu ve druhém řádku (p = 0,562), pro všechny ostatní tabulky je
p-hodnota uvedena v prvním řádku.
Protože je p > 0,05, nezamítáme nulovou hypotézu „Kouření nezávisí na pohlaví“ na hladině
významnosti 0,05. V praxi to znamená, že rozdíl mezi podílem kuřáků mezi muži (17,9 %) a
podílem kuřaček mezi ženami (20,6 %) není statisticky významný.
5.1.2 Rozdíl mezi dvěma nezávislými skupinami spojité proměnné
(Mann-Whitney U test)
Úkol 2: Otevřete soubor Vyzkum.sav a porovnejte sebevědomí mužů a žen.
Řešení:
Budeme tedy testovat nulovou hypotézu „Sebevědomí mužů a žen je stejné“ na hladině
významnosti 0,05. Do analýzy vstupují dvě proměnné – číselná (sebevědomí) a kategoriální
(pohlaví).
Zvolíme analýzu: Analyse – Nonparametrics Tests – Legacy Dialogs – 2 Independent
Samples. Spojitou proměnnou (Sebevědomí) přesuneme do pole Test Variable List a
kategoriální proměnnou (Pohlaví) do pole Grouping Variable.
Nyní je nutné identifikovat dvě kategorie, které budeme vzájemně porovnávat. Obecně
kategoriální proměnná, kterou jsme zde použili, může obsahovat více kategorií a je potřeba
z nich vybrat dvě (testujeme dva nezávislé vzorky). Abychom zjistili, jaké kategorie
87
proměnná obsahuje, klikneme na ni pravým tlačítkem a vybereme Variable Information. Zde
je možné zjistit všechny kategorie příslušné proměnné a jejich kódování. V našem případě
jsme zjistili, že proměnná Pohlaví obsahuje dvě kategorie (muž, žena) s kódy 1 a 2. Klikneme
na tlačítko Define Groups a zadáme oba kódy.
Ujistíme se, že v části Test Type je zatržítko u Mann-Whitney U testu, a potvrdíme tlačítkem
OK.
Výstupem této procedury jsou dvě tabulky. Tabulka 5-3 obsahuje informace o rozsahu obou
nezávislých skupin (sloupec N) a informaci o průměrném pořadí v rámci skupiny. Průměrné
pořadí žen je o něco nižší než průměrné pořadí mužů, ale z toho nelze vyvodit, že sebevědomí
žen je nižší než sebevědomí mužů.
Tabulka 5-3: Pořadí a velikost nezávislých skupin
Ranks
pohlaví N Mean Rank Sum of Ranks
Sebevědomí
muž 184 227,14 41794,00
žena 252 212,19 53472,00
Total 436
Pro případné zamítnutí nulové hypotézy je rozhodující velikost p-hodnoty, kterou obsahuje
Tabulka 5-4 v řádku Asymp. Sig. (2-sided). V našem případě je p-hodnota větší než 0,05 (p =
0,220), takže nulovou hypotézu „Sebevědomí mužů a žen je stejné“ nezamítáme. V praxi to
znamená, že rozdíl mezi sebevědomím mužů a sebevědomím žen není statisticky významný.
Tabulka 5-4: Testové statistiky
Test Statisticsa
Sebevědomí
Mann-Whitney U 21594,000
Wilcoxon W 53472,000
Z -1,227
Asymp. Sig. (2-tailed) ,220
a. Grouping Variable: pohlaví
88
5.1.3 Rozdíl mezi dvěma závislými spojitými proměnnými
(Wicoxonův test)
Úkol 3: Otevřete soubor Experiment.sav a porovnejte obavy ze zkoušky na začátku a na konci kurzu.
Řešení:
Budeme tedy testovat nulovou hypotézu „Obavy ze zkoušky jsou na počátku a na konci kurzu
stejné“ na hladině významnosti 0,05. Do analýzy vstupují dvě závislé číselné proměnné –
obavy ze zkoušky na začátku kurzu a obavy ze zkoušky na konci kurzu.
Zvolíme analýzu: Analyse – Nonparametrics Tests – Legacy Dialogs – 2 Related Samples.
Obě proměnné přesuneme do pole Test Pairs jako Variable1 a Variable2.
Kliknutím na tlačítko Options otevřeme dialogové okno, ve kterém zatrhneme volbu
Quartiles. Klikneme na Continue. Ujistíme se, že v části Test Type je zatržítko u Wilcoxonova
testu a potvrdíme tlačítkem OK.
Tabulka 5-5 a Tabulka 5-6 obsahují informace, ze kterých lze usoudit, že obavy ze zkoušky
na začátku kurzu jsou větší než obavy ze zkoušky na konci kurzu. Je tento rozdíl statisticky
významný?
Tabulka 5-5: Popisná statistika porovnávaných proměnných
Descriptive Statistics
N Percentiles
25th 50th (Median) 75th
obavy ze zkoušky na
začátku kurzu 30 37,00 40,00 44,00
obavy ze zkoušky na konci
kurzu 30 34,50 38,00 40,00
Tabulka 5-6: Analýza pořadí v obou porovnávaných skupinách
Ranks
N Mean Rank Sum of Ranks
obavy ze zkoušky na konci
kurzu - obavy ze zkoušky na
začátku kurzu
Negative Ranks 25a 16,36 409,00
Positive Ranks 4b 6,50 26,00
Ties 1c
Total 30
a. obavy ze zkoušky na konci kurzu < obavy ze zkoušky na začátku kurzu
89
b. obavy ze zkoušky na konci kurzu > obavy ze zkoušky na začátku kurzu
c. obavy ze zkoušky na konci kurzu = obavy ze zkoušky na začátku kurzu
Tabulka 5-7: Testové statistiky
Test Statisticsa
obavy ze zkoušky na konci kurzu -
obavy ze zkoušky na začátku kurzu
Z -4,180b
Asymp. Sig. (2-tailed) ,000
a. Wilcoxon Signed Ranks Test
b. Based on positive ranks.
Tabulka 5-7 obsahuje v řádku Asymp. Sig. (2-sided) p-hodnotu, která není větší než 0,05 (p =
0,000), proto nulovou hypotézu „Obavy na začátku a na konci kurzu jsou stejné“ zamítáme.
V praxi to znamená, že rozdíl mezi obavami ze zkoušky na začátku a na konci kurzu je
statisticky významný, tedy obavy ze zkoušky se v průběhu kurzu zmenšily.
5.2 Parametrické testy
5.2.1 Testy normality
Předpokladem použití t-testů je jednak normální rozdělení proměnných vstupujících do
analýzy, jednak rozsah souboru alespoň 30. Test normality v praxi vždy předchází použití
jakékoli parametrické metody, normalita v datech se zpravidla testuje v rámci popisné
statistiky, tedy pomocí procedury Explore.
V následujících dvou úkolech ukážeme, jak je možné testovat normální rozdělení u více
proměnných (Úkol 5) a jak je možné testovat normální rozdělení pro více skupin jedné
proměnné (Úkol 4).
Úkol 4: Otevřete soubor Vyzkum.sav a zjistěte, zda proměnná sebevědomí mužů a žen má normální rozdělení.
Řešení:
Budeme testovat hypotézu „Sebevědomí mužů a sebevědomí žen má normální rozdělení“ na
hladině významnosti 0,05. Do analýzy vstupují dvě proměnné – číselná (sebevědomí) a
kategoriální (pohlaví).
90
Zvolíme analýzu: Analyse – Descriptive Statistics – Explore. Spojitou číselnou proměnnou
sebevědomí přesuneme do pole Dependent List. Kategoriální proměnnou pohlaví přesuneme
do pole Factor List.
Klikneme na tlačítko Plots. V otevřeném okně zatrhneme volbu Histogram (graf Stem-and-
leaf není nutné vykreslovat) a Normality plots with tests. Klikneme na Continue a potvrdíme
tlačítkem OK.
Tato procedura generuje několik grafů a tabulek. Pro posouzení normality v datech budeme
potřebovat pouze tabulku Tests of Normality (viz Tabulka 5-8).
Tabulka obsahuje výstupy dvou testů – Kolmogorov-Smirnovova a Shapiro-Wilkova.
p-hodnoty testů jsou uvedeny ve sloupcích Sig. Pro obě skupiny a oba testy jsou p-hodnoty
menší než 0,05, to znamená, že nulovou hypotézu zamítáme a skupiny tedy nemají normální
rozdělení. Proto v tomto případě není vhodné použít parametrické metody a je potřeba využít
příslušný neparametrický test.
Tabulka 5-8: Test normality pro dvě nezávislé skupiny
Tests of Normality
pohlaví Kolmogorov-Smirnova Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
Sebevědomí muž ,146 184 ,000 ,916 184 ,000
žena ,133 252 ,000 ,912 252 ,000
a. Lilliefors Significance Correction
Úkol 5: Otevřete soubor Experiment.sav a zjistěte, zda proměnné obavy ze zkoušky na začátku a na konci kurzu mají normální rozdělení.
Řešení:
Budeme testovat hypotézu „Proměnné obavy ze zkoušky na začátku a na konci kurzu mají
normální rozdělení“ na hladině významnosti 0,05. Do analýzy vstupují dvě číselné proměnné.
Zvolíme analýzu: Analyse – Descriptive Statistics – Explore. Testované číselné proměnné
přesuneme do pole Dependent List.
Klikneme na tlačítko Plots. V otevřeném okně zatrhneme volbu Histogram (graf Stem-and-
leaf není nutné vykreslovat) a Normality plots with tests. Klikneme na Continue a potvrdíme
tlačítkem OK.
91
Tato procedura generuje několik grafů a tabulek. Pro posouzení normality v datech budeme
potřebovat pouze tabulku Tests of Normality (viz Tabulka 5-9).
Tabulka 5-9: Test normality pro dvě závislé proměnné
Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
obavy ze zkoušky na
začátku kurzu ,084 30 ,200* ,969 30 ,521
obavy ze zkoušky na konci
kurzu ,119 30 ,200* ,961 30 ,332
*. This is a lower bound of the true significance.
a. Lilliefors Significance Correction
Tabulka obsahuje výstupy dvou testů – Kolmogorov-Smirnovova a Shapiro-Wilkova.
p-hodnoty testů jsou uvedeny ve sloupcích Sig. Pro obě proměnné a oba testy jsou p-hodnoty
větší než 0,05, to znamená, že nulovou hypotézu nezamítáme a obě proměnné můžeme
považovat za normálně rozdělené. Pro tyto proměnné je tady možné použít parametrické
metody.
5.2.2 T-test pro dva nezávislé vzorky
V této kapitole si ukážeme použití t-testu pro dva nezávislé vzorky. Zaměříme se na stejnou
situaci, která je testována v úkolu 2 (porovnání sebevědomí mužů a žen), i když jsme
v úkolu 4 zjistili, že skupiny nemají normální rozdělení a tedy nejsou splněny předpoklady
pro použití parametrického testu. K tomuto kroku přistupujeme z několika důvodů:
na již známých datech chceme demonstrovat použití t-testu pro dva nezávislé vzorky,
chceme ukázat, že hlavní slovo při analýzách má uživatel – i když není oprávněn test
použít (nejsou naplněny předpoklady), software test provede,
chceme porovnat výsledky obou přístupů – parametrického a neparametrického.
92
Úkol 6: Otevřete soubor Vyzkum.sav a porovnejte sebevědomí mužů a žen pomocí parametrického testu.
Řešení:
Budeme tedy testovat nulovou hypotézu „Sebevědomí mužů a žen je stejné“ na hladině
významnosti 0,05. Do analýzy vstupují dvě proměnné – číselná (sebevědomí) a kategoriální
(pohlaví).
Zvolíme analýzu: Analyse – Compare Means – Independent Samples T test. Spojitou
proměnnou (Sebevědomí) přesuneme do pole Test Variable List a kategoriální proměnnou
(Pohlaví) do pole Grouping Variable. Klikneme na tlačítko Define Groups a zadáme oba
kódy (1 a 2). Potvrdíme tlačítkem OK.
Tabulka 5-10 obsahuje informace o průměrném sebevědomí mužů i žen (34,02 a 33,17),
rozsahy obou skupin (sloupec N) a směrodatnou odchylku (Std. Deviation).
Tabulka 5-10: Popisná statistika obou porovnávaných skupin
Group Statistics
pohlaví N Mean Std. Deviation Std. Error Mean
Sebevědomí muž 184 34,02 4,911 ,362
žena 252 33,17 5,705 ,359
Součástí této procedury je Leveneův F test, který testuje shodu rozptylů obou skupin. Jeho
p-hodnotu obsahuje Tabulka 5-11 ve sloupci Sig. Je-li tato hodnota větší než 0,05 nulovou
hypotézu (Rozptyly obou skupin jsou stejné) nezamítáme a výsledky t-testu přečteme
v prvním řádku (Equal variances assumed). V opačném případě, je-li Sig < 0,05, zamítáme
hypotézu o shodě rozptylů a výsledky t-testu přečteme ve druhém řádku (Equal variances not
assumed).
Pro případné zamítnutí nulové hypotézy je rozhodující velikost p-hodnoty, která je uvedena
ve druhé tabulce ve sloupci Sig. (2-sided). V našem případě je p-hodnota větší než 0,05
(p = 0,105), takže nulovou hypotézu „Sebevědomí mužů a žen je stejné“ nezamítáme. V praxi
to znamená, že rozdíl mezi sebevědomím mužů a sebevědomím žen není statisticky
významný.
Porovnáme-li závěr se závěrem úkolu 2, zjišťujeme, že oba testy (parametrický
i neparametrický) poskytly stejnou informaci. Toto však není pravidlem, velmi často se
můžeme setkat se situací, kdy parametrický test, který je silnější, nulovou hypotézu zamítne a
93
neparametrický ji nezamítne. V této situaci je nezbytné řídit se existencí či neexistencí
normálního rozdělení v datech.
Tabulka 5-11: Výstup procedury Independent Samples T test pro proměnné pohlaví (grupovací) a Sebevědomí
Independent Samples Test
Levene's Test for Equality of
Variances
t-test for Equality of
Means
F Sig. df Sig. (2-
tailed)
Sebevědomí
Equal variances assumed 3,506 ,062 434 ,105
Equal variances not
assumed
422,349 ,098
5.2.3 Párový t-test
Úkol 7: Otevřete soubor Experiment.sav a porovnejte obavy ze zkoušky na začátku a na konci kurzu.
Řešení:
Budeme opět testovat nulovou hypotézu „Obavy ze zkoušky jsou na počátku a na konci kurzu
stejné“ na hladině významnosti 0,05. Do analýzy vstupují dvě závislé číselné proměnné –
obavy ze zkoušky na začátku kurzu a obavy ze zkoušky na konci kurzu.
Zvolíme analýzu: Analyse – Compare Means – Paired Samples T test. Obě proměnné
přesuneme do pole Paired Variables jako Variable1 a Variable2. Klikneme na OK.
Tabulka 5-12: Popisná statistika porovnávaných proměnných
Paired Samples Statistics
Mean N Std. Deviation Std. Error Mean
Pair 1
obavy ze zkoušky na
začátku kurzu 40,17 30 5,160 ,942
obavy ze zkoušky na konci
kurzu 37,50 30 5,151 ,940
Z tabulky Tabulka 5-12 (Mean, Std. Deviation) lze usoudit, že obavy ze zkoušky na začátku
kurzu jsou větší než obavy ze zkoušky na konci kurzu. Ale je tento rozdíl statisticky
významný?
94
Tabulka 5-13: Výstup procedury Paired Samples T test
Paired Samples Test
Paired Differences t df Sig. (2-tailed)
Mean Std. Deviation
Pair 1
obavy ze zkoušky na začátku
kurzu - obavy ze zkoušky na
konci kurzu
2,667 2,708 5,394 29 ,000
Tabulka 5-13 obsahuje ve sloupci Sig. (2-sided) p-hodnotu, která není větší než 0,05 (p =
0,000), proto nulovou hypotézu „Obavy na začátku a na konci kurzu jsou stejné“ zamítáme.
V praxi to znamená, že rozdíl mezi obavami ze zkoušky na začátku a na konci kurzu je
statisticky významný, tedy obavy ze zkoušky se v průběhu kurzu snížily.
95
Prıkladykprocvicenı
96
1 Popisná statistika
1.1 Otázky k datovému souboru Spánek.xlsx
V dotazníkovém šetření bylo cíleně osloveno několik respondentů za účelem výzkumu poruch
spánku.
1. Určete všechny kategoriální proměnné v souboru.
2. Určete všechny spojité proměnné v souboru.
3. Určete všechny ordinální proměnné v souboru.
4. Jaké třídění použijete na proměnnou rodinný stav?
5. Jaké třídění použijete na proměnnou kvalita spánku?
6. Jaké třídění použijete na proměnnou výška?
7. Jaké obměny statistické znaku nalezneme u proměnné pohlaví?
8. Jaké obměny statistické znaku nalezneme u proměnné nejvyšší dosažené vzdělání?
9. Jaké obměny statistické znaku nalezneme u proměnné kondice?
10. Proveďte bodové třídění proměnné kvalita spánku.
11. Proveďte bodové třídění proměnné zdravotní stav.
12. Proveďte intervalové třídění proměnné váha.
13. Pro proměnnou váha určete a slovně interpretujte: a. průměr, b. medián, c. extrémy, d. dolní a horní kvartil, e. modus.
14. Pro proměnnou výška určete a slovně interpretujte: a. variační rozpětí, b. mezikvartilové rozpětí, c. rozptyl, d. směrodatnou odchylku, e. variační koeficient.
15. Pro proměnnou kuřák určete a slovně interpretujte charakteristiky, které dávají smysl: a. průměr, b. variační rozpětí, c. modus.
16. Kolik respondentů v datovém souboru jsou nekuřáci?
97
17. Kolik mužů se účastnilo dotazování?
18. Jaký je průměrný počet alkoholových nápojů vypitých za den na respondenta?
19. Určete nejčastější odpověď na otázku kondice? Jak nazvete tuto charakteristiku?
1.2 Otázky k datovému souboru Zaměstnanec.xlsx
V dotazníkovém šetření byli osloveni zaměstnanci jedné nejmenované firmy. Cílem šetření
bylo zjistit, jak vnímají svoji pozici v této firmě a jak je pro ně jejich zaměstnání důležité.
Vysvětlivky k souboru Zaměstnanec:
Položené otázky č. 1 až 10
1. Je zřejmé, co se očekává od Vaší práce?
2. Byl jste seznámen s vybavením a materiály potřebnými k Vaší práci dostatečně?
3. Jste informován a o vývoji a změnách týkající se Vaší práce?
4. Dostává se Vám uznání od zaměstnavatele za dobře odvedenou práci?
5. Podporuje Vás Váš nadřízený v dalším rozvoji?
6. Máte pocit, že zaměstnavatel bere na Vaše názory zřetel?
7. Dává Vám zaměstnavatel najevo, že je vaše práce důležitá?
8. Máte pocit, že jsou Vaši spolupracovníci oddáni své práci?
9. Byl Váš výkon v posledních 6 měsících vyhodnocen nebo nějak diskutován?
10. Měl jste možnost v průběhu posledního roku zlepšovat své dovednosti?
Respondenti odpovídali na každou otázku pomocí dvou pětistupňových škál:
Otázky značené A = míra souhlasu respondenta s položenou otázkou
1 = vůbec
5 = naprosto
Otázky značené I = míra důležitosti daného aspektu pro respondenta
1 = žádná
5 = velká
98
Otázky k datovému souboru Zaměstnanec
1. Jaký typ proměnných nalezneme v tomto datovém souboru?
2. Jaké třídění použijete na proměnnou Pracovní poměr?
3. Jaké třídění použijete na proměnnou Věk?
4. Jaké třídění použijete na otázky 1 až 10?
5. Jaké obměny statistické znaku nalezneme u proměnné Pracovní poměr?
6. Jaké obměny statistické znaku nalezneme u proměnné Věk?
7. Jaké obměny statistické znaku nalezneme u otázek 1 až 10?
8. Proveďte bodové třídění proměnné otázka 1A.
9. Proveďte bodové třídění proměnné Pracovní poměr.
10. Proveďte intervalové třídění proměnné Počet let v nynějším zaměstnání.
11. Pro proměnnou Počet let v nynějším zaměstnání určete a slovně interpretujte: a. průměr, b. medián, c. extrémy, d. dolní a horní kvartil, e. modus.
12. K otázce 3I určete a slovně interpretujte: a. variační rozpětí, b. mezikvartilové rozpětí, c. rozptyl, d. směrodatnou odchylku, e. variační koeficient.
13. Pro proměnnou Pracovní poměr určete a slovně interpretujte charakteristiky, které dávají smysl: a. průměr, b. rozptyl, c. variační rozpětí, d. dolní a horní kvartil, e. modus.
14. Kolik zaměstnanců by firmu doporučilo ostatním?
15. Určete takovou hodnotu věku, aby pouze desetina zaměstnanců byla starší. Jak nazvete tuto charakteristiku?
16. Určete nejčastější odpověď na otázku 8A. Jak nazvete tuto charakteristiku?
99
1.3 Otázky k datovému souboru Náročnost povolání zdravotní sestry.xlsx
1. Jaký typ proměnných nalezneme v tomto datovém souboru?
2. Jaké třídění použijete na proměnnou Pohlaví?
3. Jaké třídění použijete na proměnnou Pracovní zařazení?
4. Jaké třídění použijete na proměnnou Počet let na nynějším pracovišti?
5. Jaké třídění použijete na proměnnou Vaše výše platu?
6. Jaké třídění použijete na proměnnou Cítíte se za svoji práci ohodnocena?
7. Jaké obměny statistické znaku nalezneme u proměnné Pracoviště?
8. Jaké obměny statistické znaku nalezneme u proměnné Délka praxe?
9. Jaké obměny statistické znaku nalezneme u proměnné Těší Vás vaše práce?
10. Proveďte bodové třídění proměnné Nejvyšší dosažené vzdělání.
11. Proveďte bodové třídění proměnné Co Vás v práci nejvíce zatěžuje.
12. Proveďte intervalové třídění proměnné Věk.
13. Proveďte intervalové třídění proměnné Vaše výše platu.
14. Pro proměnnou Věk určete a slovně interpretujte:
a. průměr, b. medián, c. extrémy, d. dolní a horní kvartil, e. modus.
15. Pro proměnnou Plat určete a slovně interpretujte:
a. variační rozpětí, b. mezikvartilové rozpětí, c. rozptyl, d. směrodatnou odchylku, e. variační koeficient.
16. Pro proměnnou Pracoviště určete a slovně interpretujte charakteristiky, které dávají smysl:
a. průměr, b. rozptyl, c. variační rozpětí, d. dolní a horní kvartil, e. modus.
17. Kolik zdravotních sester pracuje na jednotce intenzivní péče? Udejte jak absolutní četnost, tak i četnost relativní.
18. Kolik mužů se účastnilo dotazování?
100
19. Jaké vzdělání má nejvyšší četnost mezi dotazovanými zdravotními sestrami?
20. Kolik dotazovaných zdravotních sester zvládá svoji práci bez problémů?
21. Určete počet let délky praxe tak, aby polovina dotazovaných sester měla praxi delší a polovina kratší. Jak nazvete tuto charakteristiku?
22. Určete takovou hodnotu platu, aby pouze desetina dotazovaných sester měla plat vyšší. Jak nazvete tuto charakteristiku?
23. Určete nejčastější odpověď na otázku Na konci směny se cítíte. Jak nazvete tuto charakteristiku?
24. Je průměrný plat dotazovaných mužů vyšší než plat dotazovaných žen?
2 Grafické zpracování dat
2.1 Otázky k datovému souboru Spánek.xlsx
V dotazníkovém šetření bylo cíleně osloveno několik respondentů za účelem výzkumu poruch
spánku.
1. Pomocí krabicových grafů zobrazte odpověď na otázku hladina stresu. Kategorie pro zobrazení zvolte rodinný stav.
2. S využitím filtru zobrazte do sloupcového grafu odpověď na otázku nejvyšší dosažené vzdělání a to pouze svobodné respondenty.
3. Pomocí kategorizovaných grafů zobrazte odpověď na otázku kvalita spánku. Jako kategorie pro zobrazení zvolte pohlaví dotazovaných.
2.2 Otázky k datovému souboru Zaměstnanec.xlsx
V dotazníkovém šetření byli osloveni zaměstnanci jedné nejmenované firmy. Cílem šetření
bylo zjistit, jak vnímají svoji pozici v této firmě a jak je pro ně jejich zaměstnání důležité.
Vysvětlivky k souboru Zaměstnanec:
Položené otázky č. 1 až 10
1. Je zřejmé, co se očekává od Vaší práce?
2. Byl jste seznámen s vybavením a materiály potřebnými k Vaší práci dostatečně?
3. Jste informován a o vývoji a změnách týkající se Vaší práce?
101
4. Dostává se Vám uznání od zaměstnavatele za dobře odvedenou práci?
5. Podporuje Vás Váš nadřízený v dalším rozvoji?
6. Máte pocit, že zaměstnavatel bere na Vaše názory zřetel?
7. Dává Vám zaměstnavatel najevo, že je vaše práce důležitá?
8. Máte pocit, že jsou Vaši spolupracovníci oddáni své práci?
9. Byl Váš výkon v posledních 6 měsících vyhodnocen nebo nějak diskutován?
10. Měl jste možnost v průběhu posledního roku zlepšovat své dovednosti?
Respondenti odpovídali na každou otázku pomocí dvou pětistupňových škál:
Otázky značené A = míra souhlasu respondenta s položenou otázkou
1 = vůbec
5 = naprosto
Otázky značené I = míra důležitosti daného aspektu pro respondenta
1 = žádná
5 = velká
Otázky k datovému souboru Zaměstnanec
1. Pomocí vhodného grafu zpracujte odpovědi proměnné 1A.
2. Pomocí vhodného grafu zpracujte odpovědi proměnné Pracovní poměr.
3. Pomocí vhodného grafu zpracujte odpovědi proměnné Počet let v nynějším zaměstnání.
4. Porovnejte pomocí krabicových grafů odpověď na otázky 7A a 7I. Pokuste se popsat, co dané grafy ukazují.
5. S využitím filtru zobrazte do sloupcového grafu odpověď na otázku 3I a to pouze pro zaměstnance na částečný úvazek.
6. Pomocí kategorizovaných grafů zobrazte odpověď na otázku č. 10A. Jako kategorie pro zobrazení zvolte věk dotazovaných.
102
2.3 Otázky k datovému souboru Náročnost povolání zdravotní sestry.xlsx
1. Pomocí vhodného grafu zpracujte odpovědi proměnné Nejvyšší dosažené vzdělání.
2. Pomocí vhodného grafu zpracujte odpovědi proměnné Co Vás v práci nejvíce zatěžuje.
3. Pomocí vhodného grafu zpracujte odpovědi proměnné Věk.
4. Pomocí vhodného grafu zpracujte odpovědi proměnné Vaše výše platu.
3 Korelační analýza
U každého příkladu promyslete, zda je vhodné pro zjišťování vztahu mezi proměnnými použít
korelační koeficient (pouze lineární závislosti). Pokud ano, určete jaký typ korelačního
koeficientu je vhodný (Spearmanův, Pearsonův).
K řešení příkladů použijte jednak korelační koeficient, jehož hodnotu se pokuste vhodně
okomentovat. Pro názornost doplňte grafické zpracování.
3.1 Otázky k souboru Korelace a regrese.xlxs
1. Zjistěte, zda existuje vztah mezi výškou a váhou 1.
2. Zjistěte, zda existuje vztah mezi výškou a váhou 1, váhou 2 a váhou 3. Určete párové koeficienty korelace a jejich statistické významnosti.
3. Zjistěte, zda existuje vztah mezi platem a výdaji na domácnost 1.
4. Zjistěte, zda existuje vztah mezi platem a váhou 1.
3.2 Otázky k souboru Spánek.xlsx
1. Zjistěte, zda existuje vztah mezi délkou spánku o víkendu a délkou spánku v pracovní den.
2. Zjistěte, zda existuje vztah mezi věkem (proměnná X) a délkou spánku (proměnná Y).
3. Zjistěte, zda existuje vztah mezi váhou (proměnná Y) a výškou respondenta (proměnná X).
4. Zjistěte, zda existuje vztah mezi problémy s usínáním a lehkým spánkem.
5. Zjistěte, zda existuje vztah mezi počtem vypitých kofeinových nápojů a alkoholových drinků.
103
3.3 Otázky k souboru Zaměstnanec.xlsx
1. Zjistěte, zda existuje vztah mezi odpovědí na otázku 1A a 1I.
2. Zjistěte, zda existuje vztah mezi odpovědí na otázku 1A a 2A.
3. Zjistěte, zda existuje vztah mezi odpovědí na otázku 7I a 9I.
4. Zjistěte, zda existuje vztah mezi odpovědí na otázku 4A a 7A. Jako kategorie zvolte pracovní poměr a porovnejte obě skupiny.
5. Zjistěte, zda existuje vztah mezi počtem let v zaměstnání a odpovědí na otázku 6A.
3.4 Otázky k souboru Náročnost povolání.xlsx
1. Zjistěte, zda existuje vztah u respondenta mezi věkem a počtem let v nynějším zaměstnání.
2. Zjistěte, zda existuje vztah u respondenta mezi věkem a počtem let v nynějším zaměstnání. Jako kategorie zvolte pracovní zařazení a skupiny porovnejte.
3. Zjistěte, zda existuje vztah u respondenta mezi věkem, délkou praxe a výší platu. Určete párové koeficienty korelace a jejich statistické významnosti.
4 Regresní analýza
4.1 Otázky k souboru Korelace a regrese.xlsx
1. Proveďte regresní analýzu pro proměnné výška a postupně váha1, váha2, váha3.
a. Určete parametry regresní přímky, která popisuje závislost váhy na výšce. b. Odhadněte intenzitu této závislosti (koeficient korelace). c. Udejte, kolik procent variability váhy je vysvětleno výškou. d. Odhadněte, jakou váhu bude mít respondent, který měří 180 cm. e. Zdůvodněte, zda odhad z předchozího příkladu má smysl a že užití lineární regrese je
vhodné. 2. Proveďte regresní analýzu pro proměnné délka praxe a věk.
a. Určete parametry regresní přímky, která popisuje závislost délky praxe na počtu let respondenta.
b. Odhadněte intenzitu této závislosti (koeficient korelace). c. Udejte, kolik procent variability délky praxe je vysvětleno věkem respondenta. d. Odhadněte, kolik let praxe má 40-ti letý respondent. e. Zdůvodněte, zda odhad z předchozího příkladu má smysl a že užití lineární regrese je
vhodné.
104
3. Proveďte regresní analýzu pro proměnné hodnoty krevního tlaku 1 a hodnoty krevního tlaku po požití léku.
a. Určete parametry regresní přímky, která popisuje závislost hodnot tlaku po požití léku na hodnotách před požitím léku.
b. Odhadněte intenzitu této závislosti (koeficient korelace). c. Udejte, kolik procent variability hodnoty tlaku po požití léku je vysvětleno původní
hodnotou tlaku. d. Odhadněte, jak vysoký tlak po požití léku bude mít respondent, jehož tlak před
požitím byl 140. e. Zdůvodněte, zda odhad z předchozího příkladu má smysl a že užití lineární regrese je
vhodné. 4. Proveďte regresní analýzu pro proměnné výška a plat.
a. Určete parametry regresní přímky, která popisuje závislost platu na výšce respondenta. b. Odhadněte intenzitu této závislosti (koeficient korelace). c. Udejte, kolik procent variability platu je vysvětleno výškou respondenta. d. Odhadněte, jaký plat bude mít respondent, který měří 175 cm. e. Zdůvodněte, zda odhad z předchozího příkladu má smysl a že užití lineární regrese je
vhodné.
4.2 Otázky k souboru Náročnost povolání.xlsx
1. Proveďte regresní analýzu pro proměnné věk a délka praxe.
a. Určete parametry regresní přímky, která popisuje závislost délky praxe na počtu let respondenta.
b. Odhadněte intenzitu této závislosti (koeficient korelace). c. Udejte, kolik procent variability délky praxe je vysvětleno počtem let respondenta. d. Odhadněte, jakou délku praxe bude mít respondent, kterému je 25 let. e. Zdůvodněte, zda odhad z předchozího příkladu má smysl a že užití lineární regrese je
vhodné. 2. Proveďte regresní analýzu pro proměnné věk a počet let v nynější práci.
a. Určete parametry regresní přímky, která popisuje závislost délky počtu let v práci na věku respondenta.
b. Odhadněte intenzitu této závislosti (koeficient korelace). c. Udejte, kolik procent variability délky praxe je vysvětleno věkem respondenta. d. Odhadněte, kolik let bude v nynější práci respondent, kterému je 30 let. e. Zdůvodněte, zda odhad z předchozího příkladu má smysl a že užití lineární regrese je
vhodné.
4.3 Otázky k souboru Spánek.xlsx
1. Proveďte regresní analýzu pro proměnné váha a výška.
105
a. Určete parametry regresní přímky, která popisuje závislost váhy na výšce respondenta. b. Odhadněte intenzitu této závislosti (koeficient korelace). c. Udejte, kolik procent variability váhy je vysvětleno výškou respondenta. d. Odhadněte, jakou váhu bude mít respondent, který měří 180 cm. e. Zdůvodněte, zda odhad z předchozího příkladu má smysl a že užití lineární regrese je
vhodné. 2. Proveďte regresní analýzu pro proměnné počet kofeinových nápojů na den a délka
spánku v pracovní den.
a. Určete parametry regresní přímky, která popisuje závislost spánku na počtu nápojů. b. Odhadněte intenzitu této závislosti (koeficient korelace). c. Udejte, kolik procent variability délky spánku je vysvětleno počtem vypitých nápojů. d. Odhadněte, jak dlouho bude respondent spát, pokud pije průměrně 3 kofeinové nápoje
denně. e. Zdůvodněte, zda odhad z předchozího příkladu má smysl a že užití lineární regrese je
vhodné.
5 Testování hypotéz
5.1 Neparametrické testy
Před každým testem se vždy zamyslete, zda má vůbec smysl test provádět.
Pokud není řečeno jinak, testy provádějte na hladině významnosti 0,05.
5.1.1 Otázky k souboru Testování hypotéz.xlsx
1. Zjistěte, zda existuje závislost mezi pohlavím a tím, zda je respondent kuřák (odpověď 1 a 2 samostatně). Otestujte na hladině významnosti 0,05 a 0,01. Pro daná data vytvořte kontingenční tabulku, včetně vhodných relativních četností. (chí-kvadrát)
2. Na hladině významnosti 0,01 otestujte závislost mezi pohlavím a dosaženým vzděláním. (chí-kvadrát)
3. Na hladině významnosti 0,01 otestujte závislost mezi dosaženým vzděláním otce a dosaženým vzděláním matky. (Spearmanova korelace)
4. Rozhodněte, zda se váha 1 liší u mužů a žen. Graficky znázorněte. (Mann-Whitneyův U test)
5. Rozhodněte, zda se váha 2 liší u mužů a žen. Graficky znázorněte. (Mann-Whitneyův U test)
6. Rozhodněte, zde je počet návštěv u lékaře v lednu stejný, jako v únoru. Graficky znázorněte. (Wilkoksonův párový test)
106
7. Rozhodněte, zda je počet návštěv u lékaře v lednu stejný, jako v březnu. Graficky znázorněte. (Wilkoksonův párový test)
5.1.2 Otázky k souboru Spánek.xlsx
1. Zjistěte, zda existuje závislost mezi pohlavím a rodinným stavem. Otestujte na hladině významnosti 0,05 a 0,01. Pro daná data vytvořte kontingenční tabulku, včetně vhodných relativních četností. (chí-kvadrát)
2. Zjistěte, zda existuje závislost mezi pohlavím a tím, zda je respondent kuřák. Pro daná data vytvořte kontingenční tabulku, včetně vhodných relativních četností. (chí-kvadrát)
3. Zjistěte, zda existuje závislost mezi pohlavím a nejvyšším dosaženým vzděláním. Pro daná data vytvořte kontingenční tabulku, včetně vhodných relativních četností. (chí-kvadrát)
4. Zjistěte, zda existuje závislost mezi nejvyšším dosaženým vzděláním a tím, zda je respondent kuřák. Pro daná data vytvořte kontingenční tabulku, včetně vhodných relativních četností. (chí-kvadrát)
5. Zjistěte, zda existuje závislost mezi pohlavím a odpovědí na otázku kvalita spánku. Pro daná data vytvořte kontingenční tabulku, včetně vhodných relativních četností. (chí-kvadrát)
6. Na hladině významnosti 0,01 otestujte závislost mezi vnímáním zdravotního stavu a kondice. (Spearmanova korelace)
7. Otestujte závislost mezi pocitem vyčerpání a pocitem ospalosti v minulém měsíci. (Spearmanova korelace)
8. Rozhodněte, zda se váha u mužů a žen liší. Graficky znázorněte. (Mann-Whitneyův U test)
9. Rozhodněte, zda se u mužů a žen liší délka spánku v pracovní den. Graficky znázorněte. (Mann-Whitneyův U test)
10. Rozhodněte, zde je u respondenta délka spánku v pracovní den stejná, jako o víkendu. Graficky znázorněte. (Wilkoksonův párový test)
5.1.3 Otázky k souboru Zaměstnanec.xlsx
1. Zjistěte, zda existuje závislost mezi pracovním poměrem a doporučením firmy ostatním. Otestujte na hladině významnosti 0,05 a 0,01. Pro daná data vytvořte kontingenční tabulku, včetně vhodných relativních četností. (chí-kvadrát)
2. Na hladině významnosti 0,01 otestujte závislost odpovědí na otázku 1A a 1I.
3. Na hladině významnosti 0,01 otestujte závislost odpovědí na otázku 10A a 10I.
107
4. Otestujte závislost odpovědí na otázku 1A a 6A.
5. Rozhodněte, zda se liší odpověď na otázku 5A u zaměstnanců, kteří by firmu doporučili a kteří ne.
6. Rozhodněte, zda se liší odpověď na otázku 6I u zaměstnanců, kteří by firmu doporučili a kteří ne.
5.2 Parametrické testy
Před každým testem se vždy zamyslete, zda má vůbec smysl test provádět.
Pokud není řečeno jinak, testy provádějte na hladině významnosti 0,05.
5.2.1 Otázky k souboru Testování hypotéz.xlsx
1. Rozhodněte, zda se u mužů a žen liší jejich průměrná výška. Graficky znázorněte. (t-test, nezávislé, dle skupin)
2. Rozhodněte, zda se u mužů a žen liší jejich průměrná váha 1. Graficky znázorněte. (t-test, nezávislé, dle skupin)
3. Rozhodněte, zda se u mužů a žen liší jejich průměrný plat. Graficky znázorněte. (t-test, nezávislé, dle skupin)
4. Rozhodněte, zda se liší průměrný plat u skupin utvořených na základě spokojenosti. Graficky znázorněte. (t-test, nezávislé, dle skupin)
5. Rozhodněte, zda se liší průměrný věk u skupin utvořených na základě spokojenosti. Graficky znázorněte. (t-test, nezávislé, dle skupin)
6. Rozhodněte, zda se liší průměrná hodnota krevního tlaku 1 u kuřáků 1 a nekuřáků 1. Graficky znázorněte. (t-test, nezávislé, dle skupin)
7. Rozhodněte, zda se liší hodnota krevního tlaku 1 a hodnota krevního tlaku po požití léku. Graficky znázorněte. (t-test, závislé)
8. Rozhodněte, zda se liší hodnota krevního tlaku 2 a hodnota krevního tlaku po požití léku. Graficky znázorněte. (t-test, závislé)
5.2.2 Otázky k souboru Spánek.xlsx
1. Rozhodněte, zda se u mužů a žen liší jejich průměrná výška. Graficky znázorněte. (t-test, nezávislé, dle skupin)
2. Rozhodněte, zda se u mužů a žen liší jejich průměrná váha. Graficky znázorněte. (t-test, nezávislé, dle skupin)
108
5.2.3 Otázky k souboru Náročnost povolání.xlsx
1. Rozhodněte, zda se u mužů a žen liší jejich průměrný plat. Graficky znázorněte. (t-test, nezávislé, dle skupin)