+ All Categories
Home > Documents > ODHADY PARAMETRŮ ZÁKLADNÍHO SOUBORU

ODHADY PARAMETRŮ ZÁKLADNÍHO SOUBORU

Date post: 05-Feb-2016
Category:
Upload: mimi
View: 53 times
Download: 0 times
Share this document with a friend
Description:
ODHADY PARAMETRŮ ZÁKLADNÍHO SOUBORU. - PowerPoint PPT Presentation
41
ODHADY PARAMETRŮ ZÁKLADNÍHO SOUBORU 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Le snické a dřevařské fakulty MENDELU v Brn ě (LDF) s ohledem na discipliny společné ho základu (reg. č. CZ.1.07/2.2.00/28.0021) za přispění finančních prostředků EU a státního rozpočtu České republiky.
Transcript
Page 1: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

ODHADY PARAMETRŮ ZÁKLADNÍHO SOUBORU

1

Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021) za přispění finančních prostředků EU a státního rozpočtu České republiky.

Page 2: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

2

ZÁKLADNÍ x VÝBĚROVÝ SOUBOR

ZÁKLADNÍ SOUBOR – skládá se ze všech jednotek, které patří k množině, jež je předmětem analýzy (tedy všechny teoreticky změřitelné jednotky – jejich počet nemusí být znám, velikost ZS může být teoreticky nekonečně veliká – na obrázku vpravo naznačeno rozmlženým okrajem). ZS musí být dobře definován. Popisem ZS se zabývá popisná statistika.

VÝBĚROVÝ SOUBOR – skládá se z podmnožiny ZS, jeho prvky jsou vybírány náhodným výběrem (naznačeno červenými obdélníčky). Je to množina reálně měřených dat, která slouží k odhadu vlastností ZS. Znamená to, že při praktickém měření reálně známe pouze údaje o prvcích (stromečcích) v rámečku, ale odhadujeme z nich vlasntnosti všech prvků ZS (všech stromečků, i těch, které nejsou na obrázku, pokud má ZS větší velikost). Analýzou VS a odhadem vlastností ZS se zabývá matematická statistika.

Page 3: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

3

ZÁKLADNÍ PRINCIP ODHADU PARAMETRŮ

Proč musíme parametry a další vlastnosti základního souboru (ZS) odhadovat?Protože ve většině případů neznáme (nemáme změřeny) všechny prvky ZS. Pokud bychom všechny tyto údaje znali, nemusíme nic odhadovat a vše (tj. všechny statistické vlastnosti) víme „přesně“, „stoprocentně“. Ovšem ZS může být nezměřitelně nebo nekonečně veliký. Potom na vlastnosti ZS můžeme usuzovat jen na základě údajů získaných z jeho podmnožiny – výběrového souboru (VS) – a všechny soudy o ZS jsou zatíženy určitou nejistotou vyplývající z toho, že o ZS nemáme úplnou informaci. Proto veškeré parametry a další vlastnosti ZS je možné pouze odhadnout se stanovenou pravděpodobností. Tento postup je nejčastější (v 99,999… % případů) – celý ZS známe jen zcela výjimečně.

Celý proces odhadu ukazuje následující obrázek

Page 4: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU
Page 5: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

5

ZÁKLADNÍ POJMY SPOJENÉ S VÝBĚROVÝMI ŠETŘENÍMI

ODHAD PARAMETRU ZÁKLADNÍHO SOUBORU je určitá hodnota (hodnoty) vhodné statistiky získaná postupem zvaným bodový nebo intervalový odhad.

PARAMETR je statistická charakteristika základního souboru (značí se řeckými písmeny, např. střední hodnota ).

STATISTIKA je statistická charakteristika výběrového souboru (značí se latinkou, např. výběrový průměr ).x

Page 6: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

6

VÝBĚROVÝ PRŮMĚR a jeho vlastnosti

1015201825

1x

152628232830

2x

1830112726

3x

1729351612

4x

Page 7: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

7

VÝBĚROVÝ PRŮMĚR a jeho vlastnosti

Pro rozdělení výběrového průměru platí:

E(X) =

X X

σσ = SE =

n

Odhadem střední hodnoty ZS je střední hodnota(E(.)) výběrových průměrů, tedy „průměr průměrů“. Znamená to, že kdybychom provedli velké množství výběrů (teoreticky nekonečně mnoho) a ze všech spočítali průměry, potom nejlepším odhadem střední hodnoty ZS (kterou neznáme, protože neznáme celý ZS) by byl průměr všech takto zjištěných průměrů jednotlivých výběrů

Tato veličina se nazývá střední chyba průměru (SE - standard error) a je to vlastně směrodatná odchylka výběrového průměru, tj. ukazuje míru možného kolísání hodnot výběrových průměrů vypočítaných z různých výběrů provedených ze stejného ZS. Čím je tato hodnota menší, tím je toto možné kolísání hodnot vývěrových průměrů menší – a tím je tedy určení střední hodnoty ZS spolehlivější. SE závisí přímo úměrně na variabilitě ZS (σ) – čím jsou data variabilnější, tím je také možnost větší variability výběrových průměrůSE závisí nepřímo úměrně na velikosti výběru (n) – čím máme větší výběr (tedy víme toho víc o ZS), tím je určení střední hodnoty ZS spolehlivější.

Page 8: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

VÝBĚROVÝ PRŮMĚR a jeho vlastnosti

8

Centrální limitní věta (CLV):

Jestliže výběr pochází ze ZS s libovolným rozdělením se střední hodnotou a směrodatnou odchylkou , potom výběrový průměr má při dostatečné velikosti výběru n výběrové normální rozdělení se střední hodnotou a mírou variability 2/n, tedy N(,2/n)

Rozdělení základního souboru (není normální)

Hodnoty

Střední hodnota ZS i výběrového průměru

Směrodatná odchylka (σ) základního souboru

Hustota (pravděpodobnost výskytu hodnot)

Směrodatná odch. výb. průměru σ/n

Rozdělení výběrového průměru (hnědá plocha)

Page 9: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

VÝBĚROVÝ PRŮMĚR a jeho vlastnosti

9

Rozdělení základního souboru

Normální Rovnoměrné

Nenormální (levostranné)

Rozdělení výb. průměru

Obrázek ukazuje, že pro „dostatečnou“ velikost výběru (obvykle n = 30 nebo víc) je rozdělení výběrového průměru normální, ať je rozdělení základního souboru jakékoliv. Pro malé velikosti výběru (n = 2,10) toto neplatí, výběrová rozdělení jsou blízká původnímu rozdělení základního souboru.

Page 10: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

VÝBĚROVÝ PRŮMĚR a jeho vlastnosti

10

http://onlinestatbook.com/stat_sim/sampling_dist/index.html

Ilustrace CLV:Horní obrázek ukazuje ZS, který nemá nornální rozdělení (je levostranný, průměr (modrá čárka) a medián (fialová čárka) se liší, variabilita je značná (červená svorka - +- 1S).Dolní grafy ukazují rozdělení 1000 výběrových průměrů o velikosti 5 a 25. Je vidět, že obě rozdělení jsou velmi blízká normálnímu rozdělení, z dolního grafu vyplývá, že větší výběr (N=25) má nižší variabilitu rozdělení průměrů. S nastavením těchto dat a různými počty a velikostmi výběrů je možné „experimentovat“ na stránce:

Page 11: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

11

ZÁKLADNÍ VLASTNOSTI BODOVÝCH ODHADŮ

nespornost (konzistence) – se vzrůstající velikostí výběru vzrůstá i pravděpodobnost, že odhad bude blízký skutečnému parametru.

nevychýlenost (nestrannost) - střední hodnota výběrové statistiky T se rovná odhadovanému parametru P základního souboru („průměr průměrů“)

E(T) = P

vydatnost – znamená, že daný nevychýlený odhad má se srovnání se všemi ostatními nevychýlenými odhady nejmenší variabilitu (rozptyl)

Page 12: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

12

ZÁKLADNÍ VLASTNOSTI BODOVÝCH ODHADŮ

jednotlivé výběrové průměry

skutečná hodnota parametru ZS

Page 13: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

13

ZÁKLADNÍ VLASTNOSTI BODOVÝCH ODHADŮ

y - výběrové průměryM - „průměr průměrů“ z hodnot y – vypočítaný odhad střední hodnoty ZS

vychýlení odhadu

skutečná hodnota parametru ZS

Grafické znázornění vychýleného odhadu – pokud se střední hodnota výběrových statistik M liší od skutečné hodnoty parametru, potom se jedná o vychýlený odhad.

Page 14: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

14

ZÁKLADNÍ VLASTNOSTI BODOVÝCH ODHADŮ

nevychýlený odhad s velkou variabilitou (nevydatný)

nevychýlený a vydatný odhad

Page 15: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

15

BODOVÉ ODHADYZÁKLADNÍCH PARAMETRŮ

XE = x

Odhad střední hodnoty:

Odhad rozptylu:

X 2 nD = S

n -1

korekce vychýlení

Výraz S2*(n/(n-1) je nestranný konzistentní odhad rozptylu D(X) náhodné veličiny X.

Page 16: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

16

BODOVÉ ODHADYZÁKLADNÍCH PARAMETRŮ

střední hodnota ZS – v praxi ji neznáme, znali bychom ji pouze, pokud bychom znali celý ZS -všechny šedé body

hodnoty výběrového souboru

hustota pravděpodobnosti základního souboru

(„nekonečný“ počet šedých bodů)

tato vzdálenost je pro jeden konkrétní výběr neznámá (protože neznáme polohu ) není možné určit spolehlivost konkrétního odhadu (tj. zda vychýlení výběrového průměru je „milimetr nebo kilometr“) – proto se pro odhad parametrů ZS používají raději intervalové odhady

Xvýběrový průměr – vypočítaný z červených bodů – z výběrového souboru – tuto hodnotu známe

Page 17: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

17

INTERVALOVÉ ODHADY PARAMETRŮ ZS

1 2P T τ T = 1- α

Interval spolehlivosti pro parametr při hladině významnosti (0,1) je určen statistikami T1 a T2:.

toto je bodový odhad neznámé střední hodnoty vypočítaný z prvků výběru – nevíme nic o

jeho vztahu ke skutečné střední hodnotě

T1T2

toto je intervalový odhad neznámé střední hodnoty - předpokládáme, že s pravděpodobností P =1- leží

nám neznámé kdekoli v tomto úseku číselné osy

X

prvky výběru

Čteme: Pravděpodobnost, že parametr základního souboru leží v intervalu (T1;T2), je 1 – α.Označení je obecné, parametrem může být střední hodnota, směrodatná odchylka, rozptyl,… atd.)

Page 18: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

18

INTERVALOVÉ ODHADYPARAMETRŮ ZS A VÝZNAM HODNOTY α

Hlavní rozdílem intervalového odhadu oproti bodovému je to, že místo jedné hodnoty určujeme zpravidla dvě hodnoty – hranice intervalu. Hlavní výhodou intervalového odhadu je fakt, že můžeme určit pravděpodobnost (spolehlivost) odhadu, tj. že můžeme prohlásit, že neznámý parametr leží v daném intervalu s pravděpodobností …. %.

Pravděpodobnost odhadu určujeme pomocí hladiny významnosti α, přičemž platí, že s pravděpodobností 1-α vypočítaný interval obsahuje skutečnou hodnotu parametru ZS.Hodnota α je tedy pravděpodobnost („riziko“) toho, že intervalový odhad nebude skutečnou hodnotu parametru obsahovat. Nejčastější používanou hodnotou α je 0,05 (tj. 5%). V tomto případě interval spolehlivosti (IS) platí s pravděpodobností 95%. Připouštíme 5% „riziko“, že vypočítaný IS je „chybný“, tj. neobsahuje skutečnou hodnotu parametru. Musíme totiž připustit, že „náhodou“ se může stát, že náš náhodně zvolený výběr bude tak „extrémní“, že skutečná hodnota parametru bude mimo něj. Tento případ ukazuje následující obrázek.

Page 19: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

19

HLADINA VÝZNAMNOSTI V INTERVALOVÝCH ODHADECH

1x

2x

2x

tyto intervaly spolehlivosti „obsahují“ střední hodnotu (jsou tedy „správné“), těch (při opakovaných výběrech) bude nejméně (1- ).100 %

tento interval spolehlivosti „neobsahuje“ střední hodnotu (je tedy „chybný“), těchto intervalů se objeví nejvýše (100) % Zde jsou ze ZS (všechny možné body pod zelenomodrou křivkou) se

střední hodnotou (modrá čárkovaná čára) vybrány 3 náhodné výběry – červený zelený a fialový (jsou to 3 výběry z teoreticky nekonečného počtu výběrů). Zatímco IS vypočítané z červeného a zeleného výběru obsahují hodnotu parametru (modrá čára označující jimi prochází), fialové body jsou natolik vychýleny, že jejich IS je příliš vlevo a skutečnou hodnotu parametru neobsahuje). Hodnota α = 0,05 zaručuje, že těchto „chybných“ odhadů nebude víc než max. 5 %, tj. např. 5 ze 100 výběrů.

Page 20: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

HLADINA VÝZNAMNOSTI V INTERVALOVÝCH ODHADECH

20

Obrázek  ukazuje křivku rozdělení výběrového průměru se středem   a směrodatnou odchylkou σ/n . Ze ZS se známou střední hodnotou bylo na počítači náhodně vygenerováno padesát výběrů o rozsahu n = 10 a byly spočteny a nakresleny intervaly spolehlivosti. Z padesáti intervalů pouze dva nepokrývají průměr ZS , který je znázorněn vertikální čárou (tyto dva intervaly jsou na obrázku označeny šipkami). Teorie předvídá, že 5 % takových intervalů nepokryje střední hodnotu ZS (v našem případě 5% z 50, tj. 2,5. Naše simulace je tedy v dobrém souladu s teorií, protože pouze 2 IS nepokrývají skutečnou střední hodnotu.

V praxi samozřejmě provedeme pouze jediný výběr o rozsahu n a spočteme intervalový odhad parametru  . Nevíme ovšem, zda náš interval pokryje  , nebo ne. Protože ale známe vlastnosti výběrového rozdělení průměru, můžeme se stanovenou spolehlivostí (např. 95%) předpokládat, že jsme nedostali jeden z těch neobvyklých intervalů, které  nepokrývají . Proto také vypočtenému intervalu říkáme 95% interval spolehlivosti pro  .

(podle http://ucebnice.euromise.cz/index.php?conn=0&section=biostat1&node=8#SECTION00820000000000000000)

Page 21: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

21

OBOUSTRANNÉ INTERVALOVÉ ODHADY PARAMETRŮ ZS

T1 T2

P = 1 - = 1 – (1 + 2)1= /2 2= /2

T

Oboustranné IS se používají jako základní, vždy, pokud chceme odhadnout hodnotu parametru ZS a tuto hodnotu neporovnáváme s nějakou hraniční hodnotou (normou apod.).

Při konstrukci oboustranného IS musíme „rozložit“ pravděpodobnost α na obě strany intervalu. Je tomu tak proto, že pokud se toto „riziko“ naplní (tj. IS nebude obsahovat skutečnou hodnotu parametru ZS), my nevíme, kde je skutečná hodnota parametru, zda vlevo nebo vpravo od IS. Proto se obě hranice oboustranného IS konstruují na základě pravděpodobnosti α/2, nikoli α.

Page 22: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

22

JEDNOSTRANNÉ INTERVALOVÉ ODHADY

Jednostranné intervaly spolehlivosti používáme tehdy, pokud chceme porovnat hodnotu parametru ZS s nějakou hraniční hodnotou (normou apod.), kdy na druhé straně intervalu „nezáleží“, kdy je pro nás hlavně podstatné, zda hodnota parametru může nebo nemůže v ZS přesáhnout uvedenou hraniční hodnotu.

Příkladem může být měření škodlivin v ovzduší. Každá škodlivina (SO2, prachové částice, …) má stanovenou normu středních hodnot za určitý čas (např. za den), která by neměla být „překonána“. ZS je zde teoreticky nekonečný počet možných měření. My samozřejmě můžeme změřit pouze omezený reálný počet měření – a to bude výběrový soubor (VS). Otázka zní, zda v případě, že bychom změřili „nekonečný“ počet měření, by střední hodnota obsahu škodliviny v ovzduší přesáhla normu. Na obrázcích zelené body představují VS, žlutá čára výběrový průměr (vypočítaný z hodnot VS), červená čára normu, a fialová čára je jednostranný (pravostranný ) IS.

norma

norma

V tomto případě vypočítaný výběrový průměr je sice menší než norma, ale my potřebujeme vědět, zda je pravděpodobné, že vy střední hodnota „nekonečného počtu“ měření mohla s danou pravděpodobností přesáhnout normu. V tomto případě tomu tak není (pravá hranice IS je pod normou).

V tomto případě vypočítaný výběrový průměr je sice menší než norma, ale my potřebujeme vědět, zda je pravděpodobné, že vy střední hodnota „nekonečného počtu“ měření mohla s danou pravděpodobností přesáhnout normu. V tomto případě tomu tak je (pravá hranice IS je nad normou, možnou příčinou je vyšší variabilita těchto měření). Znamená to, že v tomto případě bychom učinili závěr, že norma byla překročena.

Page 23: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

23

JEDNOSTRANNÉ INTERVALOVÉ ODHADY

levostranný odhad

1P(τ > T ) = 1 - α 2P(τ < T ) = 1 - αpravostranný odhad

U jednostranných odhadů používáme k výpočtu hranice (levé nebo pravé) hodnotu α, a to proto, že IS může neobsahovat skutečnou hodnotu parametru pouze na jedné straně, na druhé straně jde interval do „nekonečna“.

Page 24: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

24

POROVNÁNÍ JEDNOSTRANNÉHO A ODOUSTRANNÉHO ODHADU

T1 oboustranný intervalový odhadP = 1 - = 1 – (1 + 2)

1 2

T

T2

jednostranný intervalový odhad P = 1 - T1

Page 25: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

25

POROVNÁNÍ JEDNOSTRANNÉHO A ODOUSTRANNÉHO ODHADU

Obrázek ukazuje hodnoty (kvantily) normovaného normálního rozdělení, které odpovídají hodnotám α 0,05 (pro IS platný s 95% pravděpodobností), 0,01 (pro IS platný s 99% pravděpodobností) a 0,001 (pro IS platný s 99,9% pravděpodobností), a to pro jednostranný levostranný IS (obr. a), pro oboustranný IS (obr. b) a pro jednostranný pravostranný IS (obr. c) . Tyto hodnoty(kvantily) se využívají při výpočtu IS (viz dále).

Page 26: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

26

INTERVAL SPOLEHLIVOSTISTŘEDNÍ HODNOTY

je známa směrodatná odchylka základního souboru nebo je používán velký výběr (nad 30 prvků)

n n

/2 /2x - z x + z

z/2 je kvantil normovaného normálního rozdělení pro hladinu významnosti /2

dolní hranice horní hranice

v případě velkého výběru lze použít místo výběrovou směrodatnou odchylku S

Page 27: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

27

INTERVAL SPOLEHLIVOSTISTŘEDNÍ HODNOTY

není známa směrodatná odchylka základního souboru a je používán malý výběr (do 30 prvků)

t/2,n-1 je kvantil Studentova t-rozdělení pro hladinu významnosti /2 a (n-1) stupňů volnosti

S S

n n /2,n-1 /2,n-1x - t x + t

dolní hranice horní hranice

Základní vzorec pro výpočet IS střední hodnoty. Výhodou je to, že za předpokladu normálního rozdělení je IS symetrický podle výběrového průměru. Znamená to, že vypočítáme polovinu IS (výraz v zeleném rámečku) a tuto hodnotu odečteme od výběrového průměru (tím získáme dolní hranici IS) a přičteme k výběrovému průměru (tím získáme horní hranici IS).Tento vzorec můžeme použít pro jakoukoliv velikost výběru – pro malé výběry (do 30 prvků) jej použít musíme (platí zde t-rozdělení místo normálního rozdělení) a pro velké výběry (nad 30 prvků) můžeme (se vzrůstající velikostí výběru se t-rozdělení blíží rozdělení normálnímu, až s ním prakticky splyne).

Page 28: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

28

INTERVAL SPOLEHLIVOSTISTŘEDNÍ HODNOTY

velikost základního souboru je známa (N) a výběrový soubor je relativně velký (n > 5 % N)

Používá se korekce na konečný základní soubor:

/2 /2. . 1 . . 1n nx t x tSNn n N

S

Účelem korekce je zmenšit standardní chybu x

Page 29: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

29

INTERVALY SPOLEHLIVOSTI –PROVEDENÍ V EXCELU

interval spolehlivosti střední hodnoty

a) pomocí doplňku Analýza dat

rozsah dat výběru

musí být zatrženo !!hodnota 100.(1-)%

Page 30: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

30

INTERVALY SPOLEHLIVOSTI –PROVEDENÍ V EXCELU

pomocí funkce CONFIDENCE hodnota

směrodatná odchylka (např. vypočítaná pomocí

modulu „Popisná statistika“

velikost výběru

Způsob počítá interval spolehlivosti podle vzorceS

n /2,n-1t

Způsob počítá interval spolehlivosti podle vzorce n

/2z

pro stejná data vychází „širší“, protože t-rozdělení má vyšší variabilitu

pro stejná data vychází „užší“, protože normované normální rozdělení má nižší variabilitu

Page 31: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

31

FAKTORY OVLIVŇUJÍCÍ VELIKOST INTERVALU SPOLEHLIVOSTI (IS)

velikost výběru (čím větší výběr, tím užší IS)

hladina význanosti (čím vyšší hodnota , tím užší interval – nižší hladina významnosti (např. 0,01 místo 0,05) znamená požadavek vyšší spolehlivosti určení IS - pokud určíme =0,01, požadujeme spolehlivost IS P=99%, pokud určíme =0,05, požadujeme spolehlivost IS P=95%, IS musí být širší pro P=99% než pro P=95%, protože musíme zaručit vyšší spolehlivost)

variabilita (čím vyšší hodnota směrodatné odchylky, tím širší IS)

použitý vzorec (pokud používáme t-rozdělení, je IS širší než při použití N(0,1), rozdíl je markantnější u malých výběrů)

Page 32: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

32

FAKTORY OVLIVŇUJÍCÍ VELIKOST INTERVALU SPOLEHLIVOSTI

24

25

26

27

28

29

30

31

32

33

34

35

36

0.05;10;T 0.05;10;Z 0.01;10;T 0.01;10;Z 0.05;50;T 0.05;50;Z 0.01;50;T 0.01;50;Z

Page 33: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

33

INTERVAL SPOLEHLIVOSTI SMĚRODATNÉ ODCHYLKY

Výpočet intervalu spolehlivosti směrodatné odchylky využívá 2-rozdělení a je nesouměrný – nesouměrnost je vyšší u odhadů vycházejících z malých výběrů. Proto musíme vypočítat zvlášť dolní a horní hranici. S2 je rozptyl výběru, χ2 je hodnota chi-kvadrát (Pearsonova) rozdělení. Hodnoty chi-kvadrátu musíme vypočítat dvě (pro hladinu významnosti α/2 a pro 1-α/2, což je možné v Excelu pomocí funkce CHIINV, kde za „Prst“ dosadíme hladinu významnosti a za „Volnost“ počet stupňů volnosti (n-1).

pro malé výběry

, 1 , 1

ˆ ˆ

n n

2 2

2 2α α

1-2 2

(n -1) S (n -1) Sσ

χ χ

Page 34: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

34

INTERVAL SPOLEHLIVOSTI SMĚRODATNÉ ODCHYLKY

Výpočet intervalu spolehlivosti směrodatné odchylky pro velké výběry využívá normovaného normálního rozdělení a je souměrný.

pro velké výběry (nad 30 prvků)

α/2

Sσ = S ± z .

2n

Page 35: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

35

VELIKOST VÝBĚRU

Obecně platí – čím větší – tím lepší. Nejlepší je žádný (použít základní soubor.

Jakou minimální velikost výběru potřebuji vzhledem k účelu analýzy a k požadované vypovídací schopnosti o základním souboru?

Obvyklá otázka zní:

Jedním ze základních kritérií velikosti výběru je požadovaná přesnost a spolehlivost určení stanoveného parametru (obvykle střední hodnoty).

Page 36: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

36

VELIKOST VÝBĚRU

Jaká bude maximální povolená „vzdálenost“ mezi odhadem parametru a vlastním parametrem? Odpovědí je přesnost odhadu, značená D.

Jakou požadujeme spolehlivost, že skutečná vzdálenost mezi odhadem a skutečným parametrem bude menší nebo nejvýše rovna D? Odpovědí je spolehlivost odhadu daná hodnotou 100.(1-). Musíme tedy určit hladinu významnosti .

Jaká je variabilita základního souboru (většinou ji neznáme, je nutné použít co nejpřesnější odhad). Určíme ji pomocí rozptylu (S2) nebo variačního koeficientu (S%).

Page 37: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

37

VELIKOST VÝBĚRU ZALOŽENÁ NA INTERVALU SPOLEHLIVOSTI

Jakou velikost výběru n ze základního souboru s variabilitou danou rozptylem S2 minimálně potřebuji, abych se spolehlivostí 100.(1-) % zabezpečil, že střední hodnota se bude pohybovat v intervalu D (výběrový průměr přesnost odhadu)?

x

+D -Dx

Page 38: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

38

VELIKOST VÝBĚRU ZALOŽENÁ NA INTERVALU SPOLEHLIVOSTI

2

2α/2 2

Sn = t

D %

22α/2 2

(S%)n = t

D

Vzorec vlevo se používá, pokud variabilitu (S2) i přesnost odhadu (D2) určujeme absolutně, tj.v jednotkách měřené veličiny. Vzorec vpravo se používá, pokud obé určujeme relativně (v %).

t/2 kvantil t-rozdělení pro hladinu významnosti /2 a pro n-1 stupňů volnosti. Pro 1. aproximaci n odhadneme, pro 2. počítáme s výsledným (n-1) z 1. aproximace a pokračujeme tak dlouho, dokud se n mění. Pro velké výběry můžeme použít přímo z /2.

Page 39: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

VELIKOST VÝBĚRU ZALOŽENÁ NA INTERVALU SPOLEHLIVOSTI

39

Můžeme využít jednoduché excelovské tabulky (list „velikost výběru“) zde:http://user.mendelu.cz/drapela/Statisticke_metody/Data_do_cviceni/Velikost_vyberu.xlsŘešené příklady na téma velikosti výběru jsou v souboru (první dvě strany z tohoto dokumentu)http://user.mendelu.cz/drapela/Statisticke_metody/Data_do_cviceni/Velikost_vyberu.doc

Pro první aproximaci využijeme odhadnutou velikost výběru 30:

Ve žlutém poli vyjde 1. vypočítaný odhad n (17), vzhledem k tomu, že se tato hodnota liší od původně zadané hodnoty 30, pro další výpočet zadáme 17 místo 30.)

Page 40: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

VELIKOST VÝBĚRU ZALOŽENÁ NA INTERVALU SPOLEHLIVOSTI

40

Po dalších dvou aproximacích vyjde konečná velikost výběru 18 (při zadání hodnoty 18 do buňky E3 zůstává stejná hodnota i v buňce F9).

Dále se můžeme přesvědčit, že vypočítaná (skutečná) přesnost určení střední hodnoty tloušťky při použití výběru velikosti 18 je 1,989 cm (tmavě žlutá buňka E11), což splňuje naši podmínku přesnosti 2 cm.

Page 41: ODHADY PARAMETRŮ  ZÁKLADNÍHO SOUBORU

VELIKOST VÝBĚRU ZALOŽENÁ NA INTERVALU SPOLEHLIVOSTI

41

K řešení použijeme stejnou tabulku jako v předchozím příkladu, pouze zadáme hodnoty zjištěné z naměřeného výběru (do buňky E1 hodnotu S 4,8, do buňky E3 realizovanou velikost výběru 30. Předpokládáme, že chceme přesnost odhadu střední hodnoty určit se spolehlivostí 95 %, proto necháme hodnotu na 0,05. Ostatních hodnot si „nevšímáme“.


Recommended