Slo žitější (mnohorozměrné) metody

Post on 13-Feb-2016

37 views 1 download

description

Slo žitější (mnohorozměrné) metody. stručný nástin možností vybraných metod. Path analysis. přesný český překlad by byl něco jako analýza cestiček Viz též SEM (Structural Equation Modelling [třeba ve programu Statistica; je to o něco širší pojem]), případně causal modelling. - PowerPoint PPT Presentation

transcript

Složitější (mnohorozměrné) metody

stručný nástin možností vybraných metod

Path analysis

• přesný český překlad by byl něco jako analýza cestiček

• Viz též SEM (Structural Equation Modelling [třeba ve programu Statistica; je to o něco širší pojem]), případně causal modelling

Klasická (mnohonásobná) regrese

• Mnoho prediktorů, jedna odpověď

• Ve skutečnosti - dlouhé kauzální řetězce - v přírodě: mnohá proměnná je ovlivňovaná, a zároveň ovlivňuje - vede ke kauzálním sítím

Například typický hydrobiologický model

Dravé ryby

Planktonožravé ryby

Zooplankton

Fytoplankton

Ostatní náhodné vlivy (případně tady může být teplota, chemie vody etc.

Příklad ze skript

Obr. Obrázek vlevo: Diagram pro path-analýzu úspěšnosti druhu Oxalis acetosella. y1 je celková abundancebylin (s výjimkou Oxalis); y2 je abundance mechů; y3 je abundance Oxalis acetosella. x1 je poměr světlosti aúživnosti stanoviště (light/fertility ratio v původní práci). Obrázek vpravo: Řešení pro obrázek vlevo metodoupath analysis.

Mluvíme sice o kauzálním modelování

• Ale kauzalita je “vnesena” našimi představami o systému, nikoliv experimentální manipulací

• Přístupy použití se liší, podle toho jak moc dovolíme, aby náš iniciální model o kauzálních závislstech byl korigován na základě dat

Metoda je užitečná především tam,

• kde nemůžeme (alespoň některé) proměnné měnit experimentálně

• Oblíbená v evoluční biologii• Ale i v ekologii (zvlášt na úrovni

ekosystémů a společenstev ve větších prostorových škálách)

• Pozor při interpretaci kauzality

Popsáno + srozumitelně pro biology

• Bill Shipley 2004 Cause and Correlation in Biology: A User's Guide to Path Analysis, Structural Equations and Causal Inference. Cambridge University Press.

• James B. Grace 2006 Structural Equation Modeling and Natural Systems. Cambridge University Press.

(Hierarchické) klasifikace

Děláme stromečky (ale nejen je)

Cíl klasifikace

• Vytvořit skupiny objektů, které jsou vnitřně homogenní, ale odlišné od ostatních

Typická data (matice)1 2 3 4 5 6 7

E1 95 90 99 85 80 80 97E0 25 4 2 2 25 60 0litter 7 30 15 40 35 15 25Agrostis canina 35Agrostis tenuis 2 1Anthoxanthum odora. 8 1 2 5 5Briza media 3 0.5 2 5Cynosurus cristatusDeschampsia cespit. 8 40Festuca ovina 1 4 2Festuca pratensis 1 2Festuca rubra 3 3 15 10 4 5 35Helictorichon pub.Holcus lanatus 35 1 5 5Molinia caerulea 2 40 10 2 10Nardus stricta 8 3 1 5

Snímek číslo

Mohu klasifikovat

• snímky, podle podobnosti druhového složení (dostanu skupiny podobných snímků - pak jim třeba můžu nějak říkat [Seslerietum])

• druhy, podle vzájemné podobnosti (korelace) rozšíření (dostanu skupiny druhů s podobnými ekologickými nároky)

Typická datadélka koruny [mm]

délka prašníků [mm]

počet tyčinek

šířka listu [cm]

váha semene [g]

indiv 1 5 1.5 6 3.5 0.15indiv 2 8 1.3 6 3.6 0.16indiv 3 7 1.2 6 4.2 0.19indiv 4 8 1.3 6 4.9 0.11indiv 5 5 1.6 5 4.9 0.12indiv 6 6 1.5 5 4.6 0.16indiv 7 8 1.1 6 4.8 0.18indiv 8 6 1.2 6 5.5 0.11

Chci získat skupiny podobných individuí - pozor, data jsou na různých stupnicích

Klasifikace

• Numerická taxonomie, numerická fenetika, kladistické metody

• Numerické taxonomie (dříve především fenetika), dnes podstatně širší pojetí

• Kladistika - fylogenetika - konstrukce fylogenetických stromů - dnes prakticky samostatné odvětví

Klasifikace

• S učením vs. bez učení• Hierarchické vs. nehierarchické• Hierarchické - divisivní vs. algomerativní

Shluková analýza• = Hierarchická,

aglomerativní metoda, výsledkem strom:

• Princip - nejprve spočtu matici podobností mezi všemi páry, pak konstruuju strom

Obr. Příklad zpracování téhož souboru dat dvěma různými metodami. Všechnypostupy jsou shodné, pouze nahoře byla užita metoda average linkage a dolemetoda Wardova.

Přži shlukové analýze pamatuj:

• Je zásadním způsobem ovlivněna tím, jakou mám míru podobnosti mezi objekty (tzv. (dis)similarity measure, příp. resemblance function). Pokud mám data měřená na různých škálách, musím standardizovat. Míry bývají často specifické pro různá odvětví

Při shlukové analýze pamatuj:

• Velmi důležitý je i shlukovací algoritmus

• Předvolby (default) v programu Statistica jsou v drtivé většině nevhodné pro biologické účely - je třeba je příslušně změnit

Shluková analýza mi udělá skupiny vždy

• ale já je nechci, chci vizualizovat podobnostní strukturu ve složení společenstev

Ordinace: chci dostat(pro složení společenstev)

odrinační diagram, kde podobné snímky budou blízko sebe, podobné druhy budou blízko sebe, a druhy budou mít optima v blízkosti snímků, kde se vyskytují

Cactus Nymphea

Urtica

Drosera

Menyanthes

Comarum

Chenopodium

Aira

Ordinační diagram

Blízkost značí podobnost

Cactus Nymphea

Urtica

Drosera

Menyanthes

Comarum

Chenopodium

Aira

Ordinační diagram

Nutrients

Water

Můžu mít i vysvětlující proměnné - buď je promítám ex post, nebo tzv. constrained ordinations.

Různé metody

• Correspondence analysis, Principal component analysis, factor analysis

• Oblíbené v ekologii, ale i v taxonomii (ukáže, zda jsou mezi druhy přechody), a také v psychologii

Constrained ordinations i pro hodnocení pokusů

Diskriminační analýza

• Příklad: Mám diploida a tetraploida - ale nemůžu pokaždé počítat chromozomy - ptám se - jsem schopen najít pravidlo na základě měřených morfologických znaků (jako jejich lineární kombinaci), které mi dvě ploidie od sebe odliší?

Při aplikaci

• pozor na důkaz kruhem (expert mi určil dva druhy [hlavně na základě délky prašníků, ale to já nevím] a já pak dokážu, že dva dané druhy existují, a perfektně se odlišují délkou prašníku).

Jiná úspěšná aplikace ve Škodovce (MB, už dávno)

• V rámci povinných prohlídek sledovali zaměstnance, a měli data o tlaku, cholesterolu, zda kouří, váhu, výšku etc.

• a zda do 10-ti let od prohlídky dostal či nedostal infarkt.

• Získali kombinaci znaků, která predikuje - chlapče, dej si pozor, spěješ k infarktu.

Podobnou věc udělají i klasifikační stromy

• Založeny na jiném principu (není zde aditivita efektů)

Co užitečného jsme neprobrali v celé Biostatistice (neúplný výběr)• Power analysis (jakou mám šanci zamítnout

H0)• Složitější modely ANOVA (a obecně GLM)• Zobecněné lineární modely• Prakticky nic z metod mnohorozměrných• Bayesovskou statistiku

Kde se můžu o statistických metodách dozvědět více

• Moderní regresní metody (Šmilauer)• Vizualizace dat (Šmilauer)• Plánování a hodnocení ekologických

experimentů (Lepš & Šmilauer)• Praktikum mnohorozměrných metod (Lepš

& Šmilauer)