+ All Categories
Home > Documents > Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1...

Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1...

Date post: 15-Jan-2020
Category:
Upload: others
View: 9 times
Download: 0 times
Share this document with a friend
76
Fylogenetika
Transcript
Page 1: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

Fylogenetika

Page 2: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

“klastrovat” na základě podobnosti lze cokoliv, vůbec nemusí jít o evoluční záležitosti (= lidstvo potřebuje

popisovat a škatulkovat), je to obecný matematický základ pro analýzy dat, data mining, atd. => pro

studium evoluce pak vznikl obor fylogenetiky

cluster

cluster

cluster

clustershierarchické klastrování:

=> strom je jedním z grafických

znázornění hierarchického klastrování:

Clustering: group the data based on the similarities. = příklad z nebiologické praxe– rozdělení zákazníků na skupiny dle parametrů nakupování => cílená reklama

Page 3: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

idea fylogenetického stromu (tj. evolučního), stromu života:

Darwin, 1859:

(mmch. jediný obrázek v jeho knize o původu druhů)

Heckel, 1879: Tree of Life

Page 4: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

fylogenetický strom = záznam evoluce zkoumaných taxonů:

kořen = společný předek všech

kořen = společný předek všech

fylogeneze (to štěpení) vs. fylogenetika (přístup, který to zkoumá)

Page 5: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

Typy fylogenetických stromů:

kladogram

(bez časové informace)

speciace

ultrametrický strom

(končí ve stejném čase = molek. hodiny)

strom

(s délkami větví)

sdělení těchto stromů je identické

Page 6: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus
Page 7: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

programy pro práci s fylogenetickými stromy (formáty newick, nexus):

FigTree TreeView

závorková konvence:

= (((A,B),(C,D)),E)

přidaná informace – délka větví, nebo

třeba podpora uzlů (dozvíme se dále)

= (((A:1,B:1):1,(C:1,D:1):1):1.2,E:3.2)= A,B , C,D ,E

toto jsou v zásadě grafické clustery...

Page 8: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

náhled skutečného stromu:

Page 9: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

rozřešený strom – založen na dichotomickém větvení:

polytomie

reálný strom:

=> v uzlu, kde je polytomie nemáme dostatek

informace abychom byli schopni vyřešit vztahy mezi

potomky uzlu; jen velmi vyjímečně může jít o

biologický jev (vyvinulo se více druhů najednou z 1

předka = např. adaptivní radiací)

Page 10: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

znaky – např. morfologie, anatomie, fyziologie, atd. – může to být cokoliv

apomorfie

(nově odvozený znak, nese

informaci o příbuznosti),

funkčně jde o homologii

naopak: např. mnohobuněčnost by byla tzv.

pleziomorfie, tedy zděděným znakem od předků,

který v tomto kontextu nemá žádnou informaci pro

rekonstrukci evolucem jelikož ho nesou všichni

Page 11: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

znaky – např. morfologie, anatomie, fyziologie, atd. – může to být cokoliv

!!polarizace znaků – co je ancestrální víme až poté co známe fylogenezi, založenou i na jiných znacích...

netopýr

0010011 1 1 1 1 1

netopýr

křídlapřítomnost znaků “bránice” a ”srst” nám pomůže odhalit to,

že křídla nevznikla jednou, ale dvakrát (a tedy že nejsou

homologní, ale je to tzv. homoplázie)

Page 12: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

volba znaků je důležitá!

!!polarizace znaků – co je ancestrální víme až poté co známe fylogenezi, založenou i na jiných znacích...

netopýr

0010011 1 1 1 1 1

netopýr

křídla

vynecháme

v tomto případě námi zvolená sada poskytuje špatnou

fylogenetickou informaci, protože je založena na

neodhalené homoplázii => a toto riziko je v našich datech

vždy

Page 13: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

volba znaků je důležitá!

!!polarizace znaků – co je ancestrální víme až poté co známe fylogenezi, založenou i na jiných znacích...

netopýr

0010011 1 1 1 1 1

toto je tzv. matice znaků

Page 14: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

tvorba matice pro následné analýzy = srovnání sekvencí pod sebe...

při alignmentu: program hledá nejlepší rozmístění, dostává body: za každou shodnou bázi plusové body, za každou mezeru mínus body, za otevření mezery speciální mínus body...

=> cílem je získat co nejvíce bodů!

znaky molekulární = sekvence DNA – alignment = seřazení do matice

Page 15: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

1) distanční metody

2) maximální úspornost = parsimonie

3) maximální věrohodnost = likelihood

4) Bayesovské metody výpočtu

metody výpočtu fylogenetických stromů:

Page 16: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

z DNA či morfologie:

Distanční metody: UPGMA (Sokal & Michener 1958), Neighbor-Joining (Saitou and Nei, 1987)

čistě hierarchické clusterování

již částečné zanesení evoluční info o potenciálně

odlišné rychlosti změn v různých větvích

příklad

Page 17: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

distanční metody výpočtu stromů:

- výpočet vzdáleností každé sekvence od každé – vznikne matice vzdáleností:

nejmenší vzdálenost = spojení

Page 18: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

distanční metody výpočtu stromů:

Page 19: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

=> matice se pak znovu přepočítá, králík+člověk se teď berou

jako jeden taxon s průměrnou hodnotou

distanční metody výpočtu stromů:

Page 20: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

-nyní se vezmou druhy s nejmenší vzdáleností a spojí se, mají společnou vzdálenost a pokračuje se, dokud nejsou všechny druhy ve stromu...

nezakořeněný strom:

distanční metody výpočtu stromů:

Page 21: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

zakořeněné a nezakořeněné fylogenetické stromy:

pro zakořenění je nutné přidat druh, který nepatří do

skupiny,

tzv. outgroup, tj. zde např. druh, který není obratlovec...

Page 22: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

zakořeněné a nezakořeněné fylogenetické stromy:

Page 23: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

zakořeněné stromy:

předek

zakořeněné a nezakořeněné fylogenetické stromy:

současnostpředek současnost

Page 24: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

co se stane, když zvolíme špatný outgroup?

Page 25: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

co se stane, když zvolíme špatný outgroup?

Page 26: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

všechno je totéž...

rotace uzlů je volná a nemění smysl!

Page 27: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

Metoda maximální parsimonie = maximální úspornosti

- máme 3 zvířata: vlaštovka, netopýr a kočka

- bez jakékoliv matice: existují 3 možné způsoby, jak si mohou být příbuzní:

- maximální parsimonie = nejmenší počet změn znaků

Page 28: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

zdroj: Jan Zrzavý - evoluce

- maximální parsimonie = nejmenší počet změn znaků:

Page 29: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

vítězí scénář č. 1

5 změn 7 změn 8 změn

Metoda maximální parsimonie = maximální úspornosti

Page 30: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

2) parsimonie

evoluční čas

jak distanční metoda, tak metoda

maximální parsimonie zde dávají

shodný strom

Page 31: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

ACCTRAN/DELTRAN optimalizace – pro situace, kdy je počet záměn stejný, ale jsou různé varianty

ACCTRAN = preference změny co nejdříve

DELTRAN = změna co nejpozději

změna co nejdříve

zpětná změna

Page 32: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

problém: všechny stromy jdou udělat do max. 11 druhů...

(2n – 3)!

2n-2(n-2)!

3 taxony: (6-3)!/2(1)! = 6/2 = 3 stromy

6 taxonů: (12-3)!/24(4)! = 945 stromů

9 taxonů: (18-3)!/27(7)! = 2‘027‘025 stromů

12 taxonů: (24-3)!/210(10)! = 13‘749‘310‘575 stromů

exponenciální nárůst počtu potenciálních stromů

heuristický přístup – když nelze prohledat všechno:

=> maximální počet, kdy je reálné

prohledávat všechny kombinace je 11

taxonů

Page 33: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

není tedy možné prohlédnout všechny stromy, spočítat pro ně

počty evolučních změn a vybrat ten nejlepší

heuristické hledání stromů

tj. - vytvoří se náhodný strom,

- spočítají se evoluční změny,

- náhodně se v něm přehodí dvě větve,

- spočítají se evoluční změny

- dál postupuje jen ten, který měl méně změn!!! atd. atd.

- na konci řady je strom s nejméně změnami

výběr náhodného stromu se opakuje několikrát, porovnání výsledných stromů

- může být i několik nejlepších stromů

- heuristický postup se uplatňuje u všech dalších metod, tj. nejen parsimonie, ale i max.

likelihood a Bayesovském přístupu

heuristický přístup – když nelze prohledat všechno:

Page 34: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

1) distanční metody - na základě distancí, výsledkem 1 strom

2) maximální úspornost = parsimonie – více možných stromů, bereme konsensus

3) maximální věrohodnost = likelihood – výsledkem 1 strom

4) Bayesovské metody výpočtu – výsledkem 1 strom vč. statistické podpory

tyto dvě metody jsou statisticky nejodvozenější, používají obecný

statistický aparát nevyvinutý přímo pro fylogenetiku

- existují myšlenkové školy, které uznávají jen první dvě metody, které mají dle nich jasné evoluční

zadání: buď používám znaky a chci dosáhnout nejmenšího počtu změn, nebo dělám vzdálenosti

(např. Willi Hennig Society, časopis Cladistics; jde rozhodně o menšinový názor, vadí jim i toto:

- metoda 3 a 4 jsou momentálně nejodvozenější a nejčastěji využívané

metody výpočtu fylogenetických stromů:

Page 35: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

metoda Maximum Likelihood = maximální věrohodnosti

= pravděpodobnost pozorování našich dat za předpokladu, že platí náš model, P(D|M)

model = strom + parametry (více na dalším slidu)

příklad s házením mincí: hodím 10x mincí. Jaká je pravděpodobnost

(likelihood, L), že mi padne 5 x hlava a 5 x orel?

L = L(1) x L(2) ..... x L(N) = ∏ L(j)j=1

N

znak1 = třeba nukleotidová pozice 1

výsledný likelihood je součtem všech znaků

L=(n!/(k!(n-k)!)) × pk × (1-p)n-k = 0.2461

n = počet hodů

k = počet hlav

p = pravděpodobnost pádu hlavy vs. orla (0.5)

pokud by byla mince nesouměrná a

měnila by se pravděpodobnost (p)

padnutí hlavy, pak se zmenšuje i

likelihood padnutí 5 hlav + 5 orlů

paralela k fylogenezi: máme model (strom + parametry evoluce) a zkoumáme jaká je

pravděpodobnost, že na ně budou sedět naše data testujeme postupně stromy (analýza tedy

vezme 1 strom, spočítá L, pak vezme další, a pokud ten je lepší tak pokračuje s ním, pokud ne

tak s původním) – počet kroků = počet generací => vyhledáme tímto nejlepší strom

Page 36: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

evoluční model pro ML (ale i Bayesovskou analýzu):

v modelu (paralela „cinknutosti“ mince) jsou matematicky zainkorporovány:

1) pravděpodobnosti jednotlivých záměn (A->T, A->C, A->G, T->C, T->G, C->G),

maximálně může být až šest různých pravděpodobností;

(= šest různých substitučních typů)

2) poměry jednotlivých bází

3) poměr nevariabilních míst vůči variabilním

4) pravděpodobnost záměny jednotlivých pozic (např. morfologie – stejná pro

všechny znaky; DNA – různá, např. dle pozic v kodónu atd.)

5) korekce distance (vychází i z bodu 3).

to vše je vlastně popis evoluce DNA

Page 37: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

purin

purin

pyrimidin

pyrimidin

transice je v datech mnohem častější než transverze, protože molekula je stabilnější a protože nevede tak

často ke změně aminokyseliny, tedy zůstává v datech zachována

Page 38: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

p-distance vs. g-distance – pokus o optimální

korekci; saturace

AATGCCGTATCGCGTTAATTTGAGCGCTTTCGAT

AATGCCATATCGCGTTAAGTTGAGCCCTATCGAT

AAAGCCATATCGCATTAAGTTGAGCGCTATCGAT

tato mutace nebude detekována, protože

je zpětná, tedy změnila se na původní stav

=> saturované sekvence již nesou hodně šumu, saturované pozice pak málo fylogenetické informace. Nejčastěji

jsou satuorvány 3. pozice kodónů. Model se snaží korigovat tento jev tím, že předpoví míru saturace

Page 39: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

Bayesovská fylogenetika – Bayesův teorém (Bayesova věta):

Thomas Bayes (18. století) vymyslel statistickou

metodu a tzv. Bayesův teorém

pro nás uživatele je to mírně modifikovaná forma likelihoodu

velmi zjednodušeně:

Maximum Likelihood = pravděpodobnost dat ze stromu (modelu)

BT = pravděpodobnost stromu/uzlu při datech = > využívá k výpočtu tzv.

inverzní pravděpodobnost

(také hledá nejlepší strom)

P(A|B) = P(B|A)P(A)

P(B) = pravděpodobnost jevu A za předpokladu, že platí B

P(strom|data) = P(data|strom) × P(strom)

P(data)

P(uzel|data) = P(data|uzel) × P(uzel)

P(data)

Page 40: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

Bayesovská fylogenetika – Bayesův teorém (Bayesova věta):

odbočka = příklad pro vysvětlení Bayesovy věty:

Mám 2 pytlíky s kuličkami. Pytlík 1 (“bílý”) obsahuje 3x více bílých, pytlík 2 (“černý”) - 3x více černých kuliček. Vyberu

náhodně 1 pytlík. Vytáhnu 5 kuliček (vždy po vytažení každou vrátím). Výsledkem je 4 bílé a 1 černá kulička. Jaká je

pravděpodobnost, že mnou vybraný pytlík byl “bílý” Pytlík (1)?

data: 4x bílá, 1x černá

otázka: s jakou pravděpodobností to byl bílý pytlík?: výběr pytlíku

byl náhodný, tj. pravděpodobnost na počátku = 1/2

P(BílýPytlík|data) = P(data|BílýPytlík) × P(BílýPytlík)

P(data)

a priori = 1/2

celkový součet všech možností, tj. Pstí pro data jak z bíléhotak z černého pytlíku

P(BílýPytlík|data) = P(data|BílýPytlík) × P(BílýPytlík)

P(data|BílýPytlík) × P(BílýPytlík) + P(data|ČernýPytlík) × P(ČernýPytlík)

Pst pro data z bílého pytlíku

P(BílýPytlík|data) = P(data|BílýPytlík) × 1/2

P(data|BílýPytlík) × 1/2 + P(data|ČernýPytlík) × 1/2

P(data|BílýPytlík) = 5 × 3/44 × 1/41 = 405/1024 = pst, že nastane pozorovaná sestava (4B+1Č) při tahu z tohoto pytlíku

P(data|ČernýPytlík) = 5 × 1/44 × 3/41 = 12/1024 = pst, že nastane pozorovaná sestava (4B+1Č) při tahu z tohoto pytlíku

P(BílýPytlík|data) = 405/1024 × 1/2

405/1024 × 1/2 + 12/1024 × 1/2= 0.964

bílá kuličkačerná kulička

(to je odpověď)

Page 41: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

Bayesovská fylogenetika – Bayesův teorém (Bayesova věta):

odbočka = příklad pro vysvětlení Bayesovy věty:

Mám 2 pytlíky s kuličkami. Pytlík 1 (“bílý”) obsahuje 3x více bílých, pytlík 2 (“černý”) - 3x více černých kuliček. Vyberu

náhodně 1 pytlík. Vytáhnu 5 kuliček (vždy po vytažení každou vrátím). Výsledkem je 4 bílé a 1 černá kulička. Jaká je

pravděpodobnost, že mnou vybraný pytlík byl “bílý” Pytlík (1)?

data: 4x bílá, 1x černá

otázka: s jakou pravděpodobností to byl bílý pytlík?: výběr pytlíku

byl náhodný, tj. pravděpodobnost na počátku = 1/2

P(BílýPytlík|data) = P(data|BílýPytlík) × P(BílýPytlík)

P(data)

a priori = 1/2

celkový součet všech možností, tj. Pstí pro data jak z bíléhotak z černého pytlíku

P(BílýPytlík|data) = P(data|BílýPytlík) × P(BílýPytlík)

P(data|BílýPytlík) × P(BílýPytlík) + P(data|ČernýPytlík) × P(ČernýPytlík)

Pst pro data z bílého pytlíku

P(BílýPytlík|data) = P(data|BílýPytlík) × 1/2

P(data|BílýPytlík) × 1/2 + P(data|ČernýPytlík) × 1/2

P(data|BílýPytlík) = 5 × 3/44 × 1/41 = 405/1024 = pst, že nastane pozorovaná sestava (4B+1Č) při tahu z tohoto pytlíku

P(data|ČernýPytlík) = 5 × 1/44 × 3/41 = 12/1024 = pst, že nastane pozorovaná sestava (4B+1Č) při tahu z tohoto pytlíku

P(BílýPytlík|data) = 405/1024 × 1/2

405/1024 × 1/2 + 12/1024 × 1/2 = 0.964

bílá kuličkačerná kulička

(odpověď)

celé je to krásná paralela pro naše hledání optimálního stromu: teď si představte, že

pytlíky jsou různé alternativní topologie uzlů (tedy např. různé kombinace druhů v uzlu).

Máme tedy naše data (třeba sekvence DNA, nebo sadu morfologických znaků) a ptáme

se: jaká je pravděpodobnost, že platí jeden z uzlů na základě našich dat? Analýza jede

pro každý uzel ve stromu a pravděpodobnosti = likelihoody se pak sčítají... (jen je to o

něco složitější – i zde vstupují další parametry evolučního modelu, jako u ML metody)

Page 42: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

heuristické hledání v Bayesovské analýze:

hledání provádějí tzv. Markovovy řetězce (Markov-chain Monte Carlo)

krok 1: máme 4 řetězce, které se vydaly hledat do krajiny nejlepší strom...

hledání je opět heuristické, tedy zkusím strom, spočítám jeho L, zkusím další,

posunu se pouze, je-li nový strom lepší...

větší likelihood

= adaptivní krajina, tedy vizualizace optimálních stromů – čím výše, tím vhodněji strom odpovídá datům,

algoritmus analýzy krajinu postupně prohledává (a samozřejmě neví, co je kde za “kopce” a “údolí”)

Page 43: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

1 řetězec je studený – tzn. konzervativní, posune se pouze nahoru – tedy pokud je

další strom lepší

3 řetězce jsou teplé – tzn. mohou se vrátit i dolů + skáčou náhodně na jiná místa

teplé řetězce volají studeného, pokud najdou lepší strom = vyšší vrcholek, než na

které se usídlil studený

větší likelihood

větší likelihood

Page 44: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

větší likelihood

héééj

heuristické hledání v Bayesovské analýze:

Page 45: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

při dostatečném počtu generací (tj. hledacích kroků) najde studený řetězec

nejvyšší vrchol v krajině, tj. strom s nejlepším Likelihoodem.

heuristické hledání v Bayesovské analýze:

!!problém uvíznutí v lokálním maximu je rizikem všech typů analýz, které využívají heuristický

přístup (tedy nemají možnost projít všechny potenciální stromy).

Page 46: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

dostatečný počet generací + několik nezávislých běhů je důležitý – po čase je vrchol nalezen a čím je vyšší

než ostatní, tím lépe bude náš výsledek podpořen => tedy Baysovská analýza probíhá vždy na dostatečném

počtu generací, které časem konvergují ke shodnému nálezu ; počáteční fázi potom z výsledků vyhazujeme:

2 milióny generací

like

liho

od

Page 47: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

statistické podpory – míra důvěryhodnosti topologie; bootstrapování a BPP

statistická podpora existence uzlu

Page 48: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

statistické podpory – BPP = Bayesian Posterior Probability

2 milióny generací

like

liho

od

Bayesovská analýza – zpracuje všechny stromy v plateau fázi = kolik % stromů obsahuje daný uzel

Page 49: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

jaká je statistická podpora

jednotlivých uzlů?

statistická podpora – bootstrapování

využívá se pro metody Maximální parsimonie a Max. Likelihood

Page 50: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

představte si situaci, kdy je některý uzel podpořen téměř všemi znaky, a jiný jen některými, které

zrovna převáží...

statistická podpora – bootstrapování

Page 51: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus
Page 52: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus
Page 53: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

• bootstrap1.jpg

1 2

3

Page 54: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

Bootstrap - pseudomatice:

Page 55: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

Bootstrap – výsledný strom:

v kolika % z 1000 stromů z pseudomatic se uzel vyskytl ?

morfologie i DNA – některé znaky se opakují a jiné se do pseudomatice nedostanou, během 1000

opakování by mělo padnout dostatečné množství kombinací

pokud je topologie (=uzel) založena jen na málo znacích, bude podpora bootstrapu malá

(pravděpodobnost, že se vylosují tyto znaky do pseudomatice je menší než když je topologie založena na

mnoha znacích napříč datasetem).

Page 56: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

potenciální problémy: přitahování dlouhých větví - long-branch attraction:

Page 57: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

evoluční historie není vždy přímočará...

Page 58: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

- máme-li více genů, pak můžeme buď všechny sekvence jednoduše spojit za sebe (=konkatenovat)

nebo počítat strom pro každý gen zvlášť

- počítat zvlášť je správnější – poté se udělá konsensus z jednotlivých genů

molekulární fylogeneze založená na sekvenci DNA různých genů:

gene trees vs. species tree:

Page 59: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

topologie se může měnit podél chromozomů

fylogenomika = fylogenetika na celých genomech!

Martin, S. H., & Van Belleghem, S. M. (2017). Exploring evolutionary relationships across the genome using topology weighting. Genetics, 206(1), 429-438.

Neurospora – detekce introgrese a nerekombinujícího úseku v genomu

Page 60: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

topologie se může měnit podél chromozomů

fylogenomika = fylogenetika na celých genomech!

Martin, S. H., & Van Belleghem, S. M. (2017). Exploring evolutionary relationships across the genome using topology weighting. Genetics, 206(1), 429-438.

Page 61: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

Johansson, Frank, et al. "Phylogeography and larval spine length of the dragonfly

Leucorhinia dubia in Europe." PloS one12.9 (2017): e0184596.

alternativní topologie podpořené různými částmi genomu:

Page 62: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

hybridizace – vede k introgresi a k smíšenému signálu z genomu:celá teorie za fylogenetikou předpokládá, že druhy vznikají bifurkací a pak se nekříží, pak už tedy záleží, co

chceme ukázat (tedy - ukázat 1 strom by byl problém)

Martin, Simon H., et al. "Genome-wide evidence for speciation with gene flow in Heliconius butterflies." Genome Research23.11 (2013): 1817-1828.

hybridizace

=> křížení způsobí, že se genomový signál namíchá,

polovina genomu podporuje jinou topologii

Page 63: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

co hybridní druhy? nebo dokonce celé množství druhů, které vznikly díky hybridizaci??

- revoluční metody v sekvenaci DNA (next-generation sequencing) nám umožnily studovat celé genomy rutinně, tedy

teď začínají vycházet najevo zákonitosti, které jsme neznali...

celá druhová diverzita cichlid z jezera

Viktoria vznikla pravděpodobně díky

počáteční hybridizaci 2 vzdáleně

příbuzných linií, z Konga a z Nilu

genomy různých druhů jsou různé mozaiky

Meier, Joana I., et al. "Ancient hybridization fuels rapid cichlid fish adaptive

radiations." Nature Communications 8 (2017).

Page 64: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

co hybridní druhy? nebo dokonce celé množství druhů, které vznikly díky hybridizaci??

- revoluční metody v sekvenaci DNA (next-generation sequencing) nám umožnily studovat celé genomy rutinně, tedy

teď začínají vycházet najevo zákonitosti, které jsme neznali...

celá druhová diverzita cichlid z jezera

Viktoria vznikla pravděpodobně díky

počáteční hybridizaci 2 vzdáleně

příbuzných linií, z Konga a z Nilu

genomy různých druhů jsou různé mozaiky

Meier, Joana I., et al. "Ancient hybridization fuels rapid cichlid fish adaptive

radiations." Nature Communications 8 (2017).

bude asi nutné akceptovat, že pro tyto ryby (a všechny ostatní, u kterých se

ukáže něco podobného) nebudeme nikdy mít jeden klasický fylogenetický

strom, ale fylogenetický přístup se stále bude používat – např. při

zkoumání jednotlivých genů a jejich funkcí (a důvodu proč byla

vyselektována zrovna tato varianta...), atd.

Page 65: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

schéma fylogeneze citrusů (přírodních forem) a jejich kříženců (vyšlechtěných)

Page 66: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

fylogenetické sítě = phylogenetic networks

zobrazují vztahy ne jako strom (tedy rozdvojováním a společným uzlem vždy pro 2 taxony),

ale jako síť, kde jeden uzel může mít více výstupů, a zároveň každý taxon může být zapojen

ve více uzlech

jsou tam mezistavy, tedy nepozorované, ale předpověděné uzly

Page 67: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

nepozorovaný, ale předpovězený haplotyp

síťové propojení

fylogeografický vzor u sekavce C. strumicae z Balkánu

haplotypová síť:

- každá spojnice spojuje haplotypy lišící se jedinou mutací

- velikost kruhu = počet jedinců

Page 68: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

Gandini, Francesca, et al. "Mapping human dispersals into the Horn of Africa from

Arabian Ice Age refugia using mitogenomes." Scientific reports 6 (2016): 25472.

haplotypová síť – lidská mtDNA:

Page 69: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

fylogenetické sítě = phylogenetic networks

Gouzelou, Evi, et al. "Genetic diversity and structure in Leishmania infantum populations from

southeastern Europe revealed by microsatellite analysis." Parasites & vectors 6.1 (2013): 342.

Page 70: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

Stomatepia mariae

Stomatepia pindu

Stomatepia mongo

Pungu maclareni

Konia dikume

Konia eisentrauti

Sarotherodon steinbachi

Sarotherodon lohbergeri

Sarotherodon linnellii

Sarotherodon caroli

Myaka myaka

RAD-seq (9280 SNPs)SplitsTree4: NeighbourNet

cichlidy z kráterového jezera Barombi Mbo v Kamerunu:

situace na počátku evoluce této

skupiny nejasná, šlo pravděpodobně o

rychlou adaptivní radiaci

speciace se vznikem tří

druhů nebo 2 speciace

velmi rychle po sobě,

nedetekovatelné daty

pravděpodobně stále

probíhající genový tok

nebo velmi mladá

speciace

Page 71: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

potenciální zdroj chybného či zavádějícího signálu – genová duplikace (o které nevíme)

je tedy kritické nespojovat alfu a betu dohromady, což ale často nevíme! = je nutné dávat pozor když

vyrábíme dataset a hledáme v něm homologie

Page 72: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

některé geny mají velké množství kopií:

hemoglobinový cluster tilápie: 7x hemoglobin beta a 12x hemoglobin alfa

= těžké určit co je s čím homologní napříč druhy...

Page 73: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

genová konverze

jev probíhající většinou na genových duplikátech v rámci jedince! – jde o jakýsi “horizontální

přenos”, takže genetická informace např. mezi velmi starými kopiemi genů (např. vzniklých u

předka všech obratlovců) se promíchá...

chyba v rekombinaci

Page 74: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

molekulární hodiny, fosílie a ultrametrické stromy

běžný strom používá délku větví k znázornění

rychlosti evoluce (např. mutací)

skutečný evoluční čas

fosilní taxony jejchž stáří známe použijeme

pro kalibraci, příp. přímo zařadíme do maticeideální je fosílie co nejblíže kořenu stromu, jinak jsou odhady s velkými

konfidenčními intervaly

Page 75: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

fosílie

díky molekulárním hodinám jsme pak

schopni interpretovat například vznik

nějakého znaku, atd. zde například určitý vzor

v retrotransposonech

Page 76: Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1 strom 2) maximální úspornost = parsimonie –více možných stromů, bereme konsensus

jiný typ molekulárních hodin:

virová evoluce, koncové větve nekončí stejně

chřipkový virus a rezistence na něj


Recommended