Fylogenetika - web.natur.cuni.cz · 1) distanční metody - na základě distancí, výsledkem 1...

Post on 15-Jan-2020

9 views 0 download

transcript

Fylogenetika

“klastrovat” na základě podobnosti lze cokoliv, vůbec nemusí jít o evoluční záležitosti (= lidstvo potřebuje

popisovat a škatulkovat), je to obecný matematický základ pro analýzy dat, data mining, atd. => pro

studium evoluce pak vznikl obor fylogenetiky

cluster

cluster

cluster

clustershierarchické klastrování:

=> strom je jedním z grafických

znázornění hierarchického klastrování:

Clustering: group the data based on the similarities. = příklad z nebiologické praxe– rozdělení zákazníků na skupiny dle parametrů nakupování => cílená reklama

idea fylogenetického stromu (tj. evolučního), stromu života:

Darwin, 1859:

(mmch. jediný obrázek v jeho knize o původu druhů)

Heckel, 1879: Tree of Life

fylogenetický strom = záznam evoluce zkoumaných taxonů:

kořen = společný předek všech

kořen = společný předek všech

fylogeneze (to štěpení) vs. fylogenetika (přístup, který to zkoumá)

Typy fylogenetických stromů:

kladogram

(bez časové informace)

speciace

ultrametrický strom

(končí ve stejném čase = molek. hodiny)

strom

(s délkami větví)

sdělení těchto stromů je identické

programy pro práci s fylogenetickými stromy (formáty newick, nexus):

FigTree TreeView

závorková konvence:

= (((A,B),(C,D)),E)

přidaná informace – délka větví, nebo

třeba podpora uzlů (dozvíme se dále)

= (((A:1,B:1):1,(C:1,D:1):1):1.2,E:3.2)= A,B , C,D ,E

toto jsou v zásadě grafické clustery...

náhled skutečného stromu:

rozřešený strom – založen na dichotomickém větvení:

polytomie

reálný strom:

=> v uzlu, kde je polytomie nemáme dostatek

informace abychom byli schopni vyřešit vztahy mezi

potomky uzlu; jen velmi vyjímečně může jít o

biologický jev (vyvinulo se více druhů najednou z 1

předka = např. adaptivní radiací)

znaky – např. morfologie, anatomie, fyziologie, atd. – může to být cokoliv

apomorfie

(nově odvozený znak, nese

informaci o příbuznosti),

funkčně jde o homologii

naopak: např. mnohobuněčnost by byla tzv.

pleziomorfie, tedy zděděným znakem od předků,

který v tomto kontextu nemá žádnou informaci pro

rekonstrukci evolucem jelikož ho nesou všichni

znaky – např. morfologie, anatomie, fyziologie, atd. – může to být cokoliv

!!polarizace znaků – co je ancestrální víme až poté co známe fylogenezi, založenou i na jiných znacích...

netopýr

0010011 1 1 1 1 1

netopýr

křídlapřítomnost znaků “bránice” a ”srst” nám pomůže odhalit to,

že křídla nevznikla jednou, ale dvakrát (a tedy že nejsou

homologní, ale je to tzv. homoplázie)

volba znaků je důležitá!

!!polarizace znaků – co je ancestrální víme až poté co známe fylogenezi, založenou i na jiných znacích...

netopýr

0010011 1 1 1 1 1

netopýr

křídla

vynecháme

v tomto případě námi zvolená sada poskytuje špatnou

fylogenetickou informaci, protože je založena na

neodhalené homoplázii => a toto riziko je v našich datech

vždy

volba znaků je důležitá!

!!polarizace znaků – co je ancestrální víme až poté co známe fylogenezi, založenou i na jiných znacích...

netopýr

0010011 1 1 1 1 1

toto je tzv. matice znaků

tvorba matice pro následné analýzy = srovnání sekvencí pod sebe...

při alignmentu: program hledá nejlepší rozmístění, dostává body: za každou shodnou bázi plusové body, za každou mezeru mínus body, za otevření mezery speciální mínus body...

=> cílem je získat co nejvíce bodů!

znaky molekulární = sekvence DNA – alignment = seřazení do matice

1) distanční metody

2) maximální úspornost = parsimonie

3) maximální věrohodnost = likelihood

4) Bayesovské metody výpočtu

metody výpočtu fylogenetických stromů:

z DNA či morfologie:

Distanční metody: UPGMA (Sokal & Michener 1958), Neighbor-Joining (Saitou and Nei, 1987)

čistě hierarchické clusterování

již částečné zanesení evoluční info o potenciálně

odlišné rychlosti změn v různých větvích

příklad

distanční metody výpočtu stromů:

- výpočet vzdáleností každé sekvence od každé – vznikne matice vzdáleností:

nejmenší vzdálenost = spojení

distanční metody výpočtu stromů:

=> matice se pak znovu přepočítá, králík+člověk se teď berou

jako jeden taxon s průměrnou hodnotou

distanční metody výpočtu stromů:

-nyní se vezmou druhy s nejmenší vzdáleností a spojí se, mají společnou vzdálenost a pokračuje se, dokud nejsou všechny druhy ve stromu...

nezakořeněný strom:

distanční metody výpočtu stromů:

zakořeněné a nezakořeněné fylogenetické stromy:

pro zakořenění je nutné přidat druh, který nepatří do

skupiny,

tzv. outgroup, tj. zde např. druh, který není obratlovec...

zakořeněné a nezakořeněné fylogenetické stromy:

zakořeněné stromy:

předek

zakořeněné a nezakořeněné fylogenetické stromy:

současnostpředek současnost

co se stane, když zvolíme špatný outgroup?

co se stane, když zvolíme špatný outgroup?

všechno je totéž...

rotace uzlů je volná a nemění smysl!

Metoda maximální parsimonie = maximální úspornosti

- máme 3 zvířata: vlaštovka, netopýr a kočka

- bez jakékoliv matice: existují 3 možné způsoby, jak si mohou být příbuzní:

- maximální parsimonie = nejmenší počet změn znaků

zdroj: Jan Zrzavý - evoluce

- maximální parsimonie = nejmenší počet změn znaků:

vítězí scénář č. 1

5 změn 7 změn 8 změn

Metoda maximální parsimonie = maximální úspornosti

2) parsimonie

evoluční čas

jak distanční metoda, tak metoda

maximální parsimonie zde dávají

shodný strom

ACCTRAN/DELTRAN optimalizace – pro situace, kdy je počet záměn stejný, ale jsou různé varianty

ACCTRAN = preference změny co nejdříve

DELTRAN = změna co nejpozději

změna co nejdříve

zpětná změna

problém: všechny stromy jdou udělat do max. 11 druhů...

(2n – 3)!

2n-2(n-2)!

3 taxony: (6-3)!/2(1)! = 6/2 = 3 stromy

6 taxonů: (12-3)!/24(4)! = 945 stromů

9 taxonů: (18-3)!/27(7)! = 2‘027‘025 stromů

12 taxonů: (24-3)!/210(10)! = 13‘749‘310‘575 stromů

exponenciální nárůst počtu potenciálních stromů

heuristický přístup – když nelze prohledat všechno:

=> maximální počet, kdy je reálné

prohledávat všechny kombinace je 11

taxonů

není tedy možné prohlédnout všechny stromy, spočítat pro ně

počty evolučních změn a vybrat ten nejlepší

heuristické hledání stromů

tj. - vytvoří se náhodný strom,

- spočítají se evoluční změny,

- náhodně se v něm přehodí dvě větve,

- spočítají se evoluční změny

- dál postupuje jen ten, který měl méně změn!!! atd. atd.

- na konci řady je strom s nejméně změnami

výběr náhodného stromu se opakuje několikrát, porovnání výsledných stromů

- může být i několik nejlepších stromů

- heuristický postup se uplatňuje u všech dalších metod, tj. nejen parsimonie, ale i max.

likelihood a Bayesovském přístupu

heuristický přístup – když nelze prohledat všechno:

1) distanční metody - na základě distancí, výsledkem 1 strom

2) maximální úspornost = parsimonie – více možných stromů, bereme konsensus

3) maximální věrohodnost = likelihood – výsledkem 1 strom

4) Bayesovské metody výpočtu – výsledkem 1 strom vč. statistické podpory

tyto dvě metody jsou statisticky nejodvozenější, používají obecný

statistický aparát nevyvinutý přímo pro fylogenetiku

- existují myšlenkové školy, které uznávají jen první dvě metody, které mají dle nich jasné evoluční

zadání: buď používám znaky a chci dosáhnout nejmenšího počtu změn, nebo dělám vzdálenosti

(např. Willi Hennig Society, časopis Cladistics; jde rozhodně o menšinový názor, vadí jim i toto:

- metoda 3 a 4 jsou momentálně nejodvozenější a nejčastěji využívané

metody výpočtu fylogenetických stromů:

metoda Maximum Likelihood = maximální věrohodnosti

= pravděpodobnost pozorování našich dat za předpokladu, že platí náš model, P(D|M)

model = strom + parametry (více na dalším slidu)

příklad s házením mincí: hodím 10x mincí. Jaká je pravděpodobnost

(likelihood, L), že mi padne 5 x hlava a 5 x orel?

L = L(1) x L(2) ..... x L(N) = ∏ L(j)j=1

N

znak1 = třeba nukleotidová pozice 1

výsledný likelihood je součtem všech znaků

L=(n!/(k!(n-k)!)) × pk × (1-p)n-k = 0.2461

n = počet hodů

k = počet hlav

p = pravděpodobnost pádu hlavy vs. orla (0.5)

pokud by byla mince nesouměrná a

měnila by se pravděpodobnost (p)

padnutí hlavy, pak se zmenšuje i

likelihood padnutí 5 hlav + 5 orlů

paralela k fylogenezi: máme model (strom + parametry evoluce) a zkoumáme jaká je

pravděpodobnost, že na ně budou sedět naše data testujeme postupně stromy (analýza tedy

vezme 1 strom, spočítá L, pak vezme další, a pokud ten je lepší tak pokračuje s ním, pokud ne

tak s původním) – počet kroků = počet generací => vyhledáme tímto nejlepší strom

evoluční model pro ML (ale i Bayesovskou analýzu):

v modelu (paralela „cinknutosti“ mince) jsou matematicky zainkorporovány:

1) pravděpodobnosti jednotlivých záměn (A->T, A->C, A->G, T->C, T->G, C->G),

maximálně může být až šest různých pravděpodobností;

(= šest různých substitučních typů)

2) poměry jednotlivých bází

3) poměr nevariabilních míst vůči variabilním

4) pravděpodobnost záměny jednotlivých pozic (např. morfologie – stejná pro

všechny znaky; DNA – různá, např. dle pozic v kodónu atd.)

5) korekce distance (vychází i z bodu 3).

to vše je vlastně popis evoluce DNA

purin

purin

pyrimidin

pyrimidin

transice je v datech mnohem častější než transverze, protože molekula je stabilnější a protože nevede tak

často ke změně aminokyseliny, tedy zůstává v datech zachována

p-distance vs. g-distance – pokus o optimální

korekci; saturace

AATGCCGTATCGCGTTAATTTGAGCGCTTTCGAT

AATGCCATATCGCGTTAAGTTGAGCCCTATCGAT

AAAGCCATATCGCATTAAGTTGAGCGCTATCGAT

tato mutace nebude detekována, protože

je zpětná, tedy změnila se na původní stav

=> saturované sekvence již nesou hodně šumu, saturované pozice pak málo fylogenetické informace. Nejčastěji

jsou satuorvány 3. pozice kodónů. Model se snaží korigovat tento jev tím, že předpoví míru saturace

Bayesovská fylogenetika – Bayesův teorém (Bayesova věta):

Thomas Bayes (18. století) vymyslel statistickou

metodu a tzv. Bayesův teorém

pro nás uživatele je to mírně modifikovaná forma likelihoodu

velmi zjednodušeně:

Maximum Likelihood = pravděpodobnost dat ze stromu (modelu)

BT = pravděpodobnost stromu/uzlu při datech = > využívá k výpočtu tzv.

inverzní pravděpodobnost

(také hledá nejlepší strom)

P(A|B) = P(B|A)P(A)

P(B) = pravděpodobnost jevu A za předpokladu, že platí B

P(strom|data) = P(data|strom) × P(strom)

P(data)

P(uzel|data) = P(data|uzel) × P(uzel)

P(data)

Bayesovská fylogenetika – Bayesův teorém (Bayesova věta):

odbočka = příklad pro vysvětlení Bayesovy věty:

Mám 2 pytlíky s kuličkami. Pytlík 1 (“bílý”) obsahuje 3x více bílých, pytlík 2 (“černý”) - 3x více černých kuliček. Vyberu

náhodně 1 pytlík. Vytáhnu 5 kuliček (vždy po vytažení každou vrátím). Výsledkem je 4 bílé a 1 černá kulička. Jaká je

pravděpodobnost, že mnou vybraný pytlík byl “bílý” Pytlík (1)?

data: 4x bílá, 1x černá

otázka: s jakou pravděpodobností to byl bílý pytlík?: výběr pytlíku

byl náhodný, tj. pravděpodobnost na počátku = 1/2

P(BílýPytlík|data) = P(data|BílýPytlík) × P(BílýPytlík)

P(data)

a priori = 1/2

celkový součet všech možností, tj. Pstí pro data jak z bíléhotak z černého pytlíku

P(BílýPytlík|data) = P(data|BílýPytlík) × P(BílýPytlík)

P(data|BílýPytlík) × P(BílýPytlík) + P(data|ČernýPytlík) × P(ČernýPytlík)

Pst pro data z bílého pytlíku

P(BílýPytlík|data) = P(data|BílýPytlík) × 1/2

P(data|BílýPytlík) × 1/2 + P(data|ČernýPytlík) × 1/2

P(data|BílýPytlík) = 5 × 3/44 × 1/41 = 405/1024 = pst, že nastane pozorovaná sestava (4B+1Č) při tahu z tohoto pytlíku

P(data|ČernýPytlík) = 5 × 1/44 × 3/41 = 12/1024 = pst, že nastane pozorovaná sestava (4B+1Č) při tahu z tohoto pytlíku

P(BílýPytlík|data) = 405/1024 × 1/2

405/1024 × 1/2 + 12/1024 × 1/2= 0.964

bílá kuličkačerná kulička

(to je odpověď)

Bayesovská fylogenetika – Bayesův teorém (Bayesova věta):

odbočka = příklad pro vysvětlení Bayesovy věty:

Mám 2 pytlíky s kuličkami. Pytlík 1 (“bílý”) obsahuje 3x více bílých, pytlík 2 (“černý”) - 3x více černých kuliček. Vyberu

náhodně 1 pytlík. Vytáhnu 5 kuliček (vždy po vytažení každou vrátím). Výsledkem je 4 bílé a 1 černá kulička. Jaká je

pravděpodobnost, že mnou vybraný pytlík byl “bílý” Pytlík (1)?

data: 4x bílá, 1x černá

otázka: s jakou pravděpodobností to byl bílý pytlík?: výběr pytlíku

byl náhodný, tj. pravděpodobnost na počátku = 1/2

P(BílýPytlík|data) = P(data|BílýPytlík) × P(BílýPytlík)

P(data)

a priori = 1/2

celkový součet všech možností, tj. Pstí pro data jak z bíléhotak z černého pytlíku

P(BílýPytlík|data) = P(data|BílýPytlík) × P(BílýPytlík)

P(data|BílýPytlík) × P(BílýPytlík) + P(data|ČernýPytlík) × P(ČernýPytlík)

Pst pro data z bílého pytlíku

P(BílýPytlík|data) = P(data|BílýPytlík) × 1/2

P(data|BílýPytlík) × 1/2 + P(data|ČernýPytlík) × 1/2

P(data|BílýPytlík) = 5 × 3/44 × 1/41 = 405/1024 = pst, že nastane pozorovaná sestava (4B+1Č) při tahu z tohoto pytlíku

P(data|ČernýPytlík) = 5 × 1/44 × 3/41 = 12/1024 = pst, že nastane pozorovaná sestava (4B+1Č) při tahu z tohoto pytlíku

P(BílýPytlík|data) = 405/1024 × 1/2

405/1024 × 1/2 + 12/1024 × 1/2 = 0.964

bílá kuličkačerná kulička

(odpověď)

celé je to krásná paralela pro naše hledání optimálního stromu: teď si představte, že

pytlíky jsou různé alternativní topologie uzlů (tedy např. různé kombinace druhů v uzlu).

Máme tedy naše data (třeba sekvence DNA, nebo sadu morfologických znaků) a ptáme

se: jaká je pravděpodobnost, že platí jeden z uzlů na základě našich dat? Analýza jede

pro každý uzel ve stromu a pravděpodobnosti = likelihoody se pak sčítají... (jen je to o

něco složitější – i zde vstupují další parametry evolučního modelu, jako u ML metody)

heuristické hledání v Bayesovské analýze:

hledání provádějí tzv. Markovovy řetězce (Markov-chain Monte Carlo)

krok 1: máme 4 řetězce, které se vydaly hledat do krajiny nejlepší strom...

hledání je opět heuristické, tedy zkusím strom, spočítám jeho L, zkusím další,

posunu se pouze, je-li nový strom lepší...

větší likelihood

= adaptivní krajina, tedy vizualizace optimálních stromů – čím výše, tím vhodněji strom odpovídá datům,

algoritmus analýzy krajinu postupně prohledává (a samozřejmě neví, co je kde za “kopce” a “údolí”)

1 řetězec je studený – tzn. konzervativní, posune se pouze nahoru – tedy pokud je

další strom lepší

3 řetězce jsou teplé – tzn. mohou se vrátit i dolů + skáčou náhodně na jiná místa

teplé řetězce volají studeného, pokud najdou lepší strom = vyšší vrcholek, než na

které se usídlil studený

větší likelihood

větší likelihood

větší likelihood

héééj

heuristické hledání v Bayesovské analýze:

při dostatečném počtu generací (tj. hledacích kroků) najde studený řetězec

nejvyšší vrchol v krajině, tj. strom s nejlepším Likelihoodem.

heuristické hledání v Bayesovské analýze:

!!problém uvíznutí v lokálním maximu je rizikem všech typů analýz, které využívají heuristický

přístup (tedy nemají možnost projít všechny potenciální stromy).

dostatečný počet generací + několik nezávislých běhů je důležitý – po čase je vrchol nalezen a čím je vyšší

než ostatní, tím lépe bude náš výsledek podpořen => tedy Baysovská analýza probíhá vždy na dostatečném

počtu generací, které časem konvergují ke shodnému nálezu ; počáteční fázi potom z výsledků vyhazujeme:

2 milióny generací

like

liho

od

statistické podpory – míra důvěryhodnosti topologie; bootstrapování a BPP

statistická podpora existence uzlu

statistické podpory – BPP = Bayesian Posterior Probability

2 milióny generací

like

liho

od

Bayesovská analýza – zpracuje všechny stromy v plateau fázi = kolik % stromů obsahuje daný uzel

jaká je statistická podpora

jednotlivých uzlů?

statistická podpora – bootstrapování

využívá se pro metody Maximální parsimonie a Max. Likelihood

představte si situaci, kdy je některý uzel podpořen téměř všemi znaky, a jiný jen některými, které

zrovna převáží...

statistická podpora – bootstrapování

• bootstrap1.jpg

1 2

3

Bootstrap - pseudomatice:

Bootstrap – výsledný strom:

v kolika % z 1000 stromů z pseudomatic se uzel vyskytl ?

morfologie i DNA – některé znaky se opakují a jiné se do pseudomatice nedostanou, během 1000

opakování by mělo padnout dostatečné množství kombinací

pokud je topologie (=uzel) založena jen na málo znacích, bude podpora bootstrapu malá

(pravděpodobnost, že se vylosují tyto znaky do pseudomatice je menší než když je topologie založena na

mnoha znacích napříč datasetem).

potenciální problémy: přitahování dlouhých větví - long-branch attraction:

evoluční historie není vždy přímočará...

- máme-li více genů, pak můžeme buď všechny sekvence jednoduše spojit za sebe (=konkatenovat)

nebo počítat strom pro každý gen zvlášť

- počítat zvlášť je správnější – poté se udělá konsensus z jednotlivých genů

molekulární fylogeneze založená na sekvenci DNA různých genů:

gene trees vs. species tree:

topologie se může měnit podél chromozomů

fylogenomika = fylogenetika na celých genomech!

Martin, S. H., & Van Belleghem, S. M. (2017). Exploring evolutionary relationships across the genome using topology weighting. Genetics, 206(1), 429-438.

Neurospora – detekce introgrese a nerekombinujícího úseku v genomu

topologie se může měnit podél chromozomů

fylogenomika = fylogenetika na celých genomech!

Martin, S. H., & Van Belleghem, S. M. (2017). Exploring evolutionary relationships across the genome using topology weighting. Genetics, 206(1), 429-438.

Johansson, Frank, et al. "Phylogeography and larval spine length of the dragonfly

Leucorhinia dubia in Europe." PloS one12.9 (2017): e0184596.

alternativní topologie podpořené různými částmi genomu:

hybridizace – vede k introgresi a k smíšenému signálu z genomu:celá teorie za fylogenetikou předpokládá, že druhy vznikají bifurkací a pak se nekříží, pak už tedy záleží, co

chceme ukázat (tedy - ukázat 1 strom by byl problém)

Martin, Simon H., et al. "Genome-wide evidence for speciation with gene flow in Heliconius butterflies." Genome Research23.11 (2013): 1817-1828.

hybridizace

=> křížení způsobí, že se genomový signál namíchá,

polovina genomu podporuje jinou topologii

co hybridní druhy? nebo dokonce celé množství druhů, které vznikly díky hybridizaci??

- revoluční metody v sekvenaci DNA (next-generation sequencing) nám umožnily studovat celé genomy rutinně, tedy

teď začínají vycházet najevo zákonitosti, které jsme neznali...

celá druhová diverzita cichlid z jezera

Viktoria vznikla pravděpodobně díky

počáteční hybridizaci 2 vzdáleně

příbuzných linií, z Konga a z Nilu

genomy různých druhů jsou různé mozaiky

Meier, Joana I., et al. "Ancient hybridization fuels rapid cichlid fish adaptive

radiations." Nature Communications 8 (2017).

co hybridní druhy? nebo dokonce celé množství druhů, které vznikly díky hybridizaci??

- revoluční metody v sekvenaci DNA (next-generation sequencing) nám umožnily studovat celé genomy rutinně, tedy

teď začínají vycházet najevo zákonitosti, které jsme neznali...

celá druhová diverzita cichlid z jezera

Viktoria vznikla pravděpodobně díky

počáteční hybridizaci 2 vzdáleně

příbuzných linií, z Konga a z Nilu

genomy různých druhů jsou různé mozaiky

Meier, Joana I., et al. "Ancient hybridization fuels rapid cichlid fish adaptive

radiations." Nature Communications 8 (2017).

bude asi nutné akceptovat, že pro tyto ryby (a všechny ostatní, u kterých se

ukáže něco podobného) nebudeme nikdy mít jeden klasický fylogenetický

strom, ale fylogenetický přístup se stále bude používat – např. při

zkoumání jednotlivých genů a jejich funkcí (a důvodu proč byla

vyselektována zrovna tato varianta...), atd.

schéma fylogeneze citrusů (přírodních forem) a jejich kříženců (vyšlechtěných)

fylogenetické sítě = phylogenetic networks

zobrazují vztahy ne jako strom (tedy rozdvojováním a společným uzlem vždy pro 2 taxony),

ale jako síť, kde jeden uzel může mít více výstupů, a zároveň každý taxon může být zapojen

ve více uzlech

jsou tam mezistavy, tedy nepozorované, ale předpověděné uzly

nepozorovaný, ale předpovězený haplotyp

síťové propojení

fylogeografický vzor u sekavce C. strumicae z Balkánu

haplotypová síť:

- každá spojnice spojuje haplotypy lišící se jedinou mutací

- velikost kruhu = počet jedinců

Gandini, Francesca, et al. "Mapping human dispersals into the Horn of Africa from

Arabian Ice Age refugia using mitogenomes." Scientific reports 6 (2016): 25472.

haplotypová síť – lidská mtDNA:

fylogenetické sítě = phylogenetic networks

Gouzelou, Evi, et al. "Genetic diversity and structure in Leishmania infantum populations from

southeastern Europe revealed by microsatellite analysis." Parasites & vectors 6.1 (2013): 342.

Stomatepia mariae

Stomatepia pindu

Stomatepia mongo

Pungu maclareni

Konia dikume

Konia eisentrauti

Sarotherodon steinbachi

Sarotherodon lohbergeri

Sarotherodon linnellii

Sarotherodon caroli

Myaka myaka

RAD-seq (9280 SNPs)SplitsTree4: NeighbourNet

cichlidy z kráterového jezera Barombi Mbo v Kamerunu:

situace na počátku evoluce této

skupiny nejasná, šlo pravděpodobně o

rychlou adaptivní radiaci

speciace se vznikem tří

druhů nebo 2 speciace

velmi rychle po sobě,

nedetekovatelné daty

pravděpodobně stále

probíhající genový tok

nebo velmi mladá

speciace

potenciální zdroj chybného či zavádějícího signálu – genová duplikace (o které nevíme)

je tedy kritické nespojovat alfu a betu dohromady, což ale často nevíme! = je nutné dávat pozor když

vyrábíme dataset a hledáme v něm homologie

některé geny mají velké množství kopií:

hemoglobinový cluster tilápie: 7x hemoglobin beta a 12x hemoglobin alfa

= těžké určit co je s čím homologní napříč druhy...

genová konverze

jev probíhající většinou na genových duplikátech v rámci jedince! – jde o jakýsi “horizontální

přenos”, takže genetická informace např. mezi velmi starými kopiemi genů (např. vzniklých u

předka všech obratlovců) se promíchá...

chyba v rekombinaci

molekulární hodiny, fosílie a ultrametrické stromy

běžný strom používá délku větví k znázornění

rychlosti evoluce (např. mutací)

skutečný evoluční čas

fosilní taxony jejchž stáří známe použijeme

pro kalibraci, příp. přímo zařadíme do maticeideální je fosílie co nejblíže kořenu stromu, jinak jsou odhady s velkými

konfidenčními intervaly

fosílie

díky molekulárním hodinám jsme pak

schopni interpretovat například vznik

nějakého znaku, atd. zde například určitý vzor

v retrotransposonech

jiný typ molekulárních hodin:

virová evoluce, koncové větve nekončí stejně

chřipkový virus a rezistence na něj