Fylogenetika
“klastrovat” na základě podobnosti lze cokoliv, vůbec nemusí jít o evoluční záležitosti (= lidstvo potřebuje
popisovat a škatulkovat), je to obecný matematický základ pro analýzy dat, data mining, atd. => pro
studium evoluce pak vznikl obor fylogenetiky
cluster
cluster
cluster
clustershierarchické klastrování:
=> strom je jedním z grafických
znázornění hierarchického klastrování:
Clustering: group the data based on the similarities. = příklad z nebiologické praxe– rozdělení zákazníků na skupiny dle parametrů nakupování => cílená reklama
idea fylogenetického stromu (tj. evolučního), stromu života:
Darwin, 1859:
(mmch. jediný obrázek v jeho knize o původu druhů)
Heckel, 1879: Tree of Life
fylogenetický strom = záznam evoluce zkoumaných taxonů:
kořen = společný předek všech
kořen = společný předek všech
fylogeneze (to štěpení) vs. fylogenetika (přístup, který to zkoumá)
Typy fylogenetických stromů:
kladogram
(bez časové informace)
speciace
ultrametrický strom
(končí ve stejném čase = molek. hodiny)
strom
(s délkami větví)
sdělení těchto stromů je identické
programy pro práci s fylogenetickými stromy (formáty newick, nexus):
FigTree TreeView
závorková konvence:
= (((A,B),(C,D)),E)
přidaná informace – délka větví, nebo
třeba podpora uzlů (dozvíme se dále)
= (((A:1,B:1):1,(C:1,D:1):1):1.2,E:3.2)= A,B , C,D ,E
toto jsou v zásadě grafické clustery...
náhled skutečného stromu:
rozřešený strom – založen na dichotomickém větvení:
polytomie
reálný strom:
=> v uzlu, kde je polytomie nemáme dostatek
informace abychom byli schopni vyřešit vztahy mezi
potomky uzlu; jen velmi vyjímečně může jít o
biologický jev (vyvinulo se více druhů najednou z 1
předka = např. adaptivní radiací)
znaky – např. morfologie, anatomie, fyziologie, atd. – může to být cokoliv
apomorfie
(nově odvozený znak, nese
informaci o příbuznosti),
funkčně jde o homologii
naopak: např. mnohobuněčnost by byla tzv.
pleziomorfie, tedy zděděným znakem od předků,
který v tomto kontextu nemá žádnou informaci pro
rekonstrukci evolucem jelikož ho nesou všichni
znaky – např. morfologie, anatomie, fyziologie, atd. – může to být cokoliv
!!polarizace znaků – co je ancestrální víme až poté co známe fylogenezi, založenou i na jiných znacích...
netopýr
0010011 1 1 1 1 1
netopýr
křídlapřítomnost znaků “bránice” a ”srst” nám pomůže odhalit to,
že křídla nevznikla jednou, ale dvakrát (a tedy že nejsou
homologní, ale je to tzv. homoplázie)
volba znaků je důležitá!
!!polarizace znaků – co je ancestrální víme až poté co známe fylogenezi, založenou i na jiných znacích...
netopýr
0010011 1 1 1 1 1
netopýr
křídla
vynecháme
v tomto případě námi zvolená sada poskytuje špatnou
fylogenetickou informaci, protože je založena na
neodhalené homoplázii => a toto riziko je v našich datech
vždy
volba znaků je důležitá!
!!polarizace znaků – co je ancestrální víme až poté co známe fylogenezi, založenou i na jiných znacích...
netopýr
0010011 1 1 1 1 1
toto je tzv. matice znaků
tvorba matice pro následné analýzy = srovnání sekvencí pod sebe...
při alignmentu: program hledá nejlepší rozmístění, dostává body: za každou shodnou bázi plusové body, za každou mezeru mínus body, za otevření mezery speciální mínus body...
=> cílem je získat co nejvíce bodů!
znaky molekulární = sekvence DNA – alignment = seřazení do matice
1) distanční metody
2) maximální úspornost = parsimonie
3) maximální věrohodnost = likelihood
4) Bayesovské metody výpočtu
metody výpočtu fylogenetických stromů:
z DNA či morfologie:
Distanční metody: UPGMA (Sokal & Michener 1958), Neighbor-Joining (Saitou and Nei, 1987)
čistě hierarchické clusterování
již částečné zanesení evoluční info o potenciálně
odlišné rychlosti změn v různých větvích
příklad
distanční metody výpočtu stromů:
- výpočet vzdáleností každé sekvence od každé – vznikne matice vzdáleností:
nejmenší vzdálenost = spojení
distanční metody výpočtu stromů:
=> matice se pak znovu přepočítá, králík+člověk se teď berou
jako jeden taxon s průměrnou hodnotou
distanční metody výpočtu stromů:
-nyní se vezmou druhy s nejmenší vzdáleností a spojí se, mají společnou vzdálenost a pokračuje se, dokud nejsou všechny druhy ve stromu...
nezakořeněný strom:
distanční metody výpočtu stromů:
zakořeněné a nezakořeněné fylogenetické stromy:
pro zakořenění je nutné přidat druh, který nepatří do
skupiny,
tzv. outgroup, tj. zde např. druh, který není obratlovec...
zakořeněné a nezakořeněné fylogenetické stromy:
zakořeněné stromy:
předek
zakořeněné a nezakořeněné fylogenetické stromy:
současnostpředek současnost
co se stane, když zvolíme špatný outgroup?
co se stane, když zvolíme špatný outgroup?
všechno je totéž...
rotace uzlů je volná a nemění smysl!
Metoda maximální parsimonie = maximální úspornosti
- máme 3 zvířata: vlaštovka, netopýr a kočka
- bez jakékoliv matice: existují 3 možné způsoby, jak si mohou být příbuzní:
- maximální parsimonie = nejmenší počet změn znaků
zdroj: Jan Zrzavý - evoluce
- maximální parsimonie = nejmenší počet změn znaků:
vítězí scénář č. 1
5 změn 7 změn 8 změn
Metoda maximální parsimonie = maximální úspornosti
2) parsimonie
evoluční čas
jak distanční metoda, tak metoda
maximální parsimonie zde dávají
shodný strom
ACCTRAN/DELTRAN optimalizace – pro situace, kdy je počet záměn stejný, ale jsou různé varianty
ACCTRAN = preference změny co nejdříve
DELTRAN = změna co nejpozději
změna co nejdříve
zpětná změna
problém: všechny stromy jdou udělat do max. 11 druhů...
(2n – 3)!
2n-2(n-2)!
3 taxony: (6-3)!/2(1)! = 6/2 = 3 stromy
6 taxonů: (12-3)!/24(4)! = 945 stromů
9 taxonů: (18-3)!/27(7)! = 2‘027‘025 stromů
12 taxonů: (24-3)!/210(10)! = 13‘749‘310‘575 stromů
exponenciální nárůst počtu potenciálních stromů
heuristický přístup – když nelze prohledat všechno:
=> maximální počet, kdy je reálné
prohledávat všechny kombinace je 11
taxonů
není tedy možné prohlédnout všechny stromy, spočítat pro ně
počty evolučních změn a vybrat ten nejlepší
heuristické hledání stromů
tj. - vytvoří se náhodný strom,
- spočítají se evoluční změny,
- náhodně se v něm přehodí dvě větve,
- spočítají se evoluční změny
- dál postupuje jen ten, který měl méně změn!!! atd. atd.
- na konci řady je strom s nejméně změnami
výběr náhodného stromu se opakuje několikrát, porovnání výsledných stromů
- může být i několik nejlepších stromů
- heuristický postup se uplatňuje u všech dalších metod, tj. nejen parsimonie, ale i max.
likelihood a Bayesovském přístupu
heuristický přístup – když nelze prohledat všechno:
1) distanční metody - na základě distancí, výsledkem 1 strom
2) maximální úspornost = parsimonie – více možných stromů, bereme konsensus
3) maximální věrohodnost = likelihood – výsledkem 1 strom
4) Bayesovské metody výpočtu – výsledkem 1 strom vč. statistické podpory
tyto dvě metody jsou statisticky nejodvozenější, používají obecný
statistický aparát nevyvinutý přímo pro fylogenetiku
- existují myšlenkové školy, které uznávají jen první dvě metody, které mají dle nich jasné evoluční
zadání: buď používám znaky a chci dosáhnout nejmenšího počtu změn, nebo dělám vzdálenosti
(např. Willi Hennig Society, časopis Cladistics; jde rozhodně o menšinový názor, vadí jim i toto:
- metoda 3 a 4 jsou momentálně nejodvozenější a nejčastěji využívané
metody výpočtu fylogenetických stromů:
metoda Maximum Likelihood = maximální věrohodnosti
= pravděpodobnost pozorování našich dat za předpokladu, že platí náš model, P(D|M)
model = strom + parametry (více na dalším slidu)
příklad s házením mincí: hodím 10x mincí. Jaká je pravděpodobnost
(likelihood, L), že mi padne 5 x hlava a 5 x orel?
L = L(1) x L(2) ..... x L(N) = ∏ L(j)j=1
N
znak1 = třeba nukleotidová pozice 1
výsledný likelihood je součtem všech znaků
L=(n!/(k!(n-k)!)) × pk × (1-p)n-k = 0.2461
n = počet hodů
k = počet hlav
p = pravděpodobnost pádu hlavy vs. orla (0.5)
pokud by byla mince nesouměrná a
měnila by se pravděpodobnost (p)
padnutí hlavy, pak se zmenšuje i
likelihood padnutí 5 hlav + 5 orlů
paralela k fylogenezi: máme model (strom + parametry evoluce) a zkoumáme jaká je
pravděpodobnost, že na ně budou sedět naše data testujeme postupně stromy (analýza tedy
vezme 1 strom, spočítá L, pak vezme další, a pokud ten je lepší tak pokračuje s ním, pokud ne
tak s původním) – počet kroků = počet generací => vyhledáme tímto nejlepší strom
evoluční model pro ML (ale i Bayesovskou analýzu):
v modelu (paralela „cinknutosti“ mince) jsou matematicky zainkorporovány:
1) pravděpodobnosti jednotlivých záměn (A->T, A->C, A->G, T->C, T->G, C->G),
maximálně může být až šest různých pravděpodobností;
(= šest různých substitučních typů)
2) poměry jednotlivých bází
3) poměr nevariabilních míst vůči variabilním
4) pravděpodobnost záměny jednotlivých pozic (např. morfologie – stejná pro
všechny znaky; DNA – různá, např. dle pozic v kodónu atd.)
5) korekce distance (vychází i z bodu 3).
to vše je vlastně popis evoluce DNA
purin
purin
pyrimidin
pyrimidin
transice je v datech mnohem častější než transverze, protože molekula je stabilnější a protože nevede tak
často ke změně aminokyseliny, tedy zůstává v datech zachována
p-distance vs. g-distance – pokus o optimální
korekci; saturace
AATGCCGTATCGCGTTAATTTGAGCGCTTTCGAT
AATGCCATATCGCGTTAAGTTGAGCCCTATCGAT
AAAGCCATATCGCATTAAGTTGAGCGCTATCGAT
tato mutace nebude detekována, protože
je zpětná, tedy změnila se na původní stav
=> saturované sekvence již nesou hodně šumu, saturované pozice pak málo fylogenetické informace. Nejčastěji
jsou satuorvány 3. pozice kodónů. Model se snaží korigovat tento jev tím, že předpoví míru saturace
Bayesovská fylogenetika – Bayesův teorém (Bayesova věta):
Thomas Bayes (18. století) vymyslel statistickou
metodu a tzv. Bayesův teorém
pro nás uživatele je to mírně modifikovaná forma likelihoodu
velmi zjednodušeně:
Maximum Likelihood = pravděpodobnost dat ze stromu (modelu)
BT = pravděpodobnost stromu/uzlu při datech = > využívá k výpočtu tzv.
inverzní pravděpodobnost
(také hledá nejlepší strom)
P(A|B) = P(B|A)P(A)
P(B) = pravděpodobnost jevu A za předpokladu, že platí B
P(strom|data) = P(data|strom) × P(strom)
P(data)
P(uzel|data) = P(data|uzel) × P(uzel)
P(data)
Bayesovská fylogenetika – Bayesův teorém (Bayesova věta):
odbočka = příklad pro vysvětlení Bayesovy věty:
Mám 2 pytlíky s kuličkami. Pytlík 1 (“bílý”) obsahuje 3x více bílých, pytlík 2 (“černý”) - 3x více černých kuliček. Vyberu
náhodně 1 pytlík. Vytáhnu 5 kuliček (vždy po vytažení každou vrátím). Výsledkem je 4 bílé a 1 černá kulička. Jaká je
pravděpodobnost, že mnou vybraný pytlík byl “bílý” Pytlík (1)?
data: 4x bílá, 1x černá
otázka: s jakou pravděpodobností to byl bílý pytlík?: výběr pytlíku
byl náhodný, tj. pravděpodobnost na počátku = 1/2
P(BílýPytlík|data) = P(data|BílýPytlík) × P(BílýPytlík)
P(data)
a priori = 1/2
celkový součet všech možností, tj. Pstí pro data jak z bíléhotak z černého pytlíku
P(BílýPytlík|data) = P(data|BílýPytlík) × P(BílýPytlík)
P(data|BílýPytlík) × P(BílýPytlík) + P(data|ČernýPytlík) × P(ČernýPytlík)
Pst pro data z bílého pytlíku
P(BílýPytlík|data) = P(data|BílýPytlík) × 1/2
P(data|BílýPytlík) × 1/2 + P(data|ČernýPytlík) × 1/2
P(data|BílýPytlík) = 5 × 3/44 × 1/41 = 405/1024 = pst, že nastane pozorovaná sestava (4B+1Č) při tahu z tohoto pytlíku
P(data|ČernýPytlík) = 5 × 1/44 × 3/41 = 12/1024 = pst, že nastane pozorovaná sestava (4B+1Č) při tahu z tohoto pytlíku
P(BílýPytlík|data) = 405/1024 × 1/2
405/1024 × 1/2 + 12/1024 × 1/2= 0.964
bílá kuličkačerná kulička
(to je odpověď)
Bayesovská fylogenetika – Bayesův teorém (Bayesova věta):
odbočka = příklad pro vysvětlení Bayesovy věty:
Mám 2 pytlíky s kuličkami. Pytlík 1 (“bílý”) obsahuje 3x více bílých, pytlík 2 (“černý”) - 3x více černých kuliček. Vyberu
náhodně 1 pytlík. Vytáhnu 5 kuliček (vždy po vytažení každou vrátím). Výsledkem je 4 bílé a 1 černá kulička. Jaká je
pravděpodobnost, že mnou vybraný pytlík byl “bílý” Pytlík (1)?
data: 4x bílá, 1x černá
otázka: s jakou pravděpodobností to byl bílý pytlík?: výběr pytlíku
byl náhodný, tj. pravděpodobnost na počátku = 1/2
P(BílýPytlík|data) = P(data|BílýPytlík) × P(BílýPytlík)
P(data)
a priori = 1/2
celkový součet všech možností, tj. Pstí pro data jak z bíléhotak z černého pytlíku
P(BílýPytlík|data) = P(data|BílýPytlík) × P(BílýPytlík)
P(data|BílýPytlík) × P(BílýPytlík) + P(data|ČernýPytlík) × P(ČernýPytlík)
Pst pro data z bílého pytlíku
P(BílýPytlík|data) = P(data|BílýPytlík) × 1/2
P(data|BílýPytlík) × 1/2 + P(data|ČernýPytlík) × 1/2
P(data|BílýPytlík) = 5 × 3/44 × 1/41 = 405/1024 = pst, že nastane pozorovaná sestava (4B+1Č) při tahu z tohoto pytlíku
P(data|ČernýPytlík) = 5 × 1/44 × 3/41 = 12/1024 = pst, že nastane pozorovaná sestava (4B+1Č) při tahu z tohoto pytlíku
P(BílýPytlík|data) = 405/1024 × 1/2
405/1024 × 1/2 + 12/1024 × 1/2 = 0.964
bílá kuličkačerná kulička
(odpověď)
celé je to krásná paralela pro naše hledání optimálního stromu: teď si představte, že
pytlíky jsou různé alternativní topologie uzlů (tedy např. různé kombinace druhů v uzlu).
Máme tedy naše data (třeba sekvence DNA, nebo sadu morfologických znaků) a ptáme
se: jaká je pravděpodobnost, že platí jeden z uzlů na základě našich dat? Analýza jede
pro každý uzel ve stromu a pravděpodobnosti = likelihoody se pak sčítají... (jen je to o
něco složitější – i zde vstupují další parametry evolučního modelu, jako u ML metody)
heuristické hledání v Bayesovské analýze:
hledání provádějí tzv. Markovovy řetězce (Markov-chain Monte Carlo)
krok 1: máme 4 řetězce, které se vydaly hledat do krajiny nejlepší strom...
hledání je opět heuristické, tedy zkusím strom, spočítám jeho L, zkusím další,
posunu se pouze, je-li nový strom lepší...
větší likelihood
= adaptivní krajina, tedy vizualizace optimálních stromů – čím výše, tím vhodněji strom odpovídá datům,
algoritmus analýzy krajinu postupně prohledává (a samozřejmě neví, co je kde za “kopce” a “údolí”)
1 řetězec je studený – tzn. konzervativní, posune se pouze nahoru – tedy pokud je
další strom lepší
3 řetězce jsou teplé – tzn. mohou se vrátit i dolů + skáčou náhodně na jiná místa
teplé řetězce volají studeného, pokud najdou lepší strom = vyšší vrcholek, než na
které se usídlil studený
větší likelihood
větší likelihood
větší likelihood
héééj
heuristické hledání v Bayesovské analýze:
při dostatečném počtu generací (tj. hledacích kroků) najde studený řetězec
nejvyšší vrchol v krajině, tj. strom s nejlepším Likelihoodem.
heuristické hledání v Bayesovské analýze:
!!problém uvíznutí v lokálním maximu je rizikem všech typů analýz, které využívají heuristický
přístup (tedy nemají možnost projít všechny potenciální stromy).
dostatečný počet generací + několik nezávislých běhů je důležitý – po čase je vrchol nalezen a čím je vyšší
než ostatní, tím lépe bude náš výsledek podpořen => tedy Baysovská analýza probíhá vždy na dostatečném
počtu generací, které časem konvergují ke shodnému nálezu ; počáteční fázi potom z výsledků vyhazujeme:
2 milióny generací
like
liho
od
statistické podpory – míra důvěryhodnosti topologie; bootstrapování a BPP
statistická podpora existence uzlu
statistické podpory – BPP = Bayesian Posterior Probability
2 milióny generací
like
liho
od
Bayesovská analýza – zpracuje všechny stromy v plateau fázi = kolik % stromů obsahuje daný uzel
jaká je statistická podpora
jednotlivých uzlů?
statistická podpora – bootstrapování
využívá se pro metody Maximální parsimonie a Max. Likelihood
představte si situaci, kdy je některý uzel podpořen téměř všemi znaky, a jiný jen některými, které
zrovna převáží...
statistická podpora – bootstrapování
Bootstrap - pseudomatice:
Bootstrap – výsledný strom:
v kolika % z 1000 stromů z pseudomatic se uzel vyskytl ?
morfologie i DNA – některé znaky se opakují a jiné se do pseudomatice nedostanou, během 1000
opakování by mělo padnout dostatečné množství kombinací
pokud je topologie (=uzel) založena jen na málo znacích, bude podpora bootstrapu malá
(pravděpodobnost, že se vylosují tyto znaky do pseudomatice je menší než když je topologie založena na
mnoha znacích napříč datasetem).
potenciální problémy: přitahování dlouhých větví - long-branch attraction:
evoluční historie není vždy přímočará...
- máme-li více genů, pak můžeme buď všechny sekvence jednoduše spojit za sebe (=konkatenovat)
nebo počítat strom pro každý gen zvlášť
- počítat zvlášť je správnější – poté se udělá konsensus z jednotlivých genů
molekulární fylogeneze založená na sekvenci DNA různých genů:
gene trees vs. species tree:
topologie se může měnit podél chromozomů
fylogenomika = fylogenetika na celých genomech!
Martin, S. H., & Van Belleghem, S. M. (2017). Exploring evolutionary relationships across the genome using topology weighting. Genetics, 206(1), 429-438.
Neurospora – detekce introgrese a nerekombinujícího úseku v genomu
topologie se může měnit podél chromozomů
fylogenomika = fylogenetika na celých genomech!
Martin, S. H., & Van Belleghem, S. M. (2017). Exploring evolutionary relationships across the genome using topology weighting. Genetics, 206(1), 429-438.
Johansson, Frank, et al. "Phylogeography and larval spine length of the dragonfly
Leucorhinia dubia in Europe." PloS one12.9 (2017): e0184596.
alternativní topologie podpořené různými částmi genomu:
hybridizace – vede k introgresi a k smíšenému signálu z genomu:celá teorie za fylogenetikou předpokládá, že druhy vznikají bifurkací a pak se nekříží, pak už tedy záleží, co
chceme ukázat (tedy - ukázat 1 strom by byl problém)
Martin, Simon H., et al. "Genome-wide evidence for speciation with gene flow in Heliconius butterflies." Genome Research23.11 (2013): 1817-1828.
hybridizace
=> křížení způsobí, že se genomový signál namíchá,
polovina genomu podporuje jinou topologii
co hybridní druhy? nebo dokonce celé množství druhů, které vznikly díky hybridizaci??
- revoluční metody v sekvenaci DNA (next-generation sequencing) nám umožnily studovat celé genomy rutinně, tedy
teď začínají vycházet najevo zákonitosti, které jsme neznali...
celá druhová diverzita cichlid z jezera
Viktoria vznikla pravděpodobně díky
počáteční hybridizaci 2 vzdáleně
příbuzných linií, z Konga a z Nilu
genomy různých druhů jsou různé mozaiky
Meier, Joana I., et al. "Ancient hybridization fuels rapid cichlid fish adaptive
radiations." Nature Communications 8 (2017).
co hybridní druhy? nebo dokonce celé množství druhů, které vznikly díky hybridizaci??
- revoluční metody v sekvenaci DNA (next-generation sequencing) nám umožnily studovat celé genomy rutinně, tedy
teď začínají vycházet najevo zákonitosti, které jsme neznali...
celá druhová diverzita cichlid z jezera
Viktoria vznikla pravděpodobně díky
počáteční hybridizaci 2 vzdáleně
příbuzných linií, z Konga a z Nilu
genomy různých druhů jsou různé mozaiky
Meier, Joana I., et al. "Ancient hybridization fuels rapid cichlid fish adaptive
radiations." Nature Communications 8 (2017).
bude asi nutné akceptovat, že pro tyto ryby (a všechny ostatní, u kterých se
ukáže něco podobného) nebudeme nikdy mít jeden klasický fylogenetický
strom, ale fylogenetický přístup se stále bude používat – např. při
zkoumání jednotlivých genů a jejich funkcí (a důvodu proč byla
vyselektována zrovna tato varianta...), atd.
schéma fylogeneze citrusů (přírodních forem) a jejich kříženců (vyšlechtěných)
fylogenetické sítě = phylogenetic networks
zobrazují vztahy ne jako strom (tedy rozdvojováním a společným uzlem vždy pro 2 taxony),
ale jako síť, kde jeden uzel může mít více výstupů, a zároveň každý taxon může být zapojen
ve více uzlech
jsou tam mezistavy, tedy nepozorované, ale předpověděné uzly
nepozorovaný, ale předpovězený haplotyp
síťové propojení
fylogeografický vzor u sekavce C. strumicae z Balkánu
haplotypová síť:
- každá spojnice spojuje haplotypy lišící se jedinou mutací
- velikost kruhu = počet jedinců
Gandini, Francesca, et al. "Mapping human dispersals into the Horn of Africa from
Arabian Ice Age refugia using mitogenomes." Scientific reports 6 (2016): 25472.
haplotypová síť – lidská mtDNA:
fylogenetické sítě = phylogenetic networks
Gouzelou, Evi, et al. "Genetic diversity and structure in Leishmania infantum populations from
southeastern Europe revealed by microsatellite analysis." Parasites & vectors 6.1 (2013): 342.
Stomatepia mariae
Stomatepia pindu
Stomatepia mongo
Pungu maclareni
Konia dikume
Konia eisentrauti
Sarotherodon steinbachi
Sarotherodon lohbergeri
Sarotherodon linnellii
Sarotherodon caroli
Myaka myaka
RAD-seq (9280 SNPs)SplitsTree4: NeighbourNet
cichlidy z kráterového jezera Barombi Mbo v Kamerunu:
situace na počátku evoluce této
skupiny nejasná, šlo pravděpodobně o
rychlou adaptivní radiaci
speciace se vznikem tří
druhů nebo 2 speciace
velmi rychle po sobě,
nedetekovatelné daty
pravděpodobně stále
probíhající genový tok
nebo velmi mladá
speciace
potenciální zdroj chybného či zavádějícího signálu – genová duplikace (o které nevíme)
je tedy kritické nespojovat alfu a betu dohromady, což ale často nevíme! = je nutné dávat pozor když
vyrábíme dataset a hledáme v něm homologie
některé geny mají velké množství kopií:
hemoglobinový cluster tilápie: 7x hemoglobin beta a 12x hemoglobin alfa
= těžké určit co je s čím homologní napříč druhy...
genová konverze
jev probíhající většinou na genových duplikátech v rámci jedince! – jde o jakýsi “horizontální
přenos”, takže genetická informace např. mezi velmi starými kopiemi genů (např. vzniklých u
předka všech obratlovců) se promíchá...
chyba v rekombinaci
molekulární hodiny, fosílie a ultrametrické stromy
běžný strom používá délku větví k znázornění
rychlosti evoluce (např. mutací)
skutečný evoluční čas
fosilní taxony jejchž stáří známe použijeme
pro kalibraci, příp. přímo zařadíme do maticeideální je fosílie co nejblíže kořenu stromu, jinak jsou odhady s velkými
konfidenčními intervaly
fosílie
díky molekulárním hodinám jsme pak
schopni interpretovat například vznik
nějakého znaku, atd. zde například určitý vzor
v retrotransposonech
jiný typ molekulárních hodin:
virová evoluce, koncové větve nekončí stejně
chřipkový virus a rezistence na něj