Metody molekulární biologie v ekologii a systematice
rostlin
5. Sekvenování DNA – 1. část
Petr Koutecký & Jiří Košnar, 2011
Historie, princip sekvenování DNA
Sekvenování DNA
řešení otázek: fylogeneze, na jakékoli tax. úrovni (ale musí být nalezen vhodně
variabilní úsek) taxonomie na úrovni druhů, příp. vnitrodruhových taxonů hybridizace fylogeografie molekulární identifikace - barcoding
předpoklady: musíme znát primery na PCR amplifikaci zvoleného úseku metodicky často ne příliš náročné, stačí rel. málo genomové DNA dost peněz (rel. drahé)
Historie, princip sekvenování DNA
Metody sekvenování DNA
* 70. léta minulého století
sekvenování chemickou modifikací (Maxam & Gilbert, 1977):
• 5´ konec se radioaktivně označí
• působením chemikálií se ve 4 separovaných reakcích specificky modifikují jednotlivé báze resp. v menší míře dvojice bází:
A(+G): depurinované kys. mravenčí, T(+C): methylované hydrazinem, G: methylované dimethyl sulfátem, C: methylované hydrazinem v přítomnosti NaCl
• v místě modifikované báze je DNA selektivně štěpena piperidinem
• vzniklé fragmenty jsou separované na denaturačním PAA gelu (přesnost 1 báze)
• značení jen jednoho konce umožní stanovit, na které pozici sekvenovaného úseku je nukleotid dané specifické reakce
Princip sekvenování DNA
Metody sekvenování DNA
chain terminator method: sekvenování syntézou DNA dideoxynukleotidy (ddNTPs): nemají 3´-OH skupinu pro další
prodlužování řetězce DNA, proto terminují
Sanger & Coulson, 1975
• ddNTPs smíchané s převládajícími dNTPs
• sekvenační reakce – DNA polymeráza, pouze 1 primer,
podobné PCR (cycle sequencing), ale fragmenty přibývají lineárně!
• při inkorporaci značeného ddNTP - terminace
• vznikají různě dlouhé fragmenty – ELFO
denaturační PAA gel, kapilární ELFO se sekv. polymerem
A původně 4 reakce (každý nukleotid zvlášť)
B dye termination:
ddNTPs odlišně fluorescenčně značené, sekvenační reakce probíhá najednou
A B
Princip sekvenování DNA
Jak probíhá zpracování vzorku:
je nutné mít PCR produkt úseku, který chceme sekvenovat:
• bez nespecifických PCR produktů pokud je PCR produkt dostatečně koncentrovaný, lze přímo sekvenovat
• u slabších bandů je třeba odstranit neinkorporované primery a dNTPs (sekvenace je jednosměrná → nutný řádový nadbytek 1 primeru; musí být přesně vyvážený poměr dNTP a ddNTP)
- kitová purifikace (PCR clean up kity) – vhodné i pro odstranění nespecif. fragmentů a dimerů primerů do 100 bp
- EXOSAP: enzymatické odstranění primerů (ExoI) a dNTPs (SAP)
ExoI: Exonuclease I, štěpí jednovláknovou DNA; SAP – shrimp alkaline phosphatase, degraduje dNTPs; oba enzymy inaktivované 85°C
vlastní sekvenaci (sekvenační reakce se značenými ddNTP, ELFO separace fragmentů) provádějí servisní pracoviště (Genomické centrum BC AV ČR, Macrogen) – vyžadují dodání PCR produktu a požadovaného sekvenačního primeru
Princip sekvenování DNA
Data ze sekvenátoru:
vizualizace a editace - free programy:
FinchTV – prohlížení a editace
Sequence Scanner – prohlížení, zobrazuje i raw data a parametry runu
BioEdit (BioLign) – prohlížení a editace, sestavování alignmentu
jeden běh sekvenace pokryje 500-900 bp
delší úseky se dají pokrýt sekvenování z reverse směru (za použití reverse PCR primeru), případně pomocí vnitřních primerů
Výstup ze sekvenátoru
Ideální výsledek: jednotlivé, nepřekrývající se píky = jasně určené báze sekvence prvních ~30 bp včetně sekv. primeru nečitelných (nevýhoda Sanger metody)
Výstup ze sekvenátoru
po 500-800 bp: postupný pokles signálu, problém zejména s určením počtu nukleotidů u opakujících se bází - vždy vhodná manuální editace!, příp. doplňující sekvenace v reverse směru
konec sekvence: náhlý pokles signálu, často patrná sekvence reverse primerü (v reverse complement podobě!)
raw signál: vyrovnaný průběh příp. mírný pokles
Skládání forward a reverse sekvence daného vzorku:aby bylo možné srovnat, je nutné reverse sekvenci převést do reverse complement
Výstup ze sekvenátoru
5´ - GGAGAAGTCGTAACAAGGTTTCCG – 3´ sekvence forward primeru – vždy pouze na konci reverse sekv.
forward sekvenace →- nezachytí prvních ~30 bp
← reverse sekvenace
← reverse sekvenace - nezachytí posledních ~30 bp
forward sekvenace →
- reverse complement sekvence reverse primeru, vždy pouze na konci forward sekv.
5´ - TCCTCCGCTTAGTGATATGC – 3´
Technické artefakty sekvenace:
Výstup ze sekvenátoru
PCR produkt může být v pořádku, pouze se ztratil během přípravy vzorku na sekvenaci (např. ztráta DNA při přesrážení isopropanolem)
dejte znovu sekvenovat...
vmezeřené píky (často jde o jeden typ barvy – nukleotidu); zeditovat!
?
Technické artefakty sekvenace:
bloby - nadbytek neinkorporovaných ddNTPs
Výstup ze sekvenátoru
nejasná místa blobu řeší sekvenace v reverse směru; někdy možné i zeditovat:
artefaktní píky obvykle nápadně vysoké a neostré, překryvají pravé píky bází (aac)
artefakt
zákeřné chyby vyhodnocovacího programu (?)
- před analýzou dat zkontrolovat podezřele
variabilní místa!
Výstup ze sekvenátoru
spike – překryje 1-2 báze, nutná reverse sekvenace(vznik nejasný - malé vzduchové bubliny v kapiláře?)
Technické artefakty sekvenace:
Technické artefakty sekvenace:
chyby polymerázy u repetitivních sekvencí (často u cpDNA)
Výstup ze sekvenátoru
u 2 bp a více bp mikrosatelitů:
nečitelnou část sekvence lze doplnit reverse sekvenací (jiným způsobem asi neřešitelné – tento typ chyb dělá i proof-readingová ExTaq polymeráza)
inhibice sekvenace: indikují ji např. raw data v programu Sequence Scanner; signál po celou délku runu ideálně ~1000-2000
Výstup ze sekvenátoru
Technické artefakty sekvenace:
raw signál:
náhlý pokles, abnormální signál
předčasný konec čtení:
sekvence neúplná, chybí místo reverse primeru!
Výstup ze sekvenátoru
Technické artefakty sekvenace:
nadbytek PCR produktu: spotřebování / opotřebení sekv. reagencií
raw signál:
vysoké počáteční píky, pak patrný pokles
předčasný pokles kvality a výšky píků (např. už od 300-400 bp)
Výstup ze sekvenátoru
Technické artefakty sekvenace:
málo PCR produktu: nejčastěji u slabých bandů
raw signál:
signál <100, téměř nepřevyšuje bazální šum
nízká kvalita čtení, abnormální morfologie píků, zdvojené píky
sekvence PCR produktu tvoří sekundární strukturu – smyčku
náhlý, nápadný pokles signálu:
Výstup ze sekvenátoru
problematické jsou patrně smyčky stabilní za elongační teploty sekvenace (65-72°C); u méně stabilních sek. struktur pomůže(?) přidání denaturačních látek (např. DMSO); ani reverse sekvenace nepokryje vlastní oblast smyčky (pouze oblast za ní)
Zákeřnější artefakty sekvenace:
začátek smyčky
http://mfold.rna.albany.edu/?q=mfold/DNA-Folding-Form
Výstup ze sekvenátoru
dimery primerů: horší signál na začátku, pak náhlé zlepšení:
podobné i jiné, delší nespecif. PCR produkty; řeší gelová extrakce, nebo doplňující sekvenace v reverse směru
! signál dimerů může převyšovat signál cílového PCR produktu → začátek sekvence je nesmyslný (nesedí na příbuzné sekvence) - nutné oříznout !
falešný ´dimerový´ signál
cílový signál
Zákeřnější artefakty sekvenace:
Zákeřnější artefakty sekvenace:
Výstup ze sekvenátoru
kontaminační píky obvykle od začátku sekvence (a často až do konce)(pozn.: výše uvedený příklad zachycuje situaci, kdy se cílový a kontaminující PCR produkt lišil délkou)
kontaminace signálem ze sekvence z necílového organismu:(ITS sekvence mechu r. Didymodon, nižší píky odpovídají kvasince - r. Yarrowia?)
Paralogy
Sekvenování DNA - paralogy
na první pohled připomínají kontaminaci sekvenace
• v genomu více rozrůzněných kopií úseku, použité primery je chytají
• typické pro multi-copy úseky: jaderná rDNA, vzácně ale i cpDNA
• vyskytují se ale i u low-copy úseků, nebo dokonce u single-copy úseků – u (diploidních) heterozygotních jedinců
mohou komplikovat analýzu a interpretaci dat:
• zásadním předpokladem je homologie posuzovaných objektů (orthology)
často neřešitelné otázky:
1) která ze 2 sekvencí taxonu B je homologická se sekvencí taxonu A?
2) co s případem, kdy při zahrnutí obou sekvencí taxonu B, dává každá jiný výsledek?
Paralogy
Výstup ze sekvenátoru
a) paralogy lišící se substitucemi:
při sekvenci PCR produktu se poznají podle zdvojených píků:
na rozdíl od kontaminace bývá začátek sekvence čitelný!
Paralogy
Výstup ze sekvenátoru
b) paralogy lišící se indely – obvykle působí nečitelnost sekvence:(indel = místo inzerce nebo delece nukleotidu)
někdy se projeví i poklesem na raw signálu (ale ne tak nápadné jako u smyčky nebo inhibice)
Paralogy
Výstup ze sekvenátoru
zdánlivě neproblematická sekvenace z jednoho směru ...
... reverse sekvenace jasně prokáže paralogy (a vyloučí možnost inhibice):
? možná inhibice?
Co s paralogy?
minoritní variabilitu lze v některých případech zanedbat (např. fylogeneze vyšších tax. úrovní)
• x jak velké rozdíly jsou ještě minoritní a zanedbatelné???
je nutné řešit pokud je většina sekvencí totálně nečitelná
molekuly paralogů z PCR produktu lze separovat klonováním:
• jednotlivé molekuly PCR produktu vloženy pomocí vektoru do bakterií
• předpoklad (aby to fungovalo): 1 buňka přijme pouze 1 vektor, a z 1 buňky bakterie vyroste jediná homogenní kolonie
• jednotlivé bakteriální kolonie použity pro amplifikaci nebo izolaci dané molekuly PCR produktu → sekvenace
Sekvenování DNA - paralogy
Klonování PCR produktu:
1. Ligace molekul PCR produktu (inzertu) do vektoru (plazmidu):• zajišťuje enzym ligáza – spojuje kohezivní nebo tupé konce (ligázu
držet na ledu, skladovat v mrazáku - velmi nespolehlivá a citlivá na zvýš. teplotu!)
Sekvenování DNA - paralogy
často nutné ligovat bandy PCR produktů vyřízlé z tzv. low-melting agarózy, nebo aspoň přidat l.-m. agarózu do ligační směsi
• inzert vkládán do β-galaktosidázového operonu, vnesením inzertu se operon vyřadí z funkce – bakterie na speciálním médiu netvoří modré zbarvení
• vektor dále nese rezistenci na antibiotikum ampicilin - selekce
PCR produkt
• snadnější je ligování kohezivních konců – PCR produkt vytvořený Taq polymerázou má na konci A-přesahy, linearizovaný vektor má komplementární T:
Klonování PCR produktu:
2. Transformace: vektor vnesen do kultury kompetentních buněk (Escherichia coli) – např. teplotním šokem (45s – 42°C), příp. elektroporací apod.
Sekvenování DNA - paralogy
3. Výsev bakteriální kultury na médium:• médium obsahuje dané antibiotikum (ampicilin) → přežijí jen
bakterie transformované plazmidem nesoucím rezistenci
4. Colony PCR: bílé bakteriální kolonie s inzertem se přenesou párátkem do sterilní vody a použijí jako templát pro PCR → úspěšné PCR sekvenovány
• médium obsahuje substrát, které bakterie s funkčním β-galaktosidázovým operonem utilizují za vzniku modrého barviva → bakterie transformované prázdným plazmidem bez inzertu jsou modré
Klonování PCR produktu:
tím, že klonování separuje a namnoží jednotlivé molekuly PCR produktu, při jejich sekvenování se zachytí artefakty PCR (nejsou patrné na signálu přímého sekvenování, které zobrazuje většinový signál převažujících molekul)
a) chyby PCR polymerázy - v reálu obvykle:
• Taq: ~1-3 chyby / 700 bp PCR produktu
• Ex Taq: ~0-1 chyby / 700 bp PCR produktu
• (ještě lepší je Pfu polymeráza, ale někdy hůř amplifikuje)
b) PCR může generovat artefaktní hybridní molekuly (PCR hybrids,
PCR recombinants):
• polymeráza nedokončí syntézu vlákna, a to v dalším cyklu nasedne na jiné, ne zcela komplementární vlákno, a podle něj se dosyntetizuje
• používat 2x delší cyklovou elongaci, redukovat počet PCR cyklů
Sekvenování DNA - paralogy
Využití sekvenování DNA
Co se dá sekvenovat? To, na co jsou primery...
(UTR – regulace translace a stability mRNA)
výběru úseku by mělo předcházet prohledání databáze NCBI
• např. pokud jsou dostupné sekvence z příbuzných organismů, můžeme je přímo využít pro analýzu, nebo z nich můžeme odhadnout variabilitu daného úseku
exony – kódující sekvence
• nižší variabilita, ale jednodušší určení homologie (alignování)
introny – přepisované do mRNA, vystřižené během její maturace
• vyšší variabilita, někdy problémy s určením homologie
spacery – mezerníky oddělující geny
• vyšší variabilita, někdy problémy s určením homologie
schéma genu:
Využití sekvenování DNA
Co se dá sekvenovat? To, na co jsou primery... jaderná ribozomální DNA: tisíce kopií v tandemovém uspořádání, v tzv.
NORs (nucleolar organizing regions), na jednom nebo více chromozomech
concerted evolution – molek. mechanizmy které homogenizují případnou variabilitu v kopiích
• 18S rDNA (SSU, small ribosomal subunit), 26S rDNA (LSU, large r. s.), 5.8S rDNA (součást LSU) - transkripcí vzniká rRNA, která spolu s proteiny tvoří součást ribozomů; vyšší tax. úroveň
• ITS (Internal Transcribed Spacer) – přepisované do rRNA, ale před maturací z rRNA vystřižené; druhová a nižší úroveň; často paralogy; příp. IGS, EGS
• univerzální primery nebo specifické pro urč. skupinu
Využití sekvenování DNA
Co se dá sekvenovat? To, na co jsou primery...
jaderné single-copy a low-copy geny
• primery obvykle fungují pouze na určitou taxonomickou skupinu
• oproti multi-copy úsekům by měly mít méně problémů s paralogy, ale u low-copy úseků často paralogy jsou
• LEAFY geny – někdy komplikované duplikacemi
• zdá se, že multi-copy úseky mohou nést informaci o starších událostech (zachová se kvůli dostatečnému počtu kopií), low-copy úseky zaznamenávají spíše recentnější historii
Využití sekvenování DNA
Co se dá sekvenovat? To, na co jsou primery... cpDNA:
• ± univerzální primery pro desítky úseků
• ačkoli jsou chloroplasty v buňce ve velkém počtu, obvykle bez paralogů
• kódující oblasti – vyšší tax. úroveň
• nekódující oblasti – druhová a nižší úroveň, u krytosemenných fylogeografie, někdy méně variabilní než např. ITS
• příklady často používaných úseků:
rbcL, matK – kódující
exony, spacery a introny oblasti trnT-trnL-trnF (Taberlet et al., 1991)
Taberlet P, Gielly L, Patou G, and Bouvet J. 1991. Universal primers for amplification of three noncoding regions of chloroplast DNA. Pl. Mol. Biol. 17: 1105-1109.
Shaw J, Lickey E, Beck JT, Farmer SB, Liu W, Miller J, Siripun KC, Winder CT, Schilling EE, and Small RL. 2005. The tortoise and the hare II: relative utility of 21 noncoding chloroplast DNA sequences for phylogenetic analysis. American Journal of Botany 92: 142–166.
Shaw J, Lickey E, Schilling EE, and Small RL. 2007. Comparison of whole chloroplast genome sequences to choose noncoding regions for phylogenetic studies in angiosperms: the tortoise and the hare III. American Journal of Botany 94: 275–288.
Využití sekvenování DNA
Co se dá sekvenovat? To, na co jsou primery...
mtDNA: • ještě méně variabilní než cpDNA (neplatí pro nahosemenné)
• ± univerzální primery, ale rel. časté ztráty/duplikace úseků
• jako zdroj dat slouží pořadí genů (taxonomie vyšších tax. jednotek, např. oddělení)
Duminil J, Pemonge MH, Petit RJ. 2002. A set of 35 consensus primer pairs amplifying genes and introns of plant mitochondrial DNA. Molecular Ecology Resources, 2:428-430.
Knoop V. 2004. The mitochondrial DNA of land plants: peculiarities in phylogenetic perspective. Curr Genet 46: 123-139.
Editace sekvencí, tvorba alignmentu v programu BioEdit
Práce s DNA sekvencemi
2. import z prohlížeče (stačí vybrat, Ctrl+C, File – Import from Clipboard)
! prvních 9 písmen názvu by mělo sekvenci jednoznačně identifikovat, používat radši jen písmena bez diakritiky, čísla a příp. ´_´
přibližně manuálně zarovnat (I, D apod.)
3. zkontrolovat a opravit případná podezřele variabilní místa (Edit mode)
oříznout sekvence primerů + neúplné částí na začátku a na konci datové matice (vybrat přísl. sloupce, Delete)
1. zeditovat danou sekvenci – opravit zjevné chyby, nerozlišené části
4. uložit: formát .fas, .bio apod.
Tvorba alignmentu (alignování)
určení homologií jednotlivých pozic sekvencí může být jednoduché u translatovaných kódujících sekvencí (nejsou
gapy = inzerce a delece) → stačí manuální alignování od oka programy hledají řešení, které má nejnižší D skóre:
D = s + wg
s – počet substitucí
g – počet gapů
w – tzv. cena gapu: cena za otevření gapu, a za jeho prodlužování
parametry ceny gapu musíme zadat → spíše intuitivně:
když máme hodně diverzifikované sekvence, u nichž se dá čekat hodně indelů, je logické použít nižší cenu gapu
Práce s DNA sekvencemi
Clustal W (implementován např. v programu BioEdit) (Accessory Application → ClustalW Multiple Alignment)
• relativně rychlé, vhodné např. pro orientační ´zarovnání´ alignmentu
• tzv. progresivní metoda: once gap → always gap
sofistikovanější algoritmy: MAFFT, Muscle
• iterativní přístup - programy se během procesu vrací na jednotlivé úrovně, umožňuje korigování
Tvorba alignmentu (alignování)
Práce s DNA sekvencemi
• vede k nekonzistencím – pro stejné sekvenční motivy u různých sekvencí různá řešení:
MAFFT alignment http://mafft.cbrc.jp/alignment/server/
naloadovat soubor sekvencí
zaslání výsledného souboru e-mailem
Práce s DNA sekvencemi
MAFFT alignment http://mafft.cbrc.jp/alignment/server/
ideální pro obtížně zalignovatelné sekvence nekódující sekvence, které ale tvoří funkční RNA molekuly (ncRNA) se sekundární strukturou, např. nrDNA
cena gapů
Práce s DNA sekvencemi
Úprava alignmentu:
po zalignování případně vyříznout příliš variabilní oblasti s nejistou homologií:
Práce s DNA sekvencemi
saturace mutacemi: příliš variabilní pozice → mutace se několikrát protočily → riziko homoplazií
Úprava alignmentu:
využití informace ze sekundární struktury: u DNA přepisované do RNA, která má určitou funkci závislou na sek. struktuře - např. nrDNA: SSU, LSU, ITS (zvlášť pro ITS1 a ITS2)
někdo tento přístup nepoužívá (x sek. struktury jsou modely, nemusí odpovídat realitě); často používají např. algologové
pokud je k dispozici, použít dostupný model pro danou skupinu pokud není, nutné vytvořit vlastní model:
teplota, za které je struktura stabilní; používá se průměrná teplota, při které organismus žije
Práce s DNA sekvencemi
1. vytvořit modely všech možných sek. struktur – program Mfoldhttp://mfold.rna.albany.edu/?q=mfold/DNA-Folding-Form
Úprava alignmentu:
• program vygeneruje obvykle několik možných modelů:
Práce s DNA sekvencemi
Úprava alignmentu:
loops – přesycené mutacemi, vyřadit z analýzy stems – protože interagují v sek. struktuře, nejsou jednotlivé pozice
vzájemně nezávislé, kompenzační mutace (vážení pozic alignmentu)
loop
stem
2. smyčky společné všem navrženým strukturám použít pro vytvoření hypotetického konsenzuálního modelu:
Práce s DNA sekvencemi
Úprava alignmentu:
ošetření oblastí gapů: (v místě indelů; pro delece symbol – nebo ~)
• použít, ale upravit tak, aby dávaly informaci o vlastní deleci – tzv. kódování gapů
Práce s DNA sekvencemi
• použít, ale vlastní deleci brát jako missing data (symbol ?)
výhoda: neztratí se informace o znacích sdílených sekvencemi A a B
• vyříznout (gaps were excluded from the analysis) – vhodné, když je nejistota s homologií; ideálně už v BioEditu (ale radši si uložit i původní verzi bez výřezů)
Úprava alignmentu:
kódování gapů:
a) kódovat (gaps were considered as fifth state), ale radši pouze začátek gapu: delší indel vznikl jako jedna událost → když by se zohledňovala každá pozice gapu, tak by byla jeho informace nadhodnocená
b) kódovat jako binární data 0/1 (gaps were scored as present or absent);
vlastní gapy dát jako missing data, nebo vyříznout:
nutné např. pro nestejně dlouhé gapy, které začínají na stejné pozici – ani kódování začátkem gapu není uspokojivé, spojovalo by nerovnocenné indely:
(nahrazení symbolů lze nejlépe provést pomocí hromadných záměn v Notepadu)
OK
Práce s DNA sekvencemi
Úprava alignmentu:
export do formátu pro fylogenet. analýzy: nejčastěji nexus (.nex)BioEdit: File → Export → Sequence Alignment → PAUP/NEXUS (*.pau, *.nex)
Práce s DNA sekvencemi
(nexus interleaved formát)
případně zakódovat a definovat gapy:
NCBI (National Center for Biotechnology Information)
spojuje veřejně dostupné databáze sekvencí DNA
Práce s DNA sekvencemi
vyhledávání podle jména taxonu příp. názvu úseku, nebo accession number
http://www.ncbi.nlm.nih.gov/
pro publikování dat je nutné sekvence submitovat do veřejně dostupné databáze (GenBank), vždy uvádět příslušná accession numbers
BLAST
Práce s DNA sekvencemi
algoritmus pro hledání homologických sekvencí přibližný a hrubý nástroj, nemůže nahradit fylogenetickou analýzu blast similarity nemusí znamená identitu taxonů (ovlivněno např. jak
moc je daný úsek/tax. skupina zastoupená v databázi) využití např.:
• přibližné ověření identity sekvence druhu, od kterého ještě daný úsek nebyl sekvenován → nejpodobnější by měly být sekvence daného úseku pocházející z příbuzných org.
• nebo hledání příbuzných sekvencí, které můžeme zahrnout do analýzy
BLAST
Práce s DNA sekvencemi
algoritmus pro hledání homologických sekvencí:
• naše sekvence (Query) → algoritmus z ní použije kratší motivy (words), prohledává jimi databázi
• pokud word nalezeno v sekvenci z databáze (Sbjct), dále v ní prohledává jeho okolí
• pokud celková podobnost úseku přesáhne určitý limit, sekvenci vybere
výsledkem je seznam potenciálně homologických sekvencí
http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_PROGRAMS=megaBlast&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome
BLAST
Práce s DNA sekvencemi
ovlivní kolik sekvencí bude prohledávat, ale také rychlost vyhledávání
vložíme naši analyzovanou sekvenci
BLAST
Práce s DNA sekvencemi
pravděpodobnost, že podobnost sekvencí je náhodná
je dobré brát v potaz:
někdy může např. Max. Ident. 95%, ale jen na krátkém úseku Query
vizualizace Query coverage
(~ jak dlouhý je homolog. úsek srovnávaných sekvencí)