Metody molekulární biologie v ekologii a systematice rostlin 5 . Sekvenování DNA – 1. část

Metody molekulární biologie v ekologii a systematice

rostlin

5. Sekvenování DNA – 1. část

Petr Koutecký & Jiří Košnar, 2011

Historie, princip sekvenování DNA

Sekvenování DNA

řešení otázek: fylogeneze, na jakékoli tax. úrovni (ale musí být nalezen vhodně

variabilní úsek) taxonomie na úrovni druhů, příp. vnitrodruhových taxonů hybridizace fylogeografie molekulární identifikace - barcoding

předpoklady: musíme znát primery na PCR amplifikaci zvoleného úseku metodicky často ne příliš náročné, stačí rel. málo genomové DNA dost peněz (rel. drahé)

Historie, princip sekvenování DNA

Metody sekvenování DNA

* 70. léta minulého století

sekvenování chemickou modifikací (Maxam & Gilbert, 1977):

• 5´ konec se radioaktivně označí

• působením chemikálií se ve 4 separovaných reakcích specificky modifikují jednotlivé báze resp. v menší míře dvojice bází:

A(+G): depurinované kys. mravenčí, T(+C): methylované hydrazinem, G: methylované dimethyl sulfátem, C: methylované hydrazinem v přítomnosti NaCl

• v místě modifikované báze je DNA selektivně štěpena piperidinem

• vzniklé fragmenty jsou separované na denaturačním PAA gelu (přesnost 1 báze)

• značení jen jednoho konce umožní stanovit, na které pozici sekvenovaného úseku je nukleotid dané specifické reakce

Princip sekvenování DNA

Metody sekvenování DNA

chain terminator method: sekvenování syntézou DNA dideoxynukleotidy (ddNTPs): nemají 3´-OH skupinu pro další

prodlužování řetězce DNA, proto terminují

Sanger & Coulson, 1975

• ddNTPs smíchané s převládajícími dNTPs

• sekvenační reakce – DNA polymeráza, pouze 1 primer,

podobné PCR (cycle sequencing), ale fragmenty přibývají lineárně!

• při inkorporaci značeného ddNTP - terminace

• vznikají různě dlouhé fragmenty – ELFO

denaturační PAA gel, kapilární ELFO se sekv. polymerem

A původně 4 reakce (každý nukleotid zvlášť)

B dye termination:

ddNTPs odlišně fluorescenčně značené, sekvenační reakce probíhá najednou

A B


Jak probíhá zpracování vzorku:

je nutné mít PCR produkt úseku, který chceme sekvenovat:

• bez nespecifických PCR produktů pokud je PCR produkt dostatečně koncentrovaný, lze přímo sekvenovat

• u slabších bandů je třeba odstranit neinkorporované primery a dNTPs (sekvenace je jednosměrná → nutný řádový nadbytek 1 primeru; musí být přesně vyvážený poměr dNTP a ddNTP)

- kitová purifikace (PCR clean up kity) – vhodné i pro odstranění nespecif. fragmentů a dimerů primerů do 100 bp

- EXOSAP: enzymatické odstranění primerů (ExoI) a dNTPs (SAP)

ExoI: Exonuclease I, štěpí jednovláknovou DNA; SAP – shrimp alkaline phosphatase, degraduje dNTPs; oba enzymy inaktivované 85°C

vlastní sekvenaci (sekvenační reakce se značenými ddNTP, ELFO separace fragmentů) provádějí servisní pracoviště (Genomické centrum BC AV ČR, Macrogen) – vyžadují dodání PCR produktu a požadovaného sekvenačního primeru


Data ze sekvenátoru:

vizualizace a editace - free programy:

FinchTV – prohlížení a editace

Sequence Scanner – prohlížení, zobrazuje i raw data a parametry runu

BioEdit (BioLign) – prohlížení a editace, sestavování alignmentu

jeden běh sekvenace pokryje 500-900 bp

delší úseky se dají pokrýt sekvenování z reverse směru (za použití reverse PCR primeru), případně pomocí vnitřních primerů

Výstup ze sekvenátoru

Ideální výsledek: jednotlivé, nepřekrývající se píky = jasně určené báze sekvence prvních ~30 bp včetně sekv. primeru nečitelných (nevýhoda Sanger metody)


po 500-800 bp: postupný pokles signálu, problém zejména s určením počtu nukleotidů u opakujících se bází - vždy vhodná manuální editace!, příp. doplňující sekvenace v reverse směru

konec sekvence: náhlý pokles signálu, často patrná sekvence reverse primerü (v reverse complement podobě!)

raw signál: vyrovnaný průběh příp. mírný pokles

Skládání forward a reverse sekvence daného vzorku:aby bylo možné srovnat, je nutné reverse sekvenci převést do reverse complement


5´ - GGAGAAGTCGTAACAAGGTTTCCG – 3´ sekvence forward primeru – vždy pouze na konci reverse sekv.

forward sekvenace →- nezachytí prvních ~30 bp

← reverse sekvenace

← reverse sekvenace - nezachytí posledních ~30 bp

forward sekvenace →

- reverse complement sekvence reverse primeru, vždy pouze na konci forward sekv.

5´ - TCCTCCGCTTAGTGATATGC – 3´

Technické artefakty sekvenace:


PCR produkt může být v pořádku, pouze se ztratil během přípravy vzorku na sekvenaci (např. ztráta DNA při přesrážení isopropanolem)

dejte znovu sekvenovat...

vmezeřené píky (často jde o jeden typ barvy – nukleotidu); zeditovat!

?


bloby - nadbytek neinkorporovaných ddNTPs


nejasná místa blobu řeší sekvenace v reverse směru; někdy možné i zeditovat:

artefaktní píky obvykle nápadně vysoké a neostré, překryvají pravé píky bází (aac)

artefakt

zákeřné chyby vyhodnocovacího programu (?)

- před analýzou dat zkontrolovat podezřele

variabilní místa!


spike – překryje 1-2 báze, nutná reverse sekvenace(vznik nejasný - malé vzduchové bubliny v kapiláře?)



chyby polymerázy u repetitivních sekvencí (často u cpDNA)


u 2 bp a více bp mikrosatelitů:

nečitelnou část sekvence lze doplnit reverse sekvenací (jiným způsobem asi neřešitelné – tento typ chyb dělá i proof-readingová ExTaq polymeráza)

inhibice sekvenace: indikují ji např. raw data v programu Sequence Scanner; signál po celou délku runu ideálně ~1000-2000



raw signál:

náhlý pokles, abnormální signál

předčasný konec čtení:

sekvence neúplná, chybí místo reverse primeru!



nadbytek PCR produktu: spotřebování / opotřebení sekv. reagencií

raw signál:

vysoké počáteční píky, pak patrný pokles

předčasný pokles kvality a výšky píků (např. už od 300-400 bp)



málo PCR produktu: nejčastěji u slabých bandů

raw signál:

signál <100, téměř nepřevyšuje bazální šum

nízká kvalita čtení, abnormální morfologie píků, zdvojené píky

sekvence PCR produktu tvoří sekundární strukturu – smyčku

náhlý, nápadný pokles signálu:


problematické jsou patrně smyčky stabilní za elongační teploty sekvenace (65-72°C); u méně stabilních sek. struktur pomůže(?) přidání denaturačních látek (např. DMSO); ani reverse sekvenace nepokryje vlastní oblast smyčky (pouze oblast za ní)

Zákeřnější artefakty sekvenace:

začátek smyčky

http://mfold.rna.albany.edu/?q=mfold/DNA-Folding-Form


dimery primerů: horší signál na začátku, pak náhlé zlepšení:

podobné i jiné, delší nespecif. PCR produkty; řeší gelová extrakce, nebo doplňující sekvenace v reverse směru

! signál dimerů může převyšovat signál cílového PCR produktu → začátek sekvence je nesmyslný (nesedí na příbuzné sekvence) - nutné oříznout !

falešný ´dimerový´ signál

cílový signál




kontaminační píky obvykle od začátku sekvence (a často až do konce)(pozn.: výše uvedený příklad zachycuje situaci, kdy se cílový a kontaminující PCR produkt lišil délkou)

kontaminace signálem ze sekvence z necílového organismu:(ITS sekvence mechu r. Didymodon, nižší píky odpovídají kvasince - r. Yarrowia?)

Paralogy

Sekvenování DNA - paralogy

na první pohled připomínají kontaminaci sekvenace

• v genomu více rozrůzněných kopií úseku, použité primery je chytají

• typické pro multi-copy úseky: jaderná rDNA, vzácně ale i cpDNA

• vyskytují se ale i u low-copy úseků, nebo dokonce u single-copy úseků – u (diploidních) heterozygotních jedinců

mohou komplikovat analýzu a interpretaci dat:

• zásadním předpokladem je homologie posuzovaných objektů (orthology)

často neřešitelné otázky:

1) která ze 2 sekvencí taxonu B je homologická se sekvencí taxonu A?

2) co s případem, kdy při zahrnutí obou sekvencí taxonu B, dává každá jiný výsledek?

Paralogy


a) paralogy lišící se substitucemi:

při sekvenci PCR produktu se poznají podle zdvojených píků:

na rozdíl od kontaminace bývá začátek sekvence čitelný!

Paralogy


b) paralogy lišící se indely – obvykle působí nečitelnost sekvence:(indel = místo inzerce nebo delece nukleotidu)

někdy se projeví i poklesem na raw signálu (ale ne tak nápadné jako u smyčky nebo inhibice)

Paralogy


zdánlivě neproblematická sekvenace z jednoho směru ...

... reverse sekvenace jasně prokáže paralogy (a vyloučí možnost inhibice):

? možná inhibice?

Co s paralogy?

minoritní variabilitu lze v některých případech zanedbat (např. fylogeneze vyšších tax. úrovní)

• x jak velké rozdíly jsou ještě minoritní a zanedbatelné???

je nutné řešit pokud je většina sekvencí totálně nečitelná

molekuly paralogů z PCR produktu lze separovat klonováním:

• jednotlivé molekuly PCR produktu vloženy pomocí vektoru do bakterií

• předpoklad (aby to fungovalo): 1 buňka přijme pouze 1 vektor, a z 1 buňky bakterie vyroste jediná homogenní kolonie

• jednotlivé bakteriální kolonie použity pro amplifikaci nebo izolaci dané molekuly PCR produktu → sekvenace


Klonování PCR produktu:

1. Ligace molekul PCR produktu (inzertu) do vektoru (plazmidu):• zajišťuje enzym ligáza – spojuje kohezivní nebo tupé konce (ligázu

držet na ledu, skladovat v mrazáku - velmi nespolehlivá a citlivá na zvýš. teplotu!)


často nutné ligovat bandy PCR produktů vyřízlé z tzv. low-melting agarózy, nebo aspoň přidat l.-m. agarózu do ligační směsi

• inzert vkládán do β-galaktosidázového operonu, vnesením inzertu se operon vyřadí z funkce – bakterie na speciálním médiu netvoří modré zbarvení

• vektor dále nese rezistenci na antibiotikum ampicilin - selekce

PCR produkt

• snadnější je ligování kohezivních konců – PCR produkt vytvořený Taq polymerázou má na konci A-přesahy, linearizovaný vektor má komplementární T:


2. Transformace: vektor vnesen do kultury kompetentních buněk (Escherichia coli) – např. teplotním šokem (45s – 42°C), příp. elektroporací apod.


3. Výsev bakteriální kultury na médium:• médium obsahuje dané antibiotikum (ampicilin) → přežijí jen

bakterie transformované plazmidem nesoucím rezistenci

4. Colony PCR: bílé bakteriální kolonie s inzertem se přenesou párátkem do sterilní vody a použijí jako templát pro PCR → úspěšné PCR sekvenovány

• médium obsahuje substrát, které bakterie s funkčním β-galaktosidázovým operonem utilizují za vzniku modrého barviva → bakterie transformované prázdným plazmidem bez inzertu jsou modré


tím, že klonování separuje a namnoží jednotlivé molekuly PCR produktu, při jejich sekvenování se zachytí artefakty PCR (nejsou patrné na signálu přímého sekvenování, které zobrazuje většinový signál převažujících molekul)

a) chyby PCR polymerázy - v reálu obvykle:

• Taq: ~1-3 chyby / 700 bp PCR produktu

• Ex Taq: ~0-1 chyby / 700 bp PCR produktu

• (ještě lepší je Pfu polymeráza, ale někdy hůř amplifikuje)

b) PCR může generovat artefaktní hybridní molekuly (PCR hybrids,

PCR recombinants):

• polymeráza nedokončí syntézu vlákna, a to v dalším cyklu nasedne na jiné, ne zcela komplementární vlákno, a podle něj se dosyntetizuje

• používat 2x delší cyklovou elongaci, redukovat počet PCR cyklů


Využití sekvenování DNA

Co se dá sekvenovat? To, na co jsou primery...

(UTR – regulace translace a stability mRNA)

výběru úseku by mělo předcházet prohledání databáze NCBI

• např. pokud jsou dostupné sekvence z příbuzných organismů, můžeme je přímo využít pro analýzu, nebo z nich můžeme odhadnout variabilitu daného úseku

exony – kódující sekvence

• nižší variabilita, ale jednodušší určení homologie (alignování)

introny – přepisované do mRNA, vystřižené během její maturace

• vyšší variabilita, někdy problémy s určením homologie

spacery – mezerníky oddělující geny

• vyšší variabilita, někdy problémy s určením homologie

schéma genu:


Co se dá sekvenovat? To, na co jsou primery... jaderná ribozomální DNA: tisíce kopií v tandemovém uspořádání, v tzv.

NORs (nucleolar organizing regions), na jednom nebo více chromozomech

concerted evolution – molek. mechanizmy které homogenizují případnou variabilitu v kopiích

• 18S rDNA (SSU, small ribosomal subunit), 26S rDNA (LSU, large r. s.), 5.8S rDNA (součást LSU) - transkripcí vzniká rRNA, která spolu s proteiny tvoří součást ribozomů; vyšší tax. úroveň

• ITS (Internal Transcribed Spacer) – přepisované do rRNA, ale před maturací z rRNA vystřižené; druhová a nižší úroveň; často paralogy; příp. IGS, EGS

• univerzální primery nebo specifické pro urč. skupinu



jaderné single-copy a low-copy geny

• primery obvykle fungují pouze na určitou taxonomickou skupinu

• oproti multi-copy úsekům by měly mít méně problémů s paralogy, ale u low-copy úseků často paralogy jsou

• LEAFY geny – někdy komplikované duplikacemi

• zdá se, že multi-copy úseky mohou nést informaci o starších událostech (zachová se kvůli dostatečnému počtu kopií), low-copy úseky zaznamenávají spíše recentnější historii


Co se dá sekvenovat? To, na co jsou primery... cpDNA:

• ± univerzální primery pro desítky úseků

• ačkoli jsou chloroplasty v buňce ve velkém počtu, obvykle bez paralogů

• kódující oblasti – vyšší tax. úroveň

• nekódující oblasti – druhová a nižší úroveň, u krytosemenných fylogeografie, někdy méně variabilní než např. ITS

• příklady často používaných úseků:

rbcL, matK – kódující

exony, spacery a introny oblasti trnT-trnL-trnF (Taberlet et al., 1991)

Taberlet P, Gielly L, Patou G, and Bouvet J. 1991. Universal primers for amplification of three noncoding regions of chloroplast DNA. Pl. Mol. Biol. 17: 1105-1109.

Shaw J, Lickey E, Beck JT, Farmer SB, Liu W, Miller J, Siripun KC, Winder CT, Schilling EE, and Small RL. 2005. The tortoise and the hare II: relative utility of 21 noncoding chloroplast DNA sequences for phylogenetic analysis. American Journal of Botany 92: 142–166.

Shaw J, Lickey E, Schilling EE, and Small RL. 2007. Comparison of whole chloroplast genome sequences to choose noncoding regions for phylogenetic studies in angiosperms: the tortoise and the hare III. American Journal of Botany 94: 275–288.



mtDNA: • ještě méně variabilní než cpDNA (neplatí pro nahosemenné)

• ± univerzální primery, ale rel. časté ztráty/duplikace úseků

• jako zdroj dat slouží pořadí genů (taxonomie vyšších tax. jednotek, např. oddělení)

Duminil J, Pemonge MH, Petit RJ. 2002. A set of 35 consensus primer pairs amplifying genes and introns of plant mitochondrial DNA. Molecular Ecology Resources, 2:428-430.

Knoop V. 2004. The mitochondrial DNA of land plants: peculiarities in phylogenetic perspective. Curr Genet 46: 123-139.

Editace sekvencí, tvorba alignmentu v programu BioEdit

Práce s DNA sekvencemi

2. import z prohlížeče (stačí vybrat, Ctrl+C, File – Import from Clipboard)

! prvních 9 písmen názvu by mělo sekvenci jednoznačně identifikovat, používat radši jen písmena bez diakritiky, čísla a příp. ´_´

přibližně manuálně zarovnat (I, D apod.)

3. zkontrolovat a opravit případná podezřele variabilní místa (Edit mode)

oříznout sekvence primerů + neúplné částí na začátku a na konci datové matice (vybrat přísl. sloupce, Delete)

1. zeditovat danou sekvenci – opravit zjevné chyby, nerozlišené části

4. uložit: formát .fas, .bio apod.

Tvorba alignmentu (alignování)

určení homologií jednotlivých pozic sekvencí může být jednoduché u translatovaných kódujících sekvencí (nejsou

gapy = inzerce a delece) → stačí manuální alignování od oka programy hledají řešení, které má nejnižší D skóre:

D = s + wg

s – počet substitucí

g – počet gapů

w – tzv. cena gapu: cena za otevření gapu, a za jeho prodlužování

parametry ceny gapu musíme zadat → spíše intuitivně:

když máme hodně diverzifikované sekvence, u nichž se dá čekat hodně indelů, je logické použít nižší cenu gapu


Clustal W (implementován např. v programu BioEdit) (Accessory Application → ClustalW Multiple Alignment)

• relativně rychlé, vhodné např. pro orientační ´zarovnání´ alignmentu

• tzv. progresivní metoda: once gap → always gap

sofistikovanější algoritmy: MAFFT, Muscle

• iterativní přístup - programy se během procesu vrací na jednotlivé úrovně, umožňuje korigování

Tvorba alignmentu (alignování)


• vede k nekonzistencím – pro stejné sekvenční motivy u různých sekvencí různá řešení:

MAFFT alignment http://mafft.cbrc.jp/alignment/server/

naloadovat soubor sekvencí

zaslání výsledného souboru e-mailem


MAFFT alignment http://mafft.cbrc.jp/alignment/server/

ideální pro obtížně zalignovatelné sekvence nekódující sekvence, které ale tvoří funkční RNA molekuly (ncRNA) se sekundární strukturou, např. nrDNA

cena gapů


Úprava alignmentu:

po zalignování případně vyříznout příliš variabilní oblasti s nejistou homologií:


saturace mutacemi: příliš variabilní pozice → mutace se několikrát protočily → riziko homoplazií

Úprava alignmentu:

využití informace ze sekundární struktury: u DNA přepisované do RNA, která má určitou funkci závislou na sek. struktuře - např. nrDNA: SSU, LSU, ITS (zvlášť pro ITS1 a ITS2)

někdo tento přístup nepoužívá (x sek. struktury jsou modely, nemusí odpovídat realitě); často používají např. algologové

pokud je k dispozici, použít dostupný model pro danou skupinu pokud není, nutné vytvořit vlastní model:

teplota, za které je struktura stabilní; používá se průměrná teplota, při které organismus žije


1. vytvořit modely všech možných sek. struktur – program Mfoldhttp://mfold.rna.albany.edu/?q=mfold/DNA-Folding-Form

Úprava alignmentu:

• program vygeneruje obvykle několik možných modelů:


Úprava alignmentu:

loops – přesycené mutacemi, vyřadit z analýzy stems – protože interagují v sek. struktuře, nejsou jednotlivé pozice

vzájemně nezávislé, kompenzační mutace (vážení pozic alignmentu)

loop

stem

2. smyčky společné všem navrženým strukturám použít pro vytvoření hypotetického konsenzuálního modelu:


Úprava alignmentu:

ošetření oblastí gapů: (v místě indelů; pro delece symbol – nebo ~)

• použít, ale upravit tak, aby dávaly informaci o vlastní deleci – tzv. kódování gapů


• použít, ale vlastní deleci brát jako missing data (symbol ?)

výhoda: neztratí se informace o znacích sdílených sekvencemi A a B

• vyříznout (gaps were excluded from the analysis) – vhodné, když je nejistota s homologií; ideálně už v BioEditu (ale radši si uložit i původní verzi bez výřezů)

Úprava alignmentu:

kódování gapů:

a) kódovat (gaps were considered as fifth state), ale radši pouze začátek gapu: delší indel vznikl jako jedna událost → když by se zohledňovala každá pozice gapu, tak by byla jeho informace nadhodnocená

b) kódovat jako binární data 0/1 (gaps were scored as present or absent);

vlastní gapy dát jako missing data, nebo vyříznout:

nutné např. pro nestejně dlouhé gapy, které začínají na stejné pozici – ani kódování začátkem gapu není uspokojivé, spojovalo by nerovnocenné indely:

(nahrazení symbolů lze nejlépe provést pomocí hromadných záměn v Notepadu)

OK


Úprava alignmentu:

export do formátu pro fylogenet. analýzy: nejčastěji nexus (.nex)BioEdit: File → Export → Sequence Alignment → PAUP/NEXUS (*.pau, *.nex)


(nexus interleaved formát)

případně zakódovat a definovat gapy:

NCBI (National Center for Biotechnology Information)

spojuje veřejně dostupné databáze sekvencí DNA


vyhledávání podle jména taxonu příp. názvu úseku, nebo accession number

http://www.ncbi.nlm.nih.gov/

pro publikování dat je nutné sekvence submitovat do veřejně dostupné databáze (GenBank), vždy uvádět příslušná accession numbers

BLAST


algoritmus pro hledání homologických sekvencí přibližný a hrubý nástroj, nemůže nahradit fylogenetickou analýzu blast similarity nemusí znamená identitu taxonů (ovlivněno např. jak

moc je daný úsek/tax. skupina zastoupená v databázi) využití např.:

• přibližné ověření identity sekvence druhu, od kterého ještě daný úsek nebyl sekvenován → nejpodobnější by měly být sekvence daného úseku pocházející z příbuzných org.

• nebo hledání příbuzných sekvencí, které můžeme zahrnout do analýzy

BLAST


algoritmus pro hledání homologických sekvencí:

• naše sekvence (Query) → algoritmus z ní použije kratší motivy (words), prohledává jimi databázi

• pokud word nalezeno v sekvenci z databáze (Sbjct), dále v ní prohledává jeho okolí

• pokud celková podobnost úseku přesáhne určitý limit, sekvenci vybere

výsledkem je seznam potenciálně homologických sekvencí

http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_PROGRAMS=megaBlast&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome

BLAST


ovlivní kolik sekvencí bude prohledávat, ale také rychlost vyhledávání

vložíme naši analyzovanou sekvenci

BLAST


pravděpodobnost, že podobnost sekvencí je náhodná

je dobré brát v potaz:

někdy může např. Max. Ident. 95%, ale jen na krátkém úseku Query

vizualizace Query coverage

(~ jak dlouhý je homolog. úsek srovnávaných sekvencí)

Date post:	25-Jan-2016
Category:	Documents
Upload:	hamish
View:	78 times
Download:	5 times

Metody molekulární biologie v ekologii a systematice rostlin 5 . Sekvenování DNA – 1. část

Documents