Metody molekulární biologie v ekologii a systematice rostlin 12 . NGS, TGS, SNP

Metody molekulární biologie v ekologii a systematice rostlin

12. NGS, TGS, SNP

Petr Koutecký & Jiří Košnar, 2013

Vytvořeno v rámci projektu Molekularizace biologických

oborů PřF JU

reg. č. CZ.1.07/2.2.00/15.0364

Next Generation Sequencing - úvod

Next Generation Sequencing (NGS)

High-throughput Sequencing► v jednom runu nezávisle sekvenuje tisíce až miliony molekul ► poskytuje velké množství dat za nižší cenu než klasické (např.

Sangerovo) sekvenování► obvykle odlišné biochemické principy► vyplatí se u vzorků s velkou komplexitou (složitostí) – genomy, vzorky

společenstev, nebo pro nízce abundantní molekuly► na rozdíl od Sangerova sekvenování je čitelný i úsek za sekv. primerem► 454 pyrosequencing, Illumina, SOLiD, Ion Torrent a několik dalších

nových metod


Next Generation Sequencing (NGS)

High-throughput Sequencing► 2nd generation sequencing (NGS): molekula templátové DNA je

před sekvenací klonálně amplifikována (→ artefakty amplifikace!)

454, Illumina, SOLid► 3rd generation sequencing (TGS): přímo se sekvenuje se 1

molekula DNA

Helicos tSMS (True Single Molecule Sequencing)

Pacific Bioscience SMRT (Single Molecule Real Time Technology) sequencing

Oxford Nanopore Sequencing)


Příprava templátu (DNA library) pro NGS sekvenaci:

získáme fragmenty DNA:

genomická DNA (enzymatická fragmentace, nebo pomocí kapalného N2)

= tzv. shotgun sequencing

PCR produkt = amplicon sequencing

fragment end repair, ligation of NGS adaptors:

obvykle u genomické DNA – na konce fragmentů připojeny adaptory se sekvencí specifickou pro danou platformu

možno i u PCR produktů – ty ale mohou být adaptorovou sekvencí vybaveny pomocí PCR s tzv. fúzními primery (= oligonukleotid se specifickou NGS sekvencí + sekvencí specifickou pro daný typ templátu)

clonal amplification: DNA fragmenty se pomocí NGS specifické sekvence vážou na specifický typ nosiče a proběhne jejich zmnožení

454 pyrosequencing

princip 454 pyrosekvenování (*1996):

► po inkorporaci dNTP se odštěpí pyrofosfát (PPi)→ ATP sulfuryláza jej přemění na ATP → luciferáza za přítomnosti ATP přemění luciferin na

oxyluciferin → záblesk(→ apyráza – degraduje neinkorp. dNTP a ATP)

► v každém cyklu na templát pouštěn jen jeden typ dNTP» např. když se přidá T a vznikne záblesk, tak na dané pozici

je opravdu T

► osa y: výška píku záblesku odráží počet inkorporovaných nukleotidů daného typu

► delší homopolymerní sekvence → hlavní zdroj chyb 454 sekvenace

(454 je více chybující než klasická sekvenace)

454 pyrosequencing

jednotlivé beads zapadnou do jamek pikotitrační destičky ...

... a jsou podrobeny cyklickému procesu pyrosekvenace

... zařízení snímá signál zvlášť pro každou dílčí jamku: v 1 jamce jen 1 bead → sekvenační signál z původně 1 fragmentu DNA (klonálně namnoženého do mnoha kopií pomocí emPCR)

454 pyrosequencing

► výstup: sekvence o délce < 1000 bp, nejčastěji max. 400-700 bp (podle typu použité sequencing chemistry); počet získaných sekvencí - podle kapacity daného typu přístroje:

► přesnost: 99% (nižší než u Sangerova sekvenování!)

◄ Roche GS FLX (17 mil. Kč):

~ 1 000 000 sekvencí / run (~ 100 tis. Kč)

◄ Roche GS Junior:

~ 50-100 000 sekvencí / run (~ 35 tis. Kč)

Illumina (Solexa)Illumina Genome Analyzer II Workflow

2. klonální ´bridge amplification´

3. detekce fluorescenčního signálu

1. příprava templátu

Illumina (Solexa)

► možnost analýzy více vzorků najednou - 8 lanes:

• 7 na vzorky (každá až s 12 multiplex. vzorky)

• 1 na kontrolní Illumina vzorek

► výstup: biliony sekvencí o délce 50-150 bp

paired end sekvenace – oboustranné čtení, tj. až 150 bp z každého konce molekuly DNA templátu (2 x 150 bp)

► přesnost: 99.9%

nosič pro bridge amplification

SOLid (Life Technologies - Applied Biosystems)

Sequencing by Oligonucleotide Ligation and Detection

► navázání adaptorů, emulzní PCR, beads navázány na glass slide

► po navázání primeru probíhá sekvenace ligací:• fluor. značené dinukleotidové sondy → pokud sonda sedí, je přiligována• po detekci ze sondy odštěpena fluor. část, opakování předchozího kroku• produkt odstraněn denaturací• další cyklus s primerem o (n-1) kratším

→ nová sekvenace vlákna

► výstup: biliony readů 50 bp

► přesnost: díky opakované sekvenaci vysoká spolehlivost čtení! – 99.99%

Ion Torrent (Life Technologies)

► emulzní PCR

► podobně jako při 454 postupně pouštěny jednotlivé typy dNTP

► velmi rychlé

► 100 tis. až miliony < 200 bp readů

► nejlevnější run (< 10 tis. Kč) i přístroj

princip Ion Torrent: navázání dNTP při prodlužování řetězce DNA vede k odštěpení H+ → detekována změna pH

homopolymerní sekvence (TT): jako u 454 – např. 2x vyšší pík

Next Generation Sequencing

Jak analyzovat víc vzorků najednou?

► předpokladem je odlišit jednotlivé sekvence = určit, kterému ze vzorků patří

a) fyzická separace jednotlivých vzorků: pomocí gasket (těsnění) u 454, nebo separace do lines u Illuminy

b) pooled samples: dílčí vzorek identifikován připojením několik bp dlouhé ´značkovací´ sekvence (barcode; index; tag; MID = Multiplex Identifier): může být součástí adaptorů ligovaných na DNA fragmenty, nebo součástí PCR primerů použitých na amplifikaci daného vz.

► vede ke snížení počtu sekvencí na 1 vzorek, ale zároveň šetří peníze

454 gaskets Illumina lanes

TGS: 3rd generation sequencing

1st generation sequencing: Sanger 1977

2nd generation sequencing: Roche 454, Illumina, SOLiD

poly-A tail

DNA polymerase cleaves the fluorescent label → light emission

DNA polymerase incorporates fluorescently labeled nucleotide → light emission

Zero Mode Waveguides – small(!) pores surrounded by metal film and silicon dioxide

A laser placed below ZMW excites only the fluorophores of the incorporated nucleotides

3rd generation sequencing: single molecule, no PCR

Helicos tSMS (True Single Molecule Sequencing) podobné Ilulmina, ale dražší (vyžaduje větší množství reagencií; 55 bp ready

Pacific Bioscience Single Molecule Real Time Technology (SMRT sequencing): ready až 2500 bp, ale jen 85% přesnost!

Srovnání NGS platforem

(Liu et al., 2012: Comparison of Next-Generation Sequencing Systems. – J Biomed Biotechnol.)

Sequencer 454 GS Junior 454 GS FLX(+) Illumina HiSeq 2000 SOLiDv4 Sanger 3730xl

Sequencing mechanism

Pyrosequencing Sequencing by synthesis

Ligation and two-base coding

Dideoxy chain termination

Read length 400-500bp 700(~1000)bp 50SE, 50PE, 101PE

50 + 35bp or50 + 50bp

400~900bp

Accuracy 99.9%* 98%, (100PE) 99.94% *raw data 99.999%

Reads 70,000~100,000 1,000,000 3x109 1.2~1.4x109 —

Output data/run 35Mb 700Mb 600Gb 120Gb 1.9~84Kb

Time/run 10 Hours 24 Hours 3~10 Days 7 Days for SE14 Days for PE

20Mins~3Hours

Advantage Read length, fast High throughput Accuracy High quality, long read length

Disadvantage Error rate with polybase more than 6, high cost, low throughput

Short read assembly

Short read assembly High cost low throughput

Aplikace NGS

Sekvenování genomů (shotgun sequencing) - teorie

► Genomika - analýza metabolických drah, studium genové regulace,... také ale i přímé aplikace pro fylogenetiku a populační studie: analýza SNP, SSR, design primerů pro fylogeneticky informativní úseky...

reference mapping – složení cílového genomu namapováním readů na známý genom příbuzného organismu (Bowtie, BWA, Geneious)

de novo assembly - složení cílového genomu bez apriorních znalostí, komputačně daleko náročnější (Velvet, Newbler, Geneious)

výstupem obou typů assembly jsou úseky genomických sekvencí - contigy; informace o vzájemném pořadí contigů – scaffoldy

repetitivní sekvence (u rostlin ca 14-75% genomu) → problémy s assembly

► Volba sekv. platformy - zejména podle velikosti zkoumaného genomu: eukaryota – Illumina (mnoho krátkých readů) + 454 (delší ready, pro assembly)

malé (prokaryotní, cp nebo mt) genomy - stačí samotné 454, nebo i malý objem dat z Illuminy

Aplikace NGS

Sekvenování genomů (shotgun sequencing) - teorie

► Coverage - kolikrát byla průměrně daná báze genomu osekvenovaná (odhadne se z velikosti genomu a objemu získaných NGS dat); Sequencing depth – kolikrát byla báze cílového genomu reálně osekvenovaná (ovlivněné přítomností kontaminant, příp. vyrovnaností vzorků v multiplexu)

► Quality Check (QC) – NGS data mají vyšší chybovost než Sangerovo sekvenování, z technických důvodů není možné editovat raw signál

datový výstup vždy obsahuje sekvence bází + kvalitu jejich čtení

např. Q > 20 – daná báze byla přečtena s 99% přesností

quality trimming podle minimální trůměrné Q value daného readu

dílčí báze s Q < threshold vyhodnocené jako N (nebo brána za trimming point)

Transkriptomika – vstupním materiálem RNA (převedená do cDNA); míra exprese genů; funkční a fyziologické studie; na úrovni společenstva např. typ převládající enzymatické aktivity

Aplikace NGS

Sekvenování genomů

► i relativně nízká sequencing coverage (0.02x na celý genom) dostačuje na získání kompletního plastidového genomu a rDNA cistronu...

► ... a stačí i pro získání sekvencí z low-copy jaderných genů, které dostačují na design primerů a prób

Straub et al. 2010. Navigating the tip of the genomic iceberg: Next-generation sequencing for plant systematics. American Journal of Botany. 99: 349–364.

- Illumina, Asclepias (Apocynaceae), testovali vliv hloubky sequencing coverage, single-end vs. paired-end design, zabývali se i vnitrogenomovou rDNA variabilitou, vlivem typu assembly apod.

Aplikace NGS

Sekvenování genomůDoorduin et al. 2011. The Complete Chloroplast Genome of 17 Individuals of Pest

Species Jacobaea vulgaris: SNPs, Microsatellites and Barcoding Markers for Population and Phylogenetic Studies. DNA Res. 18: 93–105.

- Illumina, chloroplastový genom 12 původních (Evr.) a 5 invaznich jedinců (S Amer.)

- 5 nových cp úseků vhodných pro fylogenetiku Asteraceae- 34 SSR a 32 SNP lokusů

Aplikace NGS

Sekvenování genomů

► Ancient DNA

http://mammoth.psu.edu/howToSeqMammoth.html

▲ Rowe et al. 2011. Museum genomics: low-cost and high-accuracy genetic data from historical specimens. Molecular Ecology Resources 11, 1082–1092. genom 50 let starých historických preparátů Rattus norvegicus, Illumina, porovnání – namapování na známé genomy

Amplicon sequencing

► sekvenace PCR produktu

fylogenetika a fylogeografie: ► parallel tagged sequencing – větší množství lokusů z většího

množství je sekvenováno v 1 NGS runu (šetří čas a peníze)► detekce vzácných variant u multicopy úseků (rDNA) a komplexních

genových rodin – bez nutnosti klonování

analýzy společenstev:► environmentální studie druhové skladby (molecular barcoding)► vyplatí se u komplexnějších společenstev – bez nutnosti klonování

Aplikace NGS

Griffin et al. 2012. A next-generation sequencing method for overcoming the multiple gene copy problem in polyploid phylogenetics, applied to Poa grasses. BMC Biology, 9: 19.

Amplicon sequencing – analýza společenstev

1. Izolace celkové DNA vzorku

↓

2. PCR amplifikace úseku, který slouží jako marker

(= umožňuje rozlišit taxony společenstva, primery specificky amplifikují pouze zkoumanou tax. skupinu; prokaryota – 16S, eukaryota – LSU, SSU nrDNA)

↓3. Analýza směsi molekul PCR produktu

↓

454 (příp. Illumina) sekvenování ► obrovské množství sekvencí na 1 vzorek (stovky až desítky tisíc

sekv.) → překonává všechny ostatní metody, není nutné klonování

× nutné zvolit vhodně variabilní úsek (délková limitace!), počet analyzovaných vzorků je poněkud limitovaný (nutno nadesignovat separaci vzorků – fyzickou, nebo rozlišení pomocí MIDů, a coverage = požadovaný počet readů / vz.)

Aplikace NGS

projekt BarFrost - NGS vzorků z permafrostu (rostliny, houby, bezobratlí, až 10 tis. let BP)

Hiiesalu et al. 2011. Plant species richness belowground: higher richness and new patterns revealed by next-generation sequencing. Molecular Ecology 21: 2004-2016. - Identifikace rostlinných druhů sekvenací cpDNA (trnL intron)

Aplikace NGS

Amplicon sequencing – analýza společenstev

Databáze sekvencí: identifikace MOTU (molecular operational taxonomic unit = ´molekulární druh´), typové sekvence

Ribosomal Database Project http://rdp.cme.msu.edu/

MaarjAM – arbuskulární mykorhizy http://maarjam.botany.ut.ee/

Software na analýzu dat:

Mothur – třídění vzorků podle indexů, úprava hrubých dat i vlastní analýzy

SEED – český software s implementací nejdůležitějších programů (Mothur, Mafft, Uclust aj.)

Aplikace NGS

Sequence Capture (Target Enrichment, Targeted Resequencing)

► obohacení genomové DNA o cílové sekvence před NGS sekvenováním

► ´vytažení´ cílových sekvencí např. pomocí biotinylovaných sond a streptavidinových magnetických kuliček

► Sondy můžou být ±univerzální, i pro nemodelové organismy – design do konzervativnějších, kódujících částí; vytáhnou ale i přilehlé variabilní introny

Aplikace NGS

Sequence Capture (Target Enrichment, Targeted Resequencing)

► detekce vzácných variant nebo paralogů u multicopy úseků (rDNA) a komplexních genových rodin – bez nutnosti klonování

► bez klasické PCR - odpadají problémy s artefakty (zejm. chiméry)► zatím čeká na přímou aplikaci…

Grover et al. 2012. Targeted sequence enrichment for evolutionary research. American Journal of Botany, 99:312-319.

Aplikace NGS

Hledání mikrosatelitních lokusů

► optimálním řešením je 454, protože ostatní metody dávají příliš krátké ready nedostatečné pro design primerů

► screening celého genomu, nebo možné kombinovat s vytvořením SSR-enriched library, která se následně sekvenuje

► z našich zkušeností: při použití SSR-enriched library stačí jeden run na GS Junior (454) na ca 12 různých organismů...

Lepais O, Bacles CFE 2011. Comparison of random and SSR-enriched shotgun pyrosequencing for microsatellite discovery and single multiplex PCR optimization in Acacia harpophylla F. Muell. Ex Benth. Mol. Ecol. Res. 11, 711–724. 454 pyrosekv., porovnávají frekvenci SSR získaných: sekvenaci genomu vs. obohacené knihovny = 0.5% vs. 2.2% celkového počtu sekvencí

Gardner et al. 2011. Rise of the machines – recommendations for ecologists when using next generation sequencing for microsatellite development. Mol. Ecol. Res. 11, 1093–1101. na 40 funkčních SSR lokusů je u rostlin potřeba asi 25 tis. sekvencí; pro bezobratlé asi 2x tolik sekvencí

SNP [snip] (single nucleotide polymorphism)

► Nejde o označení metody, obecně znamená přítomnost bodové mutace (substituce) v daném místě genomu

► Kodominantní, až 4 alely (ACGT), nejčastěji ale bialelické

► Pomalejší mutační rychlost než např. SSR, ale míň zatížené homoplaziemi, lze na ně dobře aplikovat mutační modely

► Počet SNP lokusů velmi vysoký (~ desítky tisíc) a skutečně v celém genomu

► Téměr ideální marker, až půjde rychle a levně sledovat velké množství SNP lokusů najednou

SNP

Využití:► Fylogeneze blízce příbuzných taxonů, populační studie,

recentní historie populací... (klasický kodominantní marker)► Genetic mapping, association mapping of quantitative

traits loci (QTL):» korelace (association) konkrétního genotypu s určitou alelou

daného SNP lokusu → vazba SNP lokusu s lokusem podmiňujícím fenotyp (linkage disequlibrium) → markery pro genetic mapping

» nebo přímo hledání SNP podmiňujících daný fenotyp:

Yang et al. 2012. Application of next-generation sequencing for rapid marker development in molecular plant breeding: a case study on anthracnose disease resistance in Lupinus angustifolius L. BMC Genomics 13: 318.

SNPMetody analýzy:► SNP array chip: hybridizace zkoumané DNA s

lokusově specifickými oligonukleotidovými sondamiimobilizovanými na povrchu chipu (sondy jsou značené→ hybridizaci zaznamenává detekční zařízení)

► PCR amplifikace (specifické primery pro daný SNP lokus!) + detekce alel – např.: » sekvenování» speciální elektroforéza (SSCP)» SNaPshot assay – primer přesně před SNP, přidání 1 značeného

ddNTP, fragmentační analýza, multiplexování SNP pomocí různé délky primerů [a jiné finty na podobném principu]

» rozdíly v Tm alel (High Resolu-tion Melting curve analysis)

► Pomocí NGS a TGS – umožníjednak objevit SNP lokusy (SNP discovery), tak i vlastní analýzu (SNP genotyping)

SNP

► Zatím hlavně u modelových / užitkových organismů a jejich nejbližších příbuzných» vyhledávání v databázích EST, celých genomů,…

► Aplikace na divoké organismy zatím více v zoologii, v botanice v začátcích

► … ale za pár let ???

SNP

SNP chipy - zoologický příklad – populační genetika

Tokarska et al. 2009, Heredity 103: 326-332

» genetická variabilita současné populace zubra a srovnání s (mnohem větší) populací amerického bizona

» BovineSNP50 BeadChip, cca 54 tis. SNP lokusů pro krávy

» úspěšná amplifikace cca 52 tis. SNP lokusů

» z nich u zubra ~900 polymorfních (→ kodominantní data!)

[polymorfní populace]

SNP

SNP chipy – botanický příklad - fylogeneze

Wang et al. 2013, New Phytol. 198: 925-937► geografický původ D genomu pšenice (AABBDD)► 10K Illumina Infinium SNP array, celkem 7185 SNP

lokusů pro genom Ae. tauschii, se známou fyzickoupozicí v genomu

► 402 jedinců z celého areálu Ae. tauschii + 121 jedinců pšenice

► STRUCTURE + NJ stromy + FST analog (program DnaSP)» krásně popisují, jak se Structure nedá spočítat

ve standardním množství opakování a museli to redukovat„…the analysis would require many months of computer time (AMD Opteron Processor 6212 × 16 CPUs, 32 Gb RAM, 7 Tb disk space)“

SNPWang et al. 2013, New Phytol. 198: 925-937

► v rámci Ae. tauschii 2 skupiny s několika podskupinami (západní - Transkavkaz + Turecko; východní - J břeh Kaspiku + střední Asie)

► genom D pšenice je jednoznačně nejblíže linii z J břehu Kaspiku► ale stopový podíl (0.8% SNP) i ze západní skupiny, v průběhu evoluce

pšenice docházelo k introgresi

jasná odlišnost Z a V skupiny

pšenice sedá blízko V skupiny, ale ne dovnitř (introgrese ze Z)

SNP

využití NGS pro SNP analýzu:

► pro detekci i simultánní analýzu SNP

► i pro nemodelové organismy, není třeba žádná apriorní znalost genomu (ale hodí se data o přibližné velikosti genomu)

RAD sequencing (Restriction-site Associated DNA sequencing):

► komplexita genomu snížena restrikčním stěpením (tvorba tzv. Reduced Representation Library, RRL)

► size selection - z fragmentů selektována frakce o určité velikosti = další redukce komplexity + získání velikostní frakce vhodné pro NGS platformu; řezáním z gelu nebo automatické separátory

► sekvenace fragmentů pomocí NGS (Illumina) a analyzovány na výskyt a detekci SNP alel

► distanční fylogenetické stromy, PCA, Structure

SNP

fylogenetika na RAD sekvencích:Eaton & Ree 2013, Syst. Biol. 62: 689-706► fylogeneze 1 sekce rodu Pedicularis, klasickým sekvenováním

nevyřešená + popis použitých statistických metod; ~ 42 tis. lokusů (desítky-malé stovky bp), ~ 62 tis. informativních pozic

využití diagnostických (druhově specifických) SNPDe Castro et al. 2013, Ann. Bot. 112: 589-602► fylogeneze amerických druhů Platanus, cpDNA sekvence + diagnostické

SNP v ITS2 a Lfy-i2 (2. intron v single copy genu Leafy)

Buggs et al. 2012, Amer. J. Bot. 99: 372-382► allopolyploidní Tragopogon, ~ 4 tis. SNP odlišujících rodičovské druhy,

jejich exprese v polyploidovi (podíl genomů rodičů, vypínání kopií,…)

EST library screeningZhou et al. 2011, Amer. J. Bot. 98: 100-102► na základě EST sekvencí (NCBI), detekovali 15 polymorfních

(bialelických) SNP lokusů u Actinidia chinensis (kiwi)

SNP

ddRAD seq modifikace:

► restrikční štěpení 2 RE, automatická size selection fragmentů na chipech elektroforetických separátorů (LabChipXT, PippinPrep)

► výběr RE a šířka size selection ´okna´ umožňuje normalizovat a kontrolovat počet získaných fragmentů → z odhadované velikosti genomu můžeme designovat tak, aby byla zajištěna minimální nutná coverage a výtěžek SNP lokusů

► multiplexování vzorků: rozlišení pomocí 12x48 oligonukleotidových indexů

Peterson et al. 2012. Double Digest RADseq: An Inexpensive Method for De Novo SNP Discovery and Genotyping in Model and Non-Model Species. PLoS One, 7(5): e37135. doi:10.1371/journal.pone.0037135.

SNP

nevýhody NGS - SNP:

► nulové alely vznikající mutací v restrikčních místech: nelze odlišit homozygoty od heterozygotů s nulovou alelou

► informace z jednotlivých SNPs, pro analýzu celého datasetu lze zatím použít jen distanční stromy (menší informační hodnota než klasické fylog. stromy s koalescenčními a mutačními modely)

→ časem se zlepší, až budou k dispozici delší NGS ready

→ nebo analyzovat jen subset SNPs pomocí lepších statist. metod

► stále relativně finančně a technicky náročné → nutná počáteční investice do enzymů a indexovaných oligonukleotidů

Kumar et al. 2012. SNP discovery through next-generation sequencing and its applications. International Journal of Plant Genomics.

Date post:	07-Jan-2016
Category:	Documents
Upload:	rangle
View:	46 times
Download:	0 times

Metody molekulární biologie v ekologii a systematice rostlin 12 . NGS, TGS, SNP

Documents