Metody molekulární biologie v ekologii a systematice rostlin
12. NGS, TGS, SNP
Petr Koutecký & Jiří Košnar, 2013
Vytvořeno v rámci projektu Molekularizace biologických
oborů PřF JU
reg. č. CZ.1.07/2.2.00/15.0364
Next Generation Sequencing - úvod
Next Generation Sequencing (NGS)
High-throughput Sequencing► v jednom runu nezávisle sekvenuje tisíce až miliony molekul ► poskytuje velké množství dat za nižší cenu než klasické (např.
Sangerovo) sekvenování► obvykle odlišné biochemické principy► vyplatí se u vzorků s velkou komplexitou (složitostí) – genomy, vzorky
společenstev, nebo pro nízce abundantní molekuly► na rozdíl od Sangerova sekvenování je čitelný i úsek za sekv. primerem► 454 pyrosequencing, Illumina, SOLiD, Ion Torrent a několik dalších
nových metod
Next Generation Sequencing - úvod
Next Generation Sequencing (NGS)
High-throughput Sequencing► 2nd generation sequencing (NGS): molekula templátové DNA je
před sekvenací klonálně amplifikována (→ artefakty amplifikace!)
454, Illumina, SOLid► 3rd generation sequencing (TGS): přímo se sekvenuje se 1
molekula DNA
Helicos tSMS (True Single Molecule Sequencing)
Pacific Bioscience SMRT (Single Molecule Real Time Technology) sequencing
Oxford Nanopore Sequencing)
Next Generation Sequencing - úvod
Příprava templátu (DNA library) pro NGS sekvenaci:
získáme fragmenty DNA:
genomická DNA (enzymatická fragmentace, nebo pomocí kapalného N2)
= tzv. shotgun sequencing
PCR produkt = amplicon sequencing
fragment end repair, ligation of NGS adaptors:
obvykle u genomické DNA – na konce fragmentů připojeny adaptory se sekvencí specifickou pro danou platformu
možno i u PCR produktů – ty ale mohou být adaptorovou sekvencí vybaveny pomocí PCR s tzv. fúzními primery (= oligonukleotid se specifickou NGS sekvencí + sekvencí specifickou pro daný typ templátu)
clonal amplification: DNA fragmenty se pomocí NGS specifické sekvence vážou na specifický typ nosiče a proběhne jejich zmnožení
454 pyrosequencing
princip 454 pyrosekvenování (*1996):
► po inkorporaci dNTP se odštěpí pyrofosfát (PPi)→ ATP sulfuryláza jej přemění na ATP → luciferáza za přítomnosti ATP přemění luciferin na
oxyluciferin → záblesk(→ apyráza – degraduje neinkorp. dNTP a ATP)
► v každém cyklu na templát pouštěn jen jeden typ dNTP» např. když se přidá T a vznikne záblesk, tak na dané pozici
je opravdu T
► osa y: výška píku záblesku odráží počet inkorporovaných nukleotidů daného typu
► delší homopolymerní sekvence → hlavní zdroj chyb 454 sekvenace
(454 je více chybující než klasická sekvenace)
454 pyrosequencing
jednotlivé beads zapadnou do jamek pikotitrační destičky ...
... a jsou podrobeny cyklickému procesu pyrosekvenace
... zařízení snímá signál zvlášť pro každou dílčí jamku: v 1 jamce jen 1 bead → sekvenační signál z původně 1 fragmentu DNA (klonálně namnoženého do mnoha kopií pomocí emPCR)
454 pyrosequencing
► výstup: sekvence o délce < 1000 bp, nejčastěji max. 400-700 bp (podle typu použité sequencing chemistry); počet získaných sekvencí - podle kapacity daného typu přístroje:
► přesnost: 99% (nižší než u Sangerova sekvenování!)
◄ Roche GS FLX (17 mil. Kč):
~ 1 000 000 sekvencí / run (~ 100 tis. Kč)
◄ Roche GS Junior:
~ 50-100 000 sekvencí / run (~ 35 tis. Kč)
Illumina (Solexa)Illumina Genome Analyzer II Workflow
2. klonální ´bridge amplification´
3. detekce fluorescenčního signálu
1. příprava templátu
Illumina (Solexa)
► možnost analýzy více vzorků najednou - 8 lanes:
• 7 na vzorky (každá až s 12 multiplex. vzorky)
• 1 na kontrolní Illumina vzorek
► výstup: biliony sekvencí o délce 50-150 bp
paired end sekvenace – oboustranné čtení, tj. až 150 bp z každého konce molekuly DNA templátu (2 x 150 bp)
► přesnost: 99.9%
nosič pro bridge amplification
SOLid (Life Technologies - Applied Biosystems)
Sequencing by Oligonucleotide Ligation and Detection
► navázání adaptorů, emulzní PCR, beads navázány na glass slide
► po navázání primeru probíhá sekvenace ligací:• fluor. značené dinukleotidové sondy → pokud sonda sedí, je přiligována• po detekci ze sondy odštěpena fluor. část, opakování předchozího kroku• produkt odstraněn denaturací• další cyklus s primerem o (n-1) kratším
→ nová sekvenace vlákna
► výstup: biliony readů 50 bp
► přesnost: díky opakované sekvenaci vysoká spolehlivost čtení! – 99.99%
Ion Torrent (Life Technologies)
► emulzní PCR
► podobně jako při 454 postupně pouštěny jednotlivé typy dNTP
► velmi rychlé
► 100 tis. až miliony < 200 bp readů
► nejlevnější run (< 10 tis. Kč) i přístroj
princip Ion Torrent: navázání dNTP při prodlužování řetězce DNA vede k odštěpení H+ → detekována změna pH
homopolymerní sekvence (TT): jako u 454 – např. 2x vyšší pík
Next Generation Sequencing
Jak analyzovat víc vzorků najednou?
► předpokladem je odlišit jednotlivé sekvence = určit, kterému ze vzorků patří
a) fyzická separace jednotlivých vzorků: pomocí gasket (těsnění) u 454, nebo separace do lines u Illuminy
b) pooled samples: dílčí vzorek identifikován připojením několik bp dlouhé ´značkovací´ sekvence (barcode; index; tag; MID = Multiplex Identifier): může být součástí adaptorů ligovaných na DNA fragmenty, nebo součástí PCR primerů použitých na amplifikaci daného vz.
► vede ke snížení počtu sekvencí na 1 vzorek, ale zároveň šetří peníze
454 gaskets Illumina lanes
TGS: 3rd generation sequencing
1st generation sequencing: Sanger 1977
2nd generation sequencing: Roche 454, Illumina, SOLiD
poly-A tail
DNA polymerase cleaves the fluorescent label → light emission
DNA polymerase incorporates fluorescently labeled nucleotide → light emission
Zero Mode Waveguides – small(!) pores surrounded by metal film and silicon dioxide
A laser placed below ZMW excites only the fluorophores of the incorporated nucleotides
3rd generation sequencing: single molecule, no PCR
Helicos tSMS (True Single Molecule Sequencing) podobné Ilulmina, ale dražší (vyžaduje větší množství reagencií; 55 bp ready
Pacific Bioscience Single Molecule Real Time Technology (SMRT sequencing): ready až 2500 bp, ale jen 85% přesnost!
Srovnání NGS platforem
(Liu et al., 2012: Comparison of Next-Generation Sequencing Systems. – J Biomed Biotechnol.)
Sequencer 454 GS Junior 454 GS FLX(+) Illumina HiSeq 2000 SOLiDv4 Sanger 3730xl
Sequencing mechanism
Pyrosequencing Sequencing by synthesis
Ligation and two-base coding
Dideoxy chain termination
Read length 400-500bp 700(~1000)bp 50SE, 50PE, 101PE
50 + 35bp or50 + 50bp
400~900bp
Accuracy 99.9%* 98%, (100PE) 99.94% *raw data 99.999%
Reads 70,000~100,000 1,000,000 3x109 1.2~1.4x109 —
Output data/run 35Mb 700Mb 600Gb 120Gb 1.9~84Kb
Time/run 10 Hours 24 Hours 3~10 Days 7 Days for SE14 Days for PE
20Mins~3Hours
Advantage Read length, fast High throughput Accuracy High quality, long read length
Disadvantage Error rate with polybase more than 6, high cost, low throughput
Short read assembly
Short read assembly High cost low throughput
Aplikace NGS
Sekvenování genomů (shotgun sequencing) - teorie
► Genomika - analýza metabolických drah, studium genové regulace,... také ale i přímé aplikace pro fylogenetiku a populační studie: analýza SNP, SSR, design primerů pro fylogeneticky informativní úseky...
reference mapping – složení cílového genomu namapováním readů na známý genom příbuzného organismu (Bowtie, BWA, Geneious)
de novo assembly - složení cílového genomu bez apriorních znalostí, komputačně daleko náročnější (Velvet, Newbler, Geneious)
výstupem obou typů assembly jsou úseky genomických sekvencí - contigy; informace o vzájemném pořadí contigů – scaffoldy
repetitivní sekvence (u rostlin ca 14-75% genomu) → problémy s assembly
► Volba sekv. platformy - zejména podle velikosti zkoumaného genomu: eukaryota – Illumina (mnoho krátkých readů) + 454 (delší ready, pro assembly)
malé (prokaryotní, cp nebo mt) genomy - stačí samotné 454, nebo i malý objem dat z Illuminy
Aplikace NGS
Sekvenování genomů (shotgun sequencing) - teorie
► Coverage - kolikrát byla průměrně daná báze genomu osekvenovaná (odhadne se z velikosti genomu a objemu získaných NGS dat); Sequencing depth – kolikrát byla báze cílového genomu reálně osekvenovaná (ovlivněné přítomností kontaminant, příp. vyrovnaností vzorků v multiplexu)
► Quality Check (QC) – NGS data mají vyšší chybovost než Sangerovo sekvenování, z technických důvodů není možné editovat raw signál
datový výstup vždy obsahuje sekvence bází + kvalitu jejich čtení
např. Q > 20 – daná báze byla přečtena s 99% přesností
quality trimming podle minimální trůměrné Q value daného readu
dílčí báze s Q < threshold vyhodnocené jako N (nebo brána za trimming point)
Transkriptomika – vstupním materiálem RNA (převedená do cDNA); míra exprese genů; funkční a fyziologické studie; na úrovni společenstva např. typ převládající enzymatické aktivity
Aplikace NGS
Sekvenování genomů
► i relativně nízká sequencing coverage (0.02x na celý genom) dostačuje na získání kompletního plastidového genomu a rDNA cistronu...
► ... a stačí i pro získání sekvencí z low-copy jaderných genů, které dostačují na design primerů a prób
Straub et al. 2010. Navigating the tip of the genomic iceberg: Next-generation sequencing for plant systematics. American Journal of Botany. 99: 349–364.
- Illumina, Asclepias (Apocynaceae), testovali vliv hloubky sequencing coverage, single-end vs. paired-end design, zabývali se i vnitrogenomovou rDNA variabilitou, vlivem typu assembly apod.
Aplikace NGS
Sekvenování genomůDoorduin et al. 2011. The Complete Chloroplast Genome of 17 Individuals of Pest
Species Jacobaea vulgaris: SNPs, Microsatellites and Barcoding Markers for Population and Phylogenetic Studies. DNA Res. 18: 93–105.
- Illumina, chloroplastový genom 12 původních (Evr.) a 5 invaznich jedinců (S Amer.)
- 5 nových cp úseků vhodných pro fylogenetiku Asteraceae- 34 SSR a 32 SNP lokusů
Aplikace NGS
Sekvenování genomů
► Ancient DNA
http://mammoth.psu.edu/howToSeqMammoth.html
▲ Rowe et al. 2011. Museum genomics: low-cost and high-accuracy genetic data from historical specimens. Molecular Ecology Resources 11, 1082–1092. genom 50 let starých historických preparátů Rattus norvegicus, Illumina, porovnání – namapování na známé genomy
Amplicon sequencing
► sekvenace PCR produktu
fylogenetika a fylogeografie: ► parallel tagged sequencing – větší množství lokusů z většího
množství je sekvenováno v 1 NGS runu (šetří čas a peníze)► detekce vzácných variant u multicopy úseků (rDNA) a komplexních
genových rodin – bez nutnosti klonování
analýzy společenstev:► environmentální studie druhové skladby (molecular barcoding)► vyplatí se u komplexnějších společenstev – bez nutnosti klonování
Aplikace NGS
Griffin et al. 2012. A next-generation sequencing method for overcoming the multiple gene copy problem in polyploid phylogenetics, applied to Poa grasses. BMC Biology, 9: 19.
Amplicon sequencing – analýza společenstev
1. Izolace celkové DNA vzorku
↓
2. PCR amplifikace úseku, který slouží jako marker
(= umožňuje rozlišit taxony společenstva, primery specificky amplifikují pouze zkoumanou tax. skupinu; prokaryota – 16S, eukaryota – LSU, SSU nrDNA)
↓3. Analýza směsi molekul PCR produktu
↓
454 (příp. Illumina) sekvenování ► obrovské množství sekvencí na 1 vzorek (stovky až desítky tisíc
sekv.) → překonává všechny ostatní metody, není nutné klonování
× nutné zvolit vhodně variabilní úsek (délková limitace!), počet analyzovaných vzorků je poněkud limitovaný (nutno nadesignovat separaci vzorků – fyzickou, nebo rozlišení pomocí MIDů, a coverage = požadovaný počet readů / vz.)
Aplikace NGS
projekt BarFrost - NGS vzorků z permafrostu (rostliny, houby, bezobratlí, až 10 tis. let BP)
Hiiesalu et al. 2011. Plant species richness belowground: higher richness and new patterns revealed by next-generation sequencing. Molecular Ecology 21: 2004-2016. - Identifikace rostlinných druhů sekvenací cpDNA (trnL intron)
Aplikace NGS
Amplicon sequencing – analýza společenstev
Databáze sekvencí: identifikace MOTU (molecular operational taxonomic unit = ´molekulární druh´), typové sekvence
Ribosomal Database Project http://rdp.cme.msu.edu/
MaarjAM – arbuskulární mykorhizy http://maarjam.botany.ut.ee/
Software na analýzu dat:
Mothur – třídění vzorků podle indexů, úprava hrubých dat i vlastní analýzy
SEED – český software s implementací nejdůležitějších programů (Mothur, Mafft, Uclust aj.)
Aplikace NGS
Sequence Capture (Target Enrichment, Targeted Resequencing)
► obohacení genomové DNA o cílové sekvence před NGS sekvenováním
► ´vytažení´ cílových sekvencí např. pomocí biotinylovaných sond a streptavidinových magnetických kuliček
► Sondy můžou být ±univerzální, i pro nemodelové organismy – design do konzervativnějších, kódujících částí; vytáhnou ale i přilehlé variabilní introny
Aplikace NGS
Sequence Capture (Target Enrichment, Targeted Resequencing)
► detekce vzácných variant nebo paralogů u multicopy úseků (rDNA) a komplexních genových rodin – bez nutnosti klonování
► bez klasické PCR - odpadají problémy s artefakty (zejm. chiméry)► zatím čeká na přímou aplikaci…
Grover et al. 2012. Targeted sequence enrichment for evolutionary research. American Journal of Botany, 99:312-319.
Aplikace NGS
Hledání mikrosatelitních lokusů
► optimálním řešením je 454, protože ostatní metody dávají příliš krátké ready nedostatečné pro design primerů
► screening celého genomu, nebo možné kombinovat s vytvořením SSR-enriched library, která se následně sekvenuje
► z našich zkušeností: při použití SSR-enriched library stačí jeden run na GS Junior (454) na ca 12 různých organismů...
Lepais O, Bacles CFE 2011. Comparison of random and SSR-enriched shotgun pyrosequencing for microsatellite discovery and single multiplex PCR optimization in Acacia harpophylla F. Muell. Ex Benth. Mol. Ecol. Res. 11, 711–724. 454 pyrosekv., porovnávají frekvenci SSR získaných: sekvenaci genomu vs. obohacené knihovny = 0.5% vs. 2.2% celkového počtu sekvencí
Gardner et al. 2011. Rise of the machines – recommendations for ecologists when using next generation sequencing for microsatellite development. Mol. Ecol. Res. 11, 1093–1101. na 40 funkčních SSR lokusů je u rostlin potřeba asi 25 tis. sekvencí; pro bezobratlé asi 2x tolik sekvencí
SNP [snip] (single nucleotide polymorphism)
► Nejde o označení metody, obecně znamená přítomnost bodové mutace (substituce) v daném místě genomu
► Kodominantní, až 4 alely (ACGT), nejčastěji ale bialelické
► Pomalejší mutační rychlost než např. SSR, ale míň zatížené homoplaziemi, lze na ně dobře aplikovat mutační modely
► Počet SNP lokusů velmi vysoký (~ desítky tisíc) a skutečně v celém genomu
► Téměr ideální marker, až půjde rychle a levně sledovat velké množství SNP lokusů najednou
SNP
Využití:► Fylogeneze blízce příbuzných taxonů, populační studie,
recentní historie populací... (klasický kodominantní marker)► Genetic mapping, association mapping of quantitative
traits loci (QTL):» korelace (association) konkrétního genotypu s určitou alelou
daného SNP lokusu → vazba SNP lokusu s lokusem podmiňujícím fenotyp (linkage disequlibrium) → markery pro genetic mapping
» nebo přímo hledání SNP podmiňujících daný fenotyp:
Yang et al. 2012. Application of next-generation sequencing for rapid marker development in molecular plant breeding: a case study on anthracnose disease resistance in Lupinus angustifolius L. BMC Genomics 13: 318.
SNPMetody analýzy:► SNP array chip: hybridizace zkoumané DNA s
lokusově specifickými oligonukleotidovými sondamiimobilizovanými na povrchu chipu (sondy jsou značené→ hybridizaci zaznamenává detekční zařízení)
► PCR amplifikace (specifické primery pro daný SNP lokus!) + detekce alel – např.: » sekvenování» speciální elektroforéza (SSCP)» SNaPshot assay – primer přesně před SNP, přidání 1 značeného
ddNTP, fragmentační analýza, multiplexování SNP pomocí různé délky primerů [a jiné finty na podobném principu]
» rozdíly v Tm alel (High Resolu-tion Melting curve analysis)
► Pomocí NGS a TGS – umožníjednak objevit SNP lokusy (SNP discovery), tak i vlastní analýzu (SNP genotyping)
SNP
► Zatím hlavně u modelových / užitkových organismů a jejich nejbližších příbuzných» vyhledávání v databázích EST, celých genomů,…
► Aplikace na divoké organismy zatím více v zoologii, v botanice v začátcích
► … ale za pár let ???
SNP
SNP chipy - zoologický příklad – populační genetika
Tokarska et al. 2009, Heredity 103: 326-332
» genetická variabilita současné populace zubra a srovnání s (mnohem větší) populací amerického bizona
» BovineSNP50 BeadChip, cca 54 tis. SNP lokusů pro krávy
» úspěšná amplifikace cca 52 tis. SNP lokusů
» z nich u zubra ~900 polymorfních (→ kodominantní data!)
[polymorfní populace]
SNP
SNP chipy – botanický příklad - fylogeneze
Wang et al. 2013, New Phytol. 198: 925-937► geografický původ D genomu pšenice (AABBDD)► 10K Illumina Infinium SNP array, celkem 7185 SNP
lokusů pro genom Ae. tauschii, se známou fyzickoupozicí v genomu
► 402 jedinců z celého areálu Ae. tauschii + 121 jedinců pšenice
► STRUCTURE + NJ stromy + FST analog (program DnaSP)» krásně popisují, jak se Structure nedá spočítat
ve standardním množství opakování a museli to redukovat„…the analysis would require many months of computer time (AMD Opteron Processor 6212 × 16 CPUs, 32 Gb RAM, 7 Tb disk space)“
SNPWang et al. 2013, New Phytol. 198: 925-937
► v rámci Ae. tauschii 2 skupiny s několika podskupinami (západní - Transkavkaz + Turecko; východní - J břeh Kaspiku + střední Asie)
► genom D pšenice je jednoznačně nejblíže linii z J břehu Kaspiku► ale stopový podíl (0.8% SNP) i ze západní skupiny, v průběhu evoluce
pšenice docházelo k introgresi
jasná odlišnost Z a V skupiny
pšenice sedá blízko V skupiny, ale ne dovnitř (introgrese ze Z)
SNP
využití NGS pro SNP analýzu:
► pro detekci i simultánní analýzu SNP
► i pro nemodelové organismy, není třeba žádná apriorní znalost genomu (ale hodí se data o přibližné velikosti genomu)
RAD sequencing (Restriction-site Associated DNA sequencing):
► komplexita genomu snížena restrikčním stěpením (tvorba tzv. Reduced Representation Library, RRL)
► size selection - z fragmentů selektována frakce o určité velikosti = další redukce komplexity + získání velikostní frakce vhodné pro NGS platformu; řezáním z gelu nebo automatické separátory
► sekvenace fragmentů pomocí NGS (Illumina) a analyzovány na výskyt a detekci SNP alel
► distanční fylogenetické stromy, PCA, Structure
SNP
fylogenetika na RAD sekvencích:Eaton & Ree 2013, Syst. Biol. 62: 689-706► fylogeneze 1 sekce rodu Pedicularis, klasickým sekvenováním
nevyřešená + popis použitých statistických metod; ~ 42 tis. lokusů (desítky-malé stovky bp), ~ 62 tis. informativních pozic
využití diagnostických (druhově specifických) SNPDe Castro et al. 2013, Ann. Bot. 112: 589-602► fylogeneze amerických druhů Platanus, cpDNA sekvence + diagnostické
SNP v ITS2 a Lfy-i2 (2. intron v single copy genu Leafy)
Buggs et al. 2012, Amer. J. Bot. 99: 372-382► allopolyploidní Tragopogon, ~ 4 tis. SNP odlišujících rodičovské druhy,
jejich exprese v polyploidovi (podíl genomů rodičů, vypínání kopií,…)
EST library screeningZhou et al. 2011, Amer. J. Bot. 98: 100-102► na základě EST sekvencí (NCBI), detekovali 15 polymorfních
(bialelických) SNP lokusů u Actinidia chinensis (kiwi)
SNP
ddRAD seq modifikace:
► restrikční štěpení 2 RE, automatická size selection fragmentů na chipech elektroforetických separátorů (LabChipXT, PippinPrep)
► výběr RE a šířka size selection ´okna´ umožňuje normalizovat a kontrolovat počet získaných fragmentů → z odhadované velikosti genomu můžeme designovat tak, aby byla zajištěna minimální nutná coverage a výtěžek SNP lokusů
► multiplexování vzorků: rozlišení pomocí 12x48 oligonukleotidových indexů
Peterson et al. 2012. Double Digest RADseq: An Inexpensive Method for De Novo SNP Discovery and Genotyping in Model and Non-Model Species. PLoS One, 7(5): e37135. doi:10.1371/journal.pone.0037135.
SNP
nevýhody NGS - SNP:
► nulové alely vznikající mutací v restrikčních místech: nelze odlišit homozygoty od heterozygotů s nulovou alelou
► informace z jednotlivých SNPs, pro analýzu celého datasetu lze zatím použít jen distanční stromy (menší informační hodnota než klasické fylog. stromy s koalescenčními a mutačními modely)
→ časem se zlepší, až budou k dispozici delší NGS ready
→ nebo analyzovat jen subset SNPs pomocí lepších statist. metod
► stále relativně finančně a technicky náročné → nutná počáteční investice do enzymů a indexovaných oligonukleotidů
Kumar et al. 2012. SNP discovery through next-generation sequencing and its applications. International Journal of Plant Genomics.