1
SekvenovSekvenováánníí genomgenomůů
HumanHuman GenomeGenome Project: Project:
historie, výsledky a dhistorie, výsledky a důůsledkysledky
MUDr. Jan PlMUDr. Jan Pláátenteníík, PhD.k, PhD.
(Prosinec 2014)
PoPoččáátkytky sekvenovsekvenováánníí•• 1965: 1965: ppřřeeččtenatena sekvencesekvence tRNAtRNA kvasinkykvasinky
(80 (80 bpbp))
•• 1977: 1977: vynalezenvynalezenyy SangerovaSangerova a a MaxamMaxam & & GilbertovaGilbertova metodametoda sekvenovsekvenováánníí
•• 1981: 1981: sekvencesekvence lidsklidskéé mitochondrimitochondriáálnlnííDNA (16,5 DNA (16,5 kbpkbp))
•• 1983: sekvence bakteriof1983: sekvence bakteriofáága T7 (40 ga T7 (40 kbpkbp))
•• 1984: Virus 1984: Virus EpsteinaEpsteina a a BarrovBarrovéé (170 (170 kbpkbp))
2
Homo sapiensHomo sapiens•• 19851985--1990: 1990: diskusediskuse o o sekvenovsekvenováánníí
lidsklidskééhoho genomugenomu–– ““nebezpenebezpeččnnéé”” -- ““nesmyslnnesmyslnéé”” -- ““nemonemožžnnéé””
•• 19881988--1990: 1990: ZaloZaložženen HUMAN GENOME HUMAN GENOME PROJECTPROJECT•• MezinMezináárodnrodníí spoluprspolupráácece:: HUGO (Human HUGO (Human
Genome Organisation)Genome Organisation)•• CCíílele::
–– genetickgenetickáá mapamapa lidsklidskééhoho genomugenomu–– fyzickfyzickáá mapamapa: marker : marker kakažždýchdých 100 100 kbpkbp–– sekvenovsekvenováánníí modelovýchmodelových organismorganismůů (E. coli, S. (E. coli, S.
cerevisiaecerevisiae, C. , C. eleganselegans, Drosophila, , Drosophila, mymyšš))–– objevitobjevit vvššechnyechny lidsklidskéé genygeny ((ppřředpokledpokl. 60. 60--80 80 tistisíícc))–– sekvenovsekvenováánníí celcelééhoho lidsklidskééhoho genomu (4000 genomu (4000 MbpMbp) do ) do
r. 2005r. 2005
DalDalšíší genomygenomy
•• ččervenecervenec 19951995: : HaemophilusHaemophilus influenzaeinfluenzae(1,8 (1,8 MbpMbp)) ... ... PrvnPrvníí genomgenom neznezáávislevisle žžijijííccííhoho organismuorganismu
•• řřííjenjen 1996:1996: SaccharomycesSaccharomyces cerevisiaecerevisiae(12 (12 MbpMbp)) ... ... PrvnPrvníí EukaryotaEukaryota
•• prosinecprosinec 1998: 1998: CaenorhabditisCaenorhabditis eleganselegans(100 (100 MbpMbp)) ... ... PrvnPrvníí MetazoaMetazoa
3
kvkvěětenten 1998:1998:•• Craig VenterCraig Venter zaklzaklááddáá soukromousoukromou
biotechnologickoubiotechnologickou spolespoleččnostnost CELERA CELERA GENOMICS, Inc.GENOMICS, Inc. a a vyhlavyhlaššujeuje zzáámměěrrsekvenovatsekvenovat celýcelý lidskýlidský genomgenom zaza 3 3 rokyroky a a 300 mil. USD 300 mil. USD metodoumetodou wholewhole--genome genome
shotgunshotgun
•• V V ttéé dobdoběě výsledekvýsledek prpráácece HGP: HGP: sekvenovsekvenováánono cca 4 % cca 4 % lidsklidskééhoho genomu. genomu.
bbřřezenezen 2000:2000:
•• Celera Genomics Celera Genomics & & akadakademiemiččttííspolupracovnspolupracovníícici publikujpublikujíí draft genomu draft genomu DrosophilaDrosophila melanogastermelanogaster (cca 2/3 z 180 (cca 2/3 z 180 MbpMbp))
•• ... ... wholewhole--genomegenome shotgunshotgun lze poulze použžíít i pro velkt i pro velkéégenomygenomy
•• ... ... Lidský ... ... Lidský genomgenom: z: záávod mezi vod mezi HumanHumanGenomeGenome Project a Celera Project a Celera GenomicsGenomics
4
International Human Genome Sequencing International Human Genome Sequencing Consortium (Human Genome Project, HGP)Consortium (Human Genome Project, HGP)
•• OtevOtevřřenoeno spoluprspolupráácici z z kakažžddéé zemzeměě nanasvsvěěttěě
•• 20 20 laboratolaboratořříí z USA, z USA, VelkVelkéé BritBritáánienie, , JaponskaJaponska, , FrancieFrancie, , NNěěmeckamecka a a ČČíínyny
•• AsiAsi 2800 2800 lidlidíí, , vedoucvedoucíí: Francis Collins, : Francis Collins, NIHNIH
•• FinancovFinancováánníí z z veveřřejnýchejných zdrojzdrojůů (celkov(celkovéénnááklady 3 miliardy USD)klady 3 miliardy USD)
•• MetodaMetoda: : cloneclone--byby--cloneclone
•• VýsledkyVýsledky: : „„BermudskBermudskáá pravidlapravidla““ ……kakažžddáásekvencesekvence do 24 do 24 hodinhodin nana Internet, Internet, ppřříístupstupzdarmazdarma, , ststáálláá aktualizaceaktualizace. .
CloneClone--byby--cloneclonegenomovgenomováá DNADNA
fragmentyfragmenty cca 150 000 cca 150 000 bpbp
klonovklonováánníí v BAC (v BAC (bacterial artificial chromosomebacterial artificial chromosome))
ururččeneníí pozicepozice klonklonůů v genomu v genomu nana zzáákladkladěě fyzickfyzickééhoho mapovmapováánníí(STS (STS -- sequence tagged sitesequence tagged site, , fingerprintfingerprint -- ššttěěpenpeníí restriktrestriktáázamizami))
digescedigesce kakažžddééhoho klonuklonu nana krkráátktkéé fragmentyfragmenty cca 500 cca 500 bpbp
sekvenovsekvenováánníí
sestavensestaveníí celceléé sekvencesekvence kakažžddééhoho klonuklonu pomocpomocíí popoččíítataččee
5
Celera Genomics, Inc.Celera Genomics, Inc.•• SoukromSoukromáá biotechnologickbiotechnologickáá spolespoleččnostnost, ,
Rockville, Maryland, USA. Rockville, Maryland, USA. PrezidentPrezident Craig Craig Venter.Venter.
•• InvesticeInvestice do do automatizaceautomatizace a a popoččíítataččovovééhohozpracovzpracováánníí datdat, , ppáárr desdesíítektek zamzaměěstnancstnancůů
•• MetodaMetoda: : wholewhole--genome shotgungenome shotgun + ale + ale taktakéé vyuvyužžititíí zvezveřřejnejněěnýchných datdat z HGP.z HGP.
•• VýsledkyVýsledky: : hrubhrubáá data data zpzpřříístupnstupněěnana nanawww www strstráánknkááchch firmyfirmy, , daldalšíší aktualizaceaktualizace a a anotaceanotace ale ale výluvýluččnněě pro pro komerkomerččnníí úúččelyely. .
WholeWhole--genome shotgungenome shotgun
genomovgenomováá DNADNA
fragmentyfragmenty 2, 10, 50 2, 10, 50 kbpkbp
klonovklonováánníí v v plasmidechplasmidech E.coliE.coli
sekvenovsekvenováánníí
sofistikovansofistikovanéé popoččíítataččovovéé metodymetody k k sestavensestaveníí celceléé sekvencesekvence
6
ÚÚnor 2001:nor 2001:
•• International Human Genome International Human Genome Sequencing Consortium Sequencing Consortium publikujepublikujedraft draft lidsklidskééhoho genomu v genomu v ččasopisasopisuuNature 15.2.2001.Nature 15.2.2001.•• Draft: 90 % Draft: 90 % euchromatinueuchromatinu (2,95 (2,95 GbpGbp, , celýcelý
genomgenom 3,2 3,2 GbpGbp). 25 % ). 25 % definitivndefinitivníí. .
•• Celera Genomics, Inc. Celera Genomics, Inc. publikujepublikuje svousvousekvencisekvenci lidsklidskééhoho genomu v genomu v ččasopisuasopisu Science 16.2.2001.Science 16.2.2001.
•• SSekvenceekvence euchromatinueuchromatinu (2,91 (2,91 GbpGbp))
PokrokPokrok v v sekvenovsekvenováánníí
1985: 500 1985: 500 bpbp //laboratolaboratořř a dena den
SSttáálele SangerovaSangerova dideoxynukleotidovdideoxynukleotidováámetodametoda, ale, ale
-- mmíístosto gelugelu kapilkapiláárnrníí elektroforesaelektroforesa
-- mmíístosto radioaktivityradioaktivity fluorescencefluorescence
-- úúplnplnáá automatizaceautomatizace a a robotizacerobotizace
-- computer powercomputer power
2000: 175 000 2000: 175 000 bpbp /den (Celera)/den (Celera)
1000 1000 bpbp/sec. (HGP)/sec. (HGP)
7
SekvenovSekvenováánníí genomgenomůů pokrapokraččujeuje......•• LidskýLidský genomgenom nynnyníí:: DefinitivnDefinitivníí verzeverze
publikovpublikováána na 14.4. 2003 14.4. 2003 ……50 let 50 let odod objevuobjevu DNA DNA double helix.double helix.
•• FuguFugu rubripesrubripes:: draft genomu v draft genomu v srpnusrpnu 20022002•• MyMyšš::
•• Celera Genomics: draft v Celera Genomics: draft v ččervnu 2001ervnu 2001•• Mouse Genome Mouse Genome SequencingSequencing ConsortiumConsortium: : NatureNature, ,
prosinec 2002 prosinec 2002 •• LaboratornLaboratorníí potkanpotkan:: draft v draft v bbřřeznueznu 20042004•• ŠŠimpanz:impanz: zzáářříí 20052005
•• …… a mnoho da mnoho dalalšíšíchch genomgenomůů:: malmaláárierie((ppůůvodcevodce Plasmodium Plasmodium falciparumfalciparum a a ppřřenaenaššeeččAnopheles Anopheles gambiaegambiae), ), zebrafishzebrafish, , rýrýžžee, , pespes, , krkráávava, , ovceovce, , praseprase, , kukuřřee, , vvččelaela, mamut, mamut ad.ad.
VeVeřřejnejněě ppřříístupnstupnéé databdatabááze ze DNA/RNA sekvencDNA/RNA sekvencíí
• GenBank, National Center for Biotechnology Information (NCBI), Bethesda, Maryland, USA
• EMBL-Bank, EMBL's European Bioinformatics Institute, Hinxton, UK
• DNA Data Bank of Japan, National Institute of Genetics, Mishima, Japan
22.8.2005 obsah všech tří databází překročil100 000 000 000 párů basí (100 Gb) ... z genů/genomů 165 000 různýchorganismů
8
VýzkumVýzkum v v ““postgenomovpostgenomovéé”” ééřřee•• NovNovéé ppřříístupystupy keke studiustudiu gengenůů a a proteinproteinůů::
•• GENOMIKA GENOMIKA ...... analýzaanalýza celcelééhoho genomu a genomu a jehojeho
expreseexprese
•• PROTEOMIKA PROTEOMIKA ...... analýzaanalýza celcelééhoho proteomuproteomu, , tjtj. .
vvššechech proteinproteinůů tktkáánněě nebonebo organismuorganismu
•• BIOINFORMATIKA BIOINFORMATIKA ...... zpracovzpracováánníí, , analýzaanalýza a a
interpretaceinterpretace velkýchvelkých souborsouborůů datdat (NK a AMK (NK a AMK
sekvencsekvencíí, gene arrays, 3D , gene arrays, 3D strukturystruktury proteinproteinůů atdatd. .
ExperimentyExperimenty in in silicosilico
•• Rychlý vývoj nových technologiRychlý vývoj nových technologiíí::•• PPřř.. DNA DNA MicroarrayMicroarray –– momožžnost studovat expresi nost studovat expresi
tistisííccůů gengenůů najednounajednou
DNA Microarray (DNA Microarray (““ DNA chipDNA chip””))
9
Single Nucleotide Polymorphism (SNP)Single Nucleotide Polymorphism (SNP)
SNP se vyskytuje cca 1x na 1000 SNP se vyskytuje cca 1x na 1000 bpbp v v
sekvencsekvencíích ch dvoudvou nepnepřřííbuzných buzných lidskýchlidských
bytostbytostíí (0,1 % genomu)(0,1 % genomu)
Asi 10 miliAsi 10 milióónnůů SNP s výskytem SNP s výskytem >1%>1%
KKóódujdujííccíí/nek/nekóódujdujííccíí
Strukturu proteinu mStrukturu proteinu měěnníí/nem/neměěnníí
A G A G T T C T G C T C G
A G G G T T C T G C G CG
International International HapMapHapMap ProjectProject•• DalDalšíší mezinmezináárodnrodníí spoluprspoluprááce 2002ce 2002--20092009•• SekvenovSekvenováánníí DNA od 270 lidDNA od 270 lidíí ze ze ččtytyřř
rrůůzných populaczných populacíí (USA, Nigerie, (USA, Nigerie, Japonsko, Japonsko, ČČíína)na)
•• S cS cíílem najlem najíítt•• VVššechny významnechny významnéé lidsklidskéé SNP (asi 10 000 SNP (asi 10 000 000000))•• Jejich stabilnJejich stabilníí kombinace (kombinace (haplotypyhaplotypy))•• Jeden Jeden „„tagtag SNPSNP““ typický pro katypický pro kažždý dý haplotyphaplotyp
•• Data veData veřřejnejněě ppřříístupnstupnáá k dalk dalšíšímu výzkumu mu výzkumu a vyua využžititíí
10
LidskLidskáá genetickgenetickáá variavariabilitabilita•• Dva nepDva nepřřííbuznbuzníí lidlidéé majmajíí 9999,,5% 5% genomu genomu identickidentickéé•• Single Nucleotide Polymorphism: 0Single Nucleotide Polymorphism: 0,,1%1%•• Copy number variation (Copy number variation (inserinsercece, dele, delecece, ,
dupliduplikacekace): 0): 0,,4% 4% •• VariaVariacece popoččtu tandemových repetictu tandemových repetic ((……““DNA DNA fingerprintingfingerprinting““))•• UnikUnikáátntníí individuindividuáálnlníí inserce inserce transpozontranspozonůů•• EpigenetiEpigenetikaka ((metylametylacece))
SekvenSekvenáátorytory druhdruhéé generacegenerace
NapNapřř. firma . firma IlluminaIllumina Co., XII/2008:Co., XII/2008:
•• GenomeGenome AnalyzerAnalyzer ((IlluminaIllumina IncInc.) ud.) uděěllááza 3 dny to, co by ABI 3730xl (pouza 3 dny to, co by ABI 3730xl (použžitý itý
Celera Celera GenomicsGenomics) trvalo 60 let) trvalo 60 let……
•• NNááklady na klady na sekvenovsekvenováánníí jednoho jednoho
lidsklidskéého genomuho genomu:: 4040--50 000 50 000 $$
•• ……..PrvnPrvníí sekvenovansekvenovanéé iindividundividuáállnníí lidsklidskéégenomgenomyy::
•• 2007: Craig Venter, James Watson 2007: Craig Venter, James Watson –– obaobagenomgenomyy zpzpřříístupnstupněěny na ny na internetinternetuu
11
…… a ta třřetetíí generacegenerace
Graf: Nature 458, 719-724 (2009).
Získáno z http://genome.wellcome.ac.uk
NextNext--GenerationGeneration SequencingSequencingSouSouččasnasnéé momožžnostinosti,, napnapřř. . IlluminaIllumina HiSeqHiSeq 2500:2500:
Celý lidský Celý lidský genomgenom, 30x , 30x coveragecoverage, 1 vzorek za 27 , 1 vzorek za 27
hodin, nhodin, nááklady klady <5000 USD<5000 USD
PPřřichicháázzíí doba, kdy se doba, kdy se sekvenovsekvenováánnííststáávváá sousouččááststíí lléékakařřskskéé ppééččee……
www.illumina.com
12
(for Illumina technology, Wikimedia Commons)
ArchonArchon X Prize X Prize forfor GenomicsGenomics
$ 10$ 10 000000 000000VyhlVyhlášášena v roce 2006.ena v roce 2006.Pro prvnPro prvníí tým který tým který osekvenujeosekvenuje 100 100 lidských lidských genomgenomůů za dobu 30 dnza dobu 30 dníínebo kratnebo kratšíší v urv urččititéé popožžadovanadovanéékvalitkvalitěě a s na s nááklady ne vklady ne vííce nece nežž $1 $1 000000 na jeden na jeden genomgenom..
13
ArchonArchon X Prize X Prize forfor GenomicsGenomics
$ 10$ 10 000000 000000VyhlVyhlášášena v roce 2006.ena v roce 2006.Pro prvnPro prvníí tým který tým který osekvenujeosekvenuje 100 100 lidských lidských genomgenomůů za dobu 30 dnza dobu 30 dníínebo kratnebo kratšíší v urv urččititéé popožžadovanadovanéékvalitkvalitěě a s na s nááklady ne vklady ne vííce nece nežž $1 $1 000000 na jeden na jeden genomgenom..Cena zru
Cena zruššena 22.8.2013
ena 22.8.2013
„„Outpaced
Outpaced by by innovation
innovation““
SekvenovSekvenováánníí lidsklidskééhoho genomu:genomu:VýsledkyVýsledky
14
Lidský Lidský genomgenom
HaploidnHaploidníí genomgenom: 3 miliardy p: 3 miliardy páárrůů bazbazíírozdrozděělenlenéé do 23 chromosomdo 23 chromosomůů
•• 1 metr DNA p1 metr DNA přři max. roztai max. roztažženeníí
•• 750 750 MbMb (1 CD)(1 CD)
•• 2 mili2 milióóny ny normostrannormostran A4A4
Obr.: Bolzer et al. 2005, PLoS Biol. 3(5): e157 DOI: 10.1371/journal.pbio.0030157
(50 (50 úúhozhozůů//řřáádek, 30 dek, 30 řřáádkdkůů/strana)/strana)
DNA v DNA v bunbuněčěčnnéém m jjááddřřee
Jádro typické lidské buňky
má 5-8 µm v průměru a
obsahuje 2 m DNA
… odpovídá tenisovému
míčku, do kterého se
podařilo úhledně poskládat
20 km tenké nitě.
15
KlasifikaceKlasifikace eukaryotickeukaryotickéé genomovgenomovéé DNA:DNA:
•• ppodleodle ““sbalenostisbalenosti””::•• eeuchromatinuchromatin•• hheterochromatineterochromatin (cca 10%, (cca 10%, nesekvenovnesekvenováánn!)!)
•• ppodleodle opakovopakováánníí::•• vysocevysoce repetitivnrepetitivníí•• ststřřednedněě repetitivnrepetitivníí•• nerepetitivnnerepetitivníí
•• podlepodle funkcefunkce::•• strukturnstrukturníí ((centromerycentromery, , telomerytelomery))•• kkóódujdujííccíí proteinproteinovovéé sekvencesekvence•• ppřřepisovanepisovanéé do nekdo nekóódujdujííccíí RNA (RNA (intronyintrony, , rRNArRNA, ,
tRNAtRNA, , miRNAmiRNA etcetc.).)•• transpozonytranspozony•• regularegulaččnníí sekvencesekvence•• junkjunk……??
ExperimentyExperimenty s s denaturacdenaturacíí & & reasociacreasociacíí DNADNA::RychlRychláá reasociacereasociace (10(10--15%):15%):
-- vysoce vysoce repetitivnrepetitivníí DNADNA
StStřřednedněě rychlrychláá reasociacereasociace (25(25--
40%):40%):
-- ststřřednedněě repetitivnrepetitivníí DNADNA
PomalPomaláá reasociacereasociace (50(50-- 60%):60%):
-- nerepetitivnnerepetitivníí (unik(unikáátntníí) DNA) DNA
Obr: Obr: LodishLodish, H. et al.: Molecular Cell Biology (, H. et al.: Molecular Cell Biology (3rd3rd
ed.), ed.), W.H.FreemanW.H.Freeman, New York , New York 19951995. .
16
KlasifikaceKlasifikace eukaryotickeukaryotickéé genomovgenomovéé DNA:DNA:•• Vysoce Vysoce repetitivnrepetitivníí ((simplesimple--sequence DNAsequence DNA):):
•• VeVešškerý kerý heterochromatinheterochromatin ((centromerycentromery, , telomerytelomery, , 8% genomu, st8% genomu, stáále le nesekvenovnesekvenováánn))
•• MinisatelityMinisatelity (3% z (3% z euchromatinueuchromatinu))
•• StStřřednedněě repetitivnrepetitivníí::•• TandemovTandemověě zmnozmnožženenéé genygeny kkóódujdujííccíí rRNArRNA, , tRNAtRNA
a a histonyhistony ((vvíícece stejných kopistejných kopiíí gengenůů za sebou, za za sebou, za úúččelem velem věěttšíší produktivity transkripce, pproduktivity transkripce, přř. geny pro . geny pro rRNArRNA u u eukaryoteukaryot >100 kopi>100 kopiíí))
•• TranspozonyTranspozony
•• NerepetitivnNerepetitivníí::•• ProteinovProteinovéé genygeny•• Geny pro nekGeny pro nekóódujdujííccíí RNARNA•• RegulaRegulaččnníí sekvencesekvence
EukaryotickýEukaryotický GENGEN
Obr: Obr: MurrayMurray, , RR..K.K. et al.: et al.: HarperovaHarperova biochemiebiochemie, Appleton & Lange 1993, v , Appleton & Lange 1993, v ččeešštintiněě naklnakl. H. H&H 2002&H 2002. .
17
RozmRozmííststěěnníí gengenůů v genomu v genomu nenneníí rovnomrovnoměěrnrnéé
•• VelkVelkéé rozdrozdíílyly mezimezi chromosomychromosomy::
•• chromosomchromosom 1: 21: 2078 proteinových078 proteinových gengenůů
•• chromosomchromosom Y: Y: 72 proteinových72 proteinových gengenůů
•• oblastioblasti bohatbohatéé nana genygeny ((““mměěstasta””) )
-- vvíícece C a GC a G
•• oblastioblasti chudchudéé nana genygeny ((““poupouššttěě””) )
-- vvíícece A a TA a T
•• CpGCpG ostrostrůůvkyvky -- ““baribariéérara mezimezi mměěstysty a a
poupouššttěěmimi”” ... ... regulaceregulace genovgenovéé aktivityaktivity
•• SolitSolitáárnrníí gen:gen:•• v v celceléémm genomu v genomu v jedinjedinéé kopiikopii ((asiasi polovinapolovina gengenůů))
•• TandemovTandemověě duplikovanduplikovanéé geny pro geny pro histony a histony a rRNArRNA
•• GenovGenováá rodinarodina::•• skupinaskupina gengenůů evoluevoluččnněě pochpocháázejzejííccíí z z jedinjedinééhoho
genugenu, , vznik duplikacvznik duplikacíí a a postupnpostupnouou diverzifikacdiverzifikacíísekvencesekvence a a funkcefunkce
•• PseudogenPseudogen::•• gen gen kterýkterý zmutovalzmutoval natoliknatolik žžee uužž nemnemůžůžee býtbýt
ppřřepisovepisováánn ((…„…„molekulmolekuláárnrníí fosiliefosilie““ ))
•• ZpracovanýZpracovaný ((„„processedprocessed““) ) pseudogenpseudogen::•• pseudogenpseudogen vzniklývzniklý zpzpěětnýmtným ppřřepisemepisem mRNA a mRNA a
integracintegracíí do genomudo genomu
18
PoPoččet genet genůů v lidskv lidskéém genomum genomu
•• KKóódujdujííccíí geny: 20 geny: 20 364364•• KrKráátktkéé neknekóódujdujííccíí geny: 9 geny: 9 673673
•• (do 200 (do 200 bpbp, pro , pro rRNArRNA, , miRNAmiRNA, , ncRNAncRNA, , snRNAsnRNA, , snoRNAsnoRNA ……))
•• DlouhDlouhéé neknekóódujdujííccíí geny: 1geny: 14 8174 817•• (nad 200 (nad 200 bpbp, r, růůznznéé neknekóódujdujííccíí RNA)RNA)
•• PseudogenyPseudogeny: 14 : 14 414155•• Celkem genovCelkem genovéé transkriptytranskripty: 19: 1966 345345
Ensembl release 78, Dec. 2014 (www.ensembl.org)
19
PProteinovroteinovéé geny geny v v lidsklidskéémm genomugenomu
cca cca 20 20 440000Asi 25% genomu pAsi 25% genomu přřepisovepisovááno do no do prepre--
mRNAmRNA, ,
z toho z toho ale ale jen 5% jsou jen 5% jsou exonyexony
……Lidský EXOM: cca 1.5 % genomu Lidský EXOM: cca 1.5 % genomu
PoPoččet genet genůů neodpovneodpovííddáá komplexitkomplexitěěorganismuorganismu?!?!
SacchSacch. . cerevisiaecerevisiae 6 000 6 000 gengenůůC. C. eleganselegans 18 000 18 000 gengenůůDrosophila Drosophila 13 000 13 000 gengenůůArabidopsis thalianaArabidopsis thaliana 26 000 26 000 gengenůů
SrovnSrovnáánníí genomu genomu ččlovlověěka/myka/myššii s s genomygenomyninižžšíšíchch organismorganismůů ((C.elegansC.elegans, Drosophila):, Drosophila):
•• menmenšíší hustotahustota gengenůů, , deldelšíší intronyintrony
Obr: Obr: LodishLodish, H. et al.: Molecular Cell Biology (5th ed.), , H. et al.: Molecular Cell Biology (5th ed.), W.H.FreemanW.H.Freeman, New York 2004. , New York 2004.
20
JakJak se se hledajhledajíí genygeny v v genomechgenomech::
•• BakterieBakterie, , kvasinkykvasinky::•• open reading frames (open reading frames (ORFsORFs))
•• VyVyššíšší organismyorganismy::•• hybridizace/srovnhybridizace/srovnáánníí s s cDNAcDNA nebonebo EST EST
(expressed sequence tag = (expressed sequence tag = ččáástst cDNAcDNA))
•• podobnostpodobnost se se znznáámýmimými genygeny
•• hledhledáánníí rozpoznrozpoznáávacvacííchch sekvencsekvencíí pro pro mmíístastasestsestřřihuihu
•• podobnostpodobnost s s genomygenomy jinýchjiných organismorganismůů
SrovnSrovnáánníí genomu genomu ččlovlověěka/myka/myššii s s genomygenomyninižžšíšíchch organismorganismůů ((C.elegansC.elegans, Drosophila):, Drosophila):
•• expanse expanse gengenůů //novnovéé genygeny se se vztahemvztahem k:k:
•• srsráážženeníí krvekrve
•• zzíískanskanáá ((specifickspecifickáá) ) imunitaimunita
•• nervovýnervový systsystéémm
•• intraintra-- a a intercelulinterceluláárnrníí komunikacekomunikace
•• kontrolakontrola genovgenovéé expreseexprese
•• programovprogramováá bunbuněčěčnnáá smrtsmrt ((apoptosaapoptosa))
21
•• jenjen asiasi 7 % 7 % proteinovýchproteinových domdoméénn zcelazcelanovnovýchých u u obratlovcobratlovcůů, ale, ale•• expanse expanse proteinovýchproteinových rodinrodin
•• slosložžititěějjšíší architekturaarchitektura proteinproteinůů, , novnovéékombinacekombinace domdoméénn a a vvíícece domdoméénn/ protein/ protein
•• vvíícece proteinproteinůů z z jednohojednoho gengenuu -- alternativnalternativníísestsestřřihih aažž v v 9595 % %
SusumuSusumu OhnoOhno, 1972, 1972
•• Vzhledem k rychlosti vzniku mutacVzhledem k rychlosti vzniku mutacíí
nemnemůžůže lidský haploidne lidský haploidníí genomgenom
obsahovat vobsahovat vííce jak asi 30 000 gence jak asi 30 000 genůů..
•• VVěěttššina DNA je tedy navina DNA je tedy navííc c …… junkjunk! !
http://www.junkdna.com/ohno.html
22
MobilnMobilníí DNA elementy (DNA elementy (transpozonytranspozony) )
AutonomnAutonomníí DNA sekvence, kterDNA sekvence, kteréé se se samy mnosamy množžíí, , ppřředstavujedstavujíí 44 % genomu44 % genomu
DNA transpozony Retrotranspozony
Virové Nevirové
Dlouhé (LINEs) Krátké (SINEs)
TTranspozonyranspozony::
Obr: Obr: LodishLodish, H. et al.: Molecular Cell Biology (5th ed.), , H. et al.: Molecular Cell Biology (5th ed.), W.H.FreemanW.H.Freeman, New York 2004. , New York 2004.
23
DNA DNA transpozonytranspozony
2-3 kb (nebo kratší), kódují
transposasu, cut & paste v
genomu bez přepisu do RNA
Obr: Obr: LodishLodish, H. et al.: Molecular Cell Biology (5th ed.), , H. et al.: Molecular Cell Biology (5th ed.), W.H.FreemanW.H.Freeman, New York 2004. , New York 2004.
MobilnMobilníí ((parazitickparazitickéé) ) elementyelementy v v savsavččíímm genomu:genomu:
•• DNA DNA transpozonytranspozony•• 22--3 kb (3 kb (nebonebo kratkratšíší), ), kkóódujdujíí transposasutransposasu, cut , cut & paste v & paste v
genomu genomu bezbez ppřřepisuepisu do RNAdo RNA
•• VirovVirovéé retrotranspozonyretrotranspozony•• 66--11 kb (11 kb (nebonebo kratkratšíší), ), retroviryretroviry bez genu pro bez genu pro
proteinový obal (proteinový obal (envenv))
•• LINEsLINEs (long(long--interspersed repeats), interspersed repeats), •• 66--8 kb, 8 kb, ppřř. L1, . L1, kkóódujdujíí 2 2 proteinyproteiny ( 1 je ( 1 je reversnreversníí
transkriptasatranskriptasa))
•• SINEsSINEs (short(short--interspersed repeats), interspersed repeats), •• 100100--300 300 bpbp, , ppřř. . AluAlu, , neknekóódujdujíí nicnic, , mnomnožženeníí zzáávisvisíí nana
LINEsLINEs, , ppůůvodvod: z : z malýchmalých neknekóódujdujííccííchch bunbuněčěčnýchných RNARNA
24
Census Census parazitickýchparazitických elementelementůů v v lidsklidskéémm genomu:genomu:LINEsLINEs: : 850 000x 850 000x 21 % genomu21 % genomuSINEsSINEs: : 1 500 000x 1 500 000x 13 % genomu13 % genomuRetrovirusRetrovirus--like: like: 450 000x450 000x 8 % genomu8 % genomuDNA DNA transposonytransposony: : 300 000x 300 000x 3 % genomu3 % genomu
•• V drtivV drtivéé vvěěttššininěě ale mutovanale mutovanéé/nekompletn/nekompletníí kopie, kopie, jen maljen maláá ččáást (st (<0,05%)<0,05%) je aktivnje aktivníí::•• LINEsLINEs: 80: 80--100 L1100 L1•• SINEsSINEs: 2000: 2000--3000 3000 AluAlu, , <100 SVA<100 SVA•• RetrovirRetrovirusus--likelike: ? : ? (HERV(HERV--KK……opravdu vyhynul?)opravdu vyhynul?)
•• DNA DNA transpozonytranspozony: 0 : 0
•• V genomu V genomu mymyššii aktivnaktivnííchch transposontransposonůů mnohemmnohemvvíícece ((......propročč?)?)
VýznamVýznam transpozontranspozonůů v v lidsklidskéémm genomugenomu
•• Transpozice v Transpozice v germingermináálnlnííchch bubuňňkkáách ch nastnastáávváá relativnrelativněě vzvzáácncněě ((cca 1x na 20 cca 1x na 20 žživivěě narozených, vnarozených, věěttššinou inou AluAlu))
•• I tak významný zdroj lidskI tak významný zdroj lidskéé genetickgenetickéévariabilityvariability
•• MMůžůže ve véést k st k inaktivaciinaktivaci genu, genu, dokumentovdokumentovááno jako vzno jako vzáácncnáá ppřřííččina ina vrozených chorobvrozených chorob
•• V somatických buV somatických buňňkkáách mch můžůže být pe být přřííččinou inou mosaicismumosaicismu•• úúloha L1 v loha L1 v neurogenesineurogenesi? ?
25
•• TranspozonyTranspozony usnadusnadňňujujíí rekombinaci rekombinaci
…….hnac.hnacíí ssííla evoluce !la evoluce !
Obr: Obr: LodishLodish, H. et al.: Molecular Cell Biology (5th ed.), , H. et al.: Molecular Cell Biology (5th ed.), W.H.FreemanW.H.Freeman, New York 2004. , New York 2004.
NeklasifikovanNeklasifikovanáá „„spacerspacer““ DNA:DNA:nerepetitivnnerepetitivníí, nek, nekóódujdujííccíí, , >1/2 >1/2 genomu genomu ……zzřřejmejměě rovnrovněžěž mrtvmrtvéé transpozonytranspozony, kter, kteréé uužžmutovaly natolik mutovaly natolik žže nejsou rozpozne nejsou rozpoznáány ny
ProjektProjekt ENCODEENCODE, 2012: , 2012: žžáádndnáá junkjunk DNA!DNA!
•• AAžž 80% genomu m80% genomu máá biologickou funkci biologickou funkci
•• AAžž 75% genomu je aspo75% genomu je aspoňň nněěkdy a nkdy a něěkde kde ppřřepisovepisovááno do RNA no do RNA
•• PPřřesto esto žže evolue evoluččnněě konzervovkonzervovááno nenno neníívvííce jak 20% genomuce jak 20% genomu
…….?????......?????.....
26
SekvenovSekvenováánníí lidsklidskééhoho genomu:genomu:DDůůsledkysledky
PPřříínos nos sekvenovsekvenováánníí genomgenomůů
•• UsnadnUsnadněěnníí výzkumuvýzkumu molekulmolekuláárnrníí
podstatypodstaty chorobchorob
•• StudiumStudium evoluceevoluce a a migracemigrace lidsklidskééhoho
druhudruhu
•• Co Co vlastnvlastněě genomgenom kkóódujeduje ((““nature vs. nature vs.
nurturenurture””) a ) a jakjaký je genetický podklad ý je genetický podklad
rozdrozdííllůů mezimezi lidmilidmi
•• GenomickGenomickáá medicmedicíína na
farmakogenomikafarmakogenomika, personalizovan, personalizovanáá
medicmedicíínana……..
27
GenomovGenomováá medicmedicíínana
•• 1) Diagnostika na 1) Diagnostika na úúrovni genrovni genůů•• VzVzáácncnéé monogennmonogenníí chorobychoroby
•• Posun do Posun do ččasnasněějjšíší žživotnivotníí ffáázeze•• MoMožžnost diagnnost diagnóózy dzy dřřííve neve nežž se nemoc objevse nemoc objevíí•• Novorozenecký Novorozenecký screeningscreening•• PrenatPrenatáálnlníí diagnostika z diagnostika z fetfetáálnlníí DNA v cirkulaci DNA v cirkulaci
matkymatky•• PrekoncepPrekoncepččnníí testovtestováánníí rodirodičůčů, , preimplantapreimplantaččnníí testy testy
u IVF u IVF
•• GenetickGenetickáá analýza nanalýza náádordorůů umoumožňžňuje racionuje racionáálnlníívolbu cvolbu cíílenlenéé biologickbiologickéé llééččbyby
•• U komplexnU komplexníích, ch, polygennpolygenněě podmpodmíínněěných ných chorob (srdechorob (srdeččnníí choroby, cukrovka) zatchoroby, cukrovka) zatíím m obtobtíížžnnéé
GenomovGenomováá medicmedicíínana
•• 2) 2) FarmakogenomikaFarmakogenomika•• CCíílenlenáá biologickbiologickáá llééččba nba náádordorůů na zna záákladkladěě
jejich genetickjejich genetickéé analýzyanalýzy•• PPřř.: protil.: protiláátka proti HERtka proti HER--2 jen u n2 jen u náádordorůů prsu kterprsu kteréé
tento protein tento protein exprimujexprimujíí
•• Predikce Predikce úúččinnosti a pinnosti a přříípadných nepadných nežžáádoucdoucíích ch úúččinkinkůů llééku na zku na záákladkladěě markermarkerůů v genomu v genomu pacientapacienta
•• PPřř.: l.: lééččba chronickba chronickéé hepatitidy C, HIV, mohepatitidy C, HIV, možžnnáá i i ddáávkovvkováánníí warfarinuwarfarinu
…… personalizovanpersonalizovanáá medicmedicíína na
28
GenomovGenomováá medicmedicíínana
•• 3) 3) MicroorganismyMicroorganismy::
•• PatogennPatogenníí::•• RychlRychláá diagnostika infekdiagnostika infekččnníího onemocnho onemocněěnníí na na
zzáákladkladěě sekvenovsekvenováánníí patogenupatogenu –– významnvýznamnéé zejmzejmééna na u nových epidemiu nových epidemiíí (SARS, MRSA(SARS, MRSA……) )
•• NepatogennNepatogenníí -- Lidský Lidský MikrobiomMikrobiom•• NapNapřř. bakterie lidsk. bakterie lidskéého stho střřeva eva –– metabolickmetabolickáá aktivita aktivita
srovnatelnsrovnatelnáá s js jáátry, individutry, individuáálnlněě rozdrozdíílnlnéé spektrum, spektrum, vztah k stvztah k střřevnevníím zm záánněěttůům, aterosklerm, ateroskleróóze, obezitze, obezitěě……
PersonalPersonal GenomiGenomicscs: 23andME: 23andME
•• Vzorek sliny zaslaný DHL, Vzorek sliny zaslaný DHL, genotypizacegenotypizace
cca 700 000 cca 700 000 SNPsSNPs
•• DNA DNA relativesrelatives
•• AncestryAncestry::
•• AncestryAncestry CompositionComposition
•• PaternalPaternal (Y chromosome (Y chromosome haplogrouphaplogroup))
•• MaternalMaternal ((mitochondrialmitochondrial DNA DNA haplogrouphaplogroup))
•• Per cent Per cent NeanderthalNeanderthal DNADNA
•• HealthHealth
29
PersonalPersonal GenomiGenomicscs: 23andME: 23andME
•• Vzorek sliny zaslaný DHL, Vzorek sliny zaslaný DHL, genotypizacegenotypizace
cca 700 000 cca 700 000 SNPsSNPs
•• DNA DNA relativesrelatives
•• AncestryAncestry
•• HealthHealth::
•• DiseaseDisease risk: 122 (31 risk: 122 (31 highhigh confidenceconfidence))
•• DrugDrug response: 25 (12 response: 25 (12 highhigh confidenceconfidence) ) InheritedInherited conditionsconditions: 53 (: 53 (allall highhigh confidenceconfidence))
•• TraitsTraits: 61 (13 : 61 (13 highhigh confidenceconfidence))
ProPročč analýza SNP neanalýza SNP neřřííkkáá vvííc?c?•• Informace o bInformace o běžěžných SNP nestaných SNP nestaččíí –– ttřřeba eba najnajíít individut individuáálnlníí (vz(vzáácncnéé) polymorfismy) polymorfismy•• SNP nejsou hlavnSNP nejsou hlavníí ppřřííččinou lidskinou lidskéé genetickgenetickéévariability variability –– duplikace/duplikace/delecedelece a inserce a inserce transpozontranspozonůů významnvýznamněějjšíší•• Situace kdy o znaku rozhoduje jeden gen asi Situace kdy o znaku rozhoduje jeden gen asi relativnrelativněě vzvzáácncnáá –– ččastastěěji je fenotyp výsledek ji je fenotyp výsledek souhry mnoha gensouhry mnoha genůů•• O O fenotypufenotypu rozhoduje exprese genrozhoduje exprese genůů•• Polymorfismy v regulaPolymorfismy v regulaččnníí neknekóódujdujííccíí DNADNA•• EpigenetikaEpigenetika ((metylacemetylace DNA atd.) DNA atd.) –– ttééžž lze dlze děědit! dit!
30
EtickEtickéé, , legislativnlegislativníí a a socisociáálnlníí ototáázkyzky
•• Gene privacy: Gene privacy: •• kdokdo mmáá prpráávovo znznáátt nněčěčíí genetickougenetickou informaciinformaci a a
jakjak jjíí smsmíí poupoužžíítt, , obavaobava z z diskriminacediskriminace
zamzaměěstnavatelemstnavatelem, , zdravotnzdravotníí pojipojiššťťovnouovnou......
•• Gene testingGene testing•• Gene therapyGene therapy•• DesignerDesigner babiesbabies•• BehavioralBehavioral genetics: genetics:
•• vztahvztah gengenůů k k lidsklidskéémumu chovchováánníí, , momožžnýný vývojvývoj keke
genetickgenetickéémumu determinismudeterminismu a a ztrztrááttěě odpovodpověědnostidnostizaza vlastnvlastníí chovchováánníí
•• GMGMOO•• Gene patentingGene patenting
Reference:Reference:AlbertsAlberts, B. , B. etet alal.: .: EssentialEssential Cell Biology, Cell Biology, GarlandGarland PublishingPublishing, , IncInc., ., NewNew
York 1998.York 1998.
LodishLodish, H. et al.: Molecular Cell Biology, , H. et al.: Molecular Cell Biology, W.H.FreemanW.H.Freeman, New York , New York 1995, 1995, 2004 (2004 (““DarnellDarnell””).).
Nature 2001: 409 (6822, 15.2.2001); pp. 813Nature 2001: 409 (6822, 15.2.2001); pp. 813--958958..
Science 2001: 291 (5507, 16.2.2001); pp.1177Science 2001: 291 (5507, 16.2.2001); pp.1177--13511351..
TrendsTrends in in GeneticsGenetics 2007: 23, 2007: 23, pppp.183.183--191.191.
NatureNature 2009: 2009: 458, 719-724.
FEBS FEBS LettersLetters 2011: 585; 2011: 585; pppp. 1589. 1589--1594. 1594.
LectureLecture by dr. M. by dr. M. LeblLebl ((IlluminaIllumina Co.), 1.LF UK, 1.12.2008.Co.), 1.LF UK, 1.12.2008.
Science Science TranslationalTranslational MedicineMedicine 2013: 5, 189sr4.2013: 5, 189sr4.
PNAS 2014: 111, PNAS 2014: 111, pppp. 6131. 6131--6138 6138 http://http://www.ncbi.nlm.nih.govwww.ncbi.nlm.nih.govhttp://http://genomicsgenomics..energyenergy..govgovhttp://en.wikipedia.orghttp://en.wikipedia.orghttp://www.http://www.ensemblensembl..orgorghttp://http://hapmaphapmap..ncbincbi..nlmnlm..nihnih..govgovhttp:www.http:www.illuminaillumina..comcomhttp(s)://www.23andme.http(s)://www.23andme.comcomFig. “Human and DNA Shadow”: Courtesy of U.S. Department of Energy's Joint Genome Institute, Walnut Creek, CA, http://www.jgi.doe.gov.