Bioinformatika
a
výpočetní biologie
KFC/BIN
I. PřehledRNDr. Karel Berka, Ph.D.
Univerzita Palackého v Olomouci
KFC/BIN - Podmínky
• Seminární práce:
– http://rosalind.info/
- alespoň 10 vyřešených problémů = zápočet
- každých dalších 10 = + jedno A ke zkoušce
• Ústní zkouška:
– 3 otázky – hodnoceny každá A-F
– Výsled – medián známek
Definice bioinformatiky
(Molecular) bio – informatics: bioinformatics is conceptualising biology in terms of molecules(in the sense of physical chemistry) and applying "informatics techniques" (derived from disciplines such as applied maths, computer science and statistics) to understand and organise the data and information associatedwith these molecules, on a large scale.
In short, bioinformatics is a management information system for molecular biology and has many practical applications.
Oxford English Dictionary
Definice bioinformatiky• spojení biologických věd s informatikou
počítačové zpracování, organizace, ukládání a
vizualizalizace biologických dat a jejich
aplikace
CiteUlike oblak klíčových slov pro bioinformatics
Přehled témat bioinformatiky
• hledání genů a skládání genomů
• porovnávání sekvencí (alignment)
• analýza a predikce struktury proteinů a NA
• hledání léčiv (drug design a discovery)
• predikce a analýza interakcí mezi proteiny
• predikce genové exprese
• modelování molekulární evoluce
Wikipedia
Organizace biologických informací
• biologické informace
– redundantní a mnohonásobné
• Genetický kód je redundantní
• Organismus má mnoho podobných genů
• Gen může mít více funkcí
• Rozdílné proteinové sekvence mají
stejnou strukturu
Nárůst dat
Guy Cochrane
Biologická data IZdroj dat Velikost dat Bioinformatika
DNA
sekvence
349 132 140 sekvencí
881 404 804 386 nukleotidů
(Genbank+WGS, 06/2014)
cca 1 TB dat
Hledání genů
Predikce produktu genů
Hledání mutací a jejich vlivu
Srovnávání sekvencí a fylogenetika
Proteinová
sekvence
80 370 243 sekvencí
25 385 271 479 aminokyselin
(SwissProt+TrEMBL, 07/2014)
cca 25 GB dat
Predikce struktury proteinů
Predikce funkce proteinů
Srovnávání sekvencí a fylogenetika
Hledání sekvenčních motivů
Genomy 11 617 genomů
(Ensembl, 04/2014)
cca 1 PB (1000 Genomes,
04/2013 z 2535 jedinců)
Identifikace genetických chorob
Molekulární evoluce a fylogenetika
Hledání částí genomu (geny, exony,
introny, cizí DNA, repetice,...)
Genomic-scale census (porovnávání
obsahu proteinů, metabolických drah,…)
Ontologie 52623645052881400
(GeneOntology, 07/2014)
Hierarchický popis funkce, lokace, ...
Hledání souvislostí
Makro-
molekulární
struktura
102 158 3D struktur
(~1500 koordinát)
cca 150 GB
3D strukturní porovnávání
Geometrie molekuly a její interakce
Molekulární simulace funkce
in silico návrh léčiv
Biologická data IIZdroj dat Velikost dat Bioinformatika
Proteomika,
Genomika
1 genom člověka – cca 700 GB
proteom – cca 1 TB/den
Hledání variací a mutací mezi jedinci a mezi
rozdílnými buňkami
Exprese
(genů,
proteinů, …)
DNA čipy
(obrazové info: 1 TB/den)
Mapování expresních dat (produkce) na
sekvenční a biochemické data
Robotické
HTS testy
např. 1000 testů najednou
(obrazové info: TB/den)
řádově PB
Testování látek automatizovanými testy
Hledání léčiv
Biologická
literatura
24 milionů citací
(~5 MB PDF soubor)
(PubMed, 07/2014)
100 TB
Hledání informací a souvislostí
Tvorba znalostních databází – Data mining
Chemické
látky
35 milionů molekul
(ZINCdb, 08/2014)
15 GB
Cheminformatika
Racionální návrh léčiv
Organická syntéza
Počítačové zpracování
• Databáze– ukládání, hledání
• Analýza textu – sekvenční analýzy, porovnávání sekvencí, hledání
klíčových slov
• Hledání motivů– Neuronové sítě, clusterová analýza, data mining,
Markovovské řetězce
• Geometrie– 3D grafika, robotika, 2D/3D rozpoznávání obrazu
• Fyzikální simulace– Mechanika, elektrostatika, numerické algoritmy,
simulace
Genom
• Hledání genů
– introny, exony, promotory, cizí kusy DNA
• Charakteristika opakujících se kusů DNA
– forenzní analýza
• Hledání duplicit v genomu
Mycoplasma genitalium 0.58 Mbp
Escherichia coli 4.6 Mbp
Saccharomyces cerevisiae 16 chr. 11.2 Mbp
Caenorhabtitis elegans 6 chr. 97.0 Mbp
Arabidopsis thaliana 5 chr. 115.4 Mbp
Drosophila melanogaster 5 chr. ~137.0 Mbp
Homo sapiens 24 chr. ~ 3.3 Gbp
Velikosti genomů
Analýza sekvencí• Porovnávání sekvencí
– 1:1
• lokální nebo globální porovnání
– 1:n
• hledání konsensní sekvence pro třídu proteinů
• mapování evoluce
• Hledání vlastností
– sekundární struktura
– hydrofobicita
– transmembránové segmenty
Predikce proteinové struktury
• Terciární struktura
– rozpoznání foldu
– homologní modelování
• strukturní alignment
– ab initio modelování
• Predikce funkce
– hledání aktivních míst a kanálů
Strukturní výpočetní biologie
• Molekulární grafika
– vodítko pro hypotézy
• Simulace
– Struktura => Energie
– vývoj v čase
• Docking – hledání jak a kam se látky váží
– ligandy
– proteiny mezi sebou
Helikáza rozevírající DNA
docking do acetyltransferázy
v programu GOLD
Analýza obrazu s vysokou propustností
• Analýza genové exprese
• Analýza proteinové exprese
• Funkční a toxikologické analýzy
Modelování biologických systémů
• matematická biologie
• e-cell
Sledování molekulární evoluce
• Fylogenetické stromy
– hledání
společného předka
podle podobnosti
- změna probíhá v
liniích časem
- dělení po dvojicích
Ideální případ
Souhrn
• Na http://fch.upol.cz/skripta/bin/Cell-wholeSimulation.pdf
– samotný článek
• http://fch.upol.cz/skripta/bin/WholeCellSim.mp4 - video
Modelování buňky
Modelový organismus M. genitalium
• Záněty močových cest
M. genitalium525 genů
Simulace celé jedné buňky
Flux-balance
analysis
Poisson
processes
Buněčné funkční modely
• Krok: 1 s
• Moduly s
mnoha
proměnnými
a modely
pro
jednotlivé
procesy
• Pokračuje,
dokud se
buňka
nerozdělí
• Když se buňka rozdělí na dvě
Konec simulace
Přehled
Validace modelu
• Simulace 128 buněk v typickém prostředí
• Predikce:
– Vlastnosti buňky
• Biomasa
• Rychlost růstu buněk
– Molekulární vlastnosti
• Počty složek a jejich koncentrace
• Lokalizace
• Aktivita genů
Observed doubling time Observed doubling time
Cellular chemical composition Major cell mass fractions
Trénink modelu
1. Metabolic fluxesValidace
2. Metabolite concentrationsValidace
Caused by - intermittent mRNA expression
3. Bursts of protein synthesis
- availability of amino acids following protein degradation
Validace
4. Copy number distributionValidace
Model has 30 DNA-binding proteins
Chromosome explored v. quickly
• 50% of chromosome by 1
or more proteins within the
first 6 mins
• 90% within 20 mins
RNA polymerase binds 90% of chromosome within 49 mins
90% of genes are expressed within the first 143 minutes
Interakce proteinu s DNA
DNA replikace
Over 30,000 collisions occur per cell cycle
Nearly 1 protein is displaced from chromosome per second
Most collisions are caused by RNA polymerase (84%) and DNA polymerase (8%)
Most commonly displaced proteins are: structural maintenance of chromosome
(SMC) proteins (70%) and single-stranded binding proteins (6%)
Tvorba proteinů
Initial rapid DNA replication
Rate limited by available dNTP
(deoxyribonucleotide triphosphate)
Acts as a control on cell cycle duration
Rychlost DNA replikace
Mainly used in production of
protein and mRNA
Syntéza energetických molekul
44% discrepancy between synthesis and use of ATP and GTP
Ztráty energie
Tj. bez nich buňka
neprodukuje nějakou
základní složku, nebo
se zabrání dělení buňky
Knock-out simulace
• „vypínání“ každého z 525 genů
• 284 genů esenciálních pro růst a
dělení
• 117 genů
neesenciálních
Knock-out studie
• Vypínání různých genů
Použití modelu
• Model odpovídá experimentálním datům
• K predikcím, co se stane když…
• Zkoumáním rozdílů mezi modelem a
experimentem můžeme odhalit, čemu ještě
nerozumíme v biologii buňky
• Nicméně M genitalium je nejmenší buňka.
A i tak je model velmi složitý, dalším
krokem je pochopení E coli a to ještě chvíli
potrvá…
Jak si to zkusit taky? Občanská věda
Poskytnutí zdrojů:
• Folding@Home http://folding.stanford.edu
• Rosetta@Home http://boinc.bakerlab.org
A dokonce i hry:
• Foldit http://fold.it – skládání proteinů
• EteRNA http://eterna.cmu.edu – skládání RNA
• Phylo http://phylo.cs.mcgill.ca - porovnávání
sekvencí