+ All Categories
Home > Documents > Stránky praktika

Stránky praktika

Date post: 12-Jan-2016
Category:
Upload: bjorn
View: 42 times
Download: 7 times
Share this document with a friend
Description:
Stránky praktika. http://web.natur.cuni.cz/zoologie/biodiversity/ (http://www.natur.cuni.cz/~muncling). Kde se dozvědět více?. Kurz Computational Genomics (Marc VanRanst) Bioinformatics bookmarks (http://www.kuleuven.ac.be/rega/mvr/bioinformatics.htm) - PowerPoint PPT Presentation
56
Stránky praktika http://web.natur.cuni.cz/ zoologie/biodiversity/ (http://www.natur.cuni.cz/ ~muncling)
Transcript
Page 1: Stránky praktika

Stránky praktika

http://web.natur.cuni.cz/zoologie/biodiversity/

(http://www.natur.cuni.cz/~muncling)

Page 2: Stránky praktika

Kde se dozvědět více?

• Kurz Computational Genomics(Marc VanRanst)Bioinformatics bookmarks(http://www.kuleuven.ac.be/rega/mvr/bioinformatics.htm)

• Úvod do bioinformatiky/Základy bioinformatiky(F. Cvrčková)

• Molekulární ekologie(letní semestr, populační genetika, analýza paternity)

Page 3: Stránky praktika

Databáze sekvencí

Primární databáze DNA sekvencíRefSeqGenomové databáze

Page 4: Stránky praktika

Primární databáze DNA sekvencíInternational Nucleotide Sequence Databases (INSD)

GenBank(National Center for

Biotechnology Information)USA

DNA Data Bank of Japan (DDBJ)

(National Institute of Genetics)Japan

European Nucleotide Archive

(European Bioinformatics Institute)Europe

Your submission Your submission

Your submission

Page 5: Stránky praktika

RefSeq: Databáze unikátních sekvencí

Provozována NCBI Kurátorovaná databáze založená na sekvencích získaných z

primárních databázích Unikátní sekvence genu/transkriptu/proteinu pro jednotlivé

organismy/ekomorfy/varianty

Page 6: Stránky praktika

Genomové databáze

Skladují anotované assembly celých genomů + veškerá metadata asociovaná se sekvencemi nebo geny/transkripty/ proteiny: Sekvence, geny, transkripty, proteiny, proteinové rodiny, paralogy,

orthology, mezidruhové alignmenty, genové exprese, varianty (SNPs), repetitivní elementy, mikrosatelity, strukturální změny, genová regulace, fenotypy apod.

http://www.ensembl.org/

http://www.ncbi.nlm.nih.gov/

http://genome.ucsc.edu/

Page 7: Stránky praktika

Genomové databáze

Veškerá data jou vzájemně propojena pomocí identifikátorů a pozic v genomech:

Sekvence Gen Transkript Exprese Funkce

http://www.ensembl.org/

http://www.ncbi.nlm.nih.gov/

http://genome.ucsc.edu/

Page 8: Stránky praktika
Page 9: Stránky praktika

Manipulace se sekvencemi

Uchovávání sekvencíAlignmentBLAST

Page 10: Stránky praktika

Uchovávání sekvencí

• Sekvence uchovávány ve formě textu v klasickém textovém souboru (možno editovat v notepadu, textpadu, apod. nebo ve specifických programech určených k manipulaci a editaci sekvencí – např. BioEdit)

• V textových souborech uchovávány ve specifickém tvaru:

– FASTA (.fa, .fas, .fasta)

– GenBank (.gb)

• V každém souboru 1 i více sekvencí

Page 11: Stránky praktika

FASTA

>gi|148832288|gb|EF443167.1| Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial

ATGACCCACATCCGAAAATCCCACCCCTTATTCAAAATTATCAACGACTCATTCATCGACCTACCAGCTCCATCAAACATTTCCTCCTGATGAAATTTTGGGTCCCTACTAGGTATTTGTTTAGCTGTACAAATCTTAACAGGACTGTTCCTAGCAATACATTATACATCAGATACCACAACCGCCTTCTACTCTGTTACCCATATCTGCCGAGACGTAAATTACGGCTGAATCCTACGTTACCTCCATGCCAACGGAGCATCCATATTCTTCATCTGCCTATTTATACATGTAGGCCGAGGCATCTATTACGGCTCATACCTATTCACAGAAACATGAAACATTGGCATTATCCTTCTATTCGCCGTAATAGCAACAGCATTCATAGGCTATGTCCTCCCA

>gi|...

ATGA...

Pouze velmi základní informace o sekvenci – formát určen primárně k manipulaci se sekvencemi

Page 12: Stránky praktika

LOCUS EF443167 402 bp DNA linear MAM 15-OCT-2007DEFINITION Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial.ACCESSION EF443167VERSION EF443167.1 GI:148832288KEYWORDS .SOURCE mitochondrion Rhinopoma hardwickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma.REFERENCE 1 (bases 1 to 402) AUTHORS Hulva,P., Horacek,I. and Benda,P. TITLE Molecules, morphometrics and new fossils provide an integrated view of the evolutionary history of Rhinopomatidae (Mammalia: Chiroptera) JOURNAL BMC Evol. Biol. 7, 165 (2007) PUBMED 17868440 REMARK Publication Status: Online-OnlyREFERENCE 2 (bases 1 to 402) AUTHORS Hulva,P. TITLE Direct Submission JOURNAL Submitted (18-FEB-2007) Zoology, Charles University, Vinicna 7, Prague, 2 12843, Czech RepublicFEATURES Location/Qualifiers source 1..402 /organism="Rhinopoma hardwickii" /organelle="mitochondrion" /mol_type="genomic DNA" /db_xref="taxon:124756" /haplotype="2949" CDS 1..>402 /codon_start=1 /transl_table=2 /product="cytochrome b" /protein_id="ABR14084.1" /db_xref="GI:148832289" /translation="MTHIRKSHPLFKIINDSFIDLPAPSNISSWWNFGSLLGICLAVQ ILTGLFLAMHYTSDTTTAFYSVTHICRDVNYGWILRYLHANGASMFFICLFMHVGRGI YYGSYLFTETWNIGIILLFAVMATAFMGYVLP"ORIGIN 1 atgacccaca tccgaaaatc ccacccctta ttcaaaatta tcaacgactc attcatcgac 61 ctaccagctc catcaaacat ttcctcctga tgaaattttg ggtccctact aggtatttgt 121 ttagctgtac aaatcttaac aggactgttc ctagcaatac attatacatc agataccaca 181 accgccttct actctgttac ccatatctgc cgagacgtaa attacggctg aatcctacgt 241 tacctccatg ccaacggagc atccatattc ttcatctgcc tatttataca tgtaggccga 301 ggcatctatt acggctcata cctattcaca gaaacatgaa acattggcat tatccttcta 361 ttcgccgtaa tagcaacagc attcataggc tatgtcctcc ca//

GenBank Formát uchovává

velmi detailní informaci o sekvenci – určen k uchovávání sekvencí vč. veškerých informací asociovaných se sekvencí

Page 13: Stránky praktika

LOCUS EF443167 402 bp DNA linear MAM 15-OCT-2007DEFINITION Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial.ACCESSION EF443167VERSION EF443167.1 GI:148832288KEYWORDS .SOURCE mitochondrion Rhinopoma hardwickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma.REFERENCE 1 (bases 1 to 402) AUTHORS Hulva,P., Horacek,I. and Benda,P. TITLE Molecules, morphometrics and new fossils provide an integrated view of the evolutionary history of Rhinopomatidae (Mammalia: Chiroptera) JOURNAL BMC Evol. Biol. 7, 165 (2007) PUBMED 17868440 REMARK Publication Status: Online-OnlyREFERENCE 2 (bases 1 to 402) AUTHORS Hulva,P. TITLE Direct Submission JOURNAL Submitted (18-FEB-2007) Zoology, Charles University, Vinicna 7, Prague, 2 12843, Czech RepublicFEATURES Location/Qualifiers source 1..402 /organism="Rhinopoma hardwickii" /organelle="mitochondrion" /mol_type="genomic DNA" /db_xref="taxon:124756" /haplotype="2949" CDS 1..>402 /codon_start=1 /transl_table=2 /product="cytochrome b" /protein_id="ABR14084.1" /db_xref="GI:148832289" /translation="MTHIRKSHPLFKIINDSFIDLPAPSNISSWWNFGSLLGICLAVQ ILTGLFLAMHYTSDTTTAFYSVTHICRDVNYGWILRYLHANGASMFFICLFMHVGRGI YYGSYLFTETWNIGIILLFAVMATAFMGYVLP"ORIGIN 1 atgacccaca tccgaaaatc ccacccctta ttcaaaatta tcaacgactc attcatcgac 61 ctaccagctc catcaaacat ttcctcctga tgaaattttg ggtccctact aggtatttgt 121 ttagctgtac aaatcttaac aggactgttc ctagcaatac attatacatc agataccaca 181 accgccttct actctgttac ccatatctgc cgagacgtaa attacggctg aatcctacgt 241 tacctccatg ccaacggagc atccatattc ttcatctgcc tatttataca tgtaggccga 301 ggcatctatt acggctcata cctattcaca gaaacatgaa acattggcat tatccttcta 361 ttcgccgtaa tagcaacagc attcataggc tatgtcctcc ca//

Výpis genů v sekvenci

DEFINITION

Page 14: Stránky praktika

LOCUS EF443167 402 bp DNA linear MAM 15-OCT-2007DEFINITION Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial.ACCESSION EF443167VERSION EF443167.1 GI:148832288KEYWORDS .SOURCE mitochondrion Rhinopoma hardwickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma.REFERENCE 1 (bases 1 to 402) AUTHORS Hulva,P., Horacek,I. and Benda,P. TITLE Molecules, morphometrics and new fossils provide an integrated view of the evolutionary history of Rhinopomatidae (Mammalia: Chiroptera) JOURNAL BMC Evol. Biol. 7, 165 (2007) PUBMED 17868440 REMARK Publication Status: Online-OnlyREFERENCE 2 (bases 1 to 402) AUTHORS Hulva,P. TITLE Direct Submission JOURNAL Submitted (18-FEB-2007) Zoology, Charles University, Vinicna 7, Prague, 2 12843, Czech RepublicFEATURES Location/Qualifiers source 1..402 /organism="Rhinopoma hardwickii" /organelle="mitochondrion" /mol_type="genomic DNA" /db_xref="taxon:124756" /haplotype="2949" CDS 1..>402 /codon_start=1 /transl_table=2 /product="cytochrome b" /protein_id="ABR14084.1" /db_xref="GI:148832289" /translation="MTHIRKSHPLFKIINDSFIDLPAPSNISSWWNFGSLLGICLAVQ ILTGLFLAMHYTSDTTTAFYSVTHICRDVNYGWILRYLHANGASMFFICLFMHVGRGI YYGSYLFTETWNIGIILLFAVMATAFMGYVLP"ORIGIN 1 atgacccaca tccgaaaatc ccacccctta ttcaaaatta tcaacgactc attcatcgac 61 ctaccagctc catcaaacat ttcctcctga tgaaattttg ggtccctact aggtatttgt 121 ttagctgtac aaatcttaac aggactgttc ctagcaatac attatacatc agataccaca 181 accgccttct actctgttac ccatatctgc cgagacgtaa attacggctg aatcctacgt 241 tacctccatg ccaacggagc atccatattc ttcatctgcc tatttataca tgtaggccga 301 ggcatctatt acggctcata cctattcaca gaaacatgaa acattggcat tatccttcta 361 ttcgccgtaa tagcaacagc attcataggc tatgtcctcc ca//

Databázové přístupové číslo

ACCESSION

VERSION

Verze dané sekvence

Page 15: Stránky praktika

LOCUS EF443167 402 bp DNA linear MAM 15-OCT-2007DEFINITION Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial.ACCESSION EF443167VERSION EF443167.1 GI:148832288KEYWORDS .SOURCE mitochondrion Rhinopoma hardwickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma.REFERENCE 1 (bases 1 to 402) AUTHORS Hulva,P., Horacek,I. and Benda,P. TITLE Molecules, morphometrics and new fossils provide an integrated view of the evolutionary history of Rhinopomatidae (Mammalia: Chiroptera) JOURNAL BMC Evol. Biol. 7, 165 (2007) PUBMED 17868440 REMARK Publication Status: Online-OnlyREFERENCE 2 (bases 1 to 402) AUTHORS Hulva,P. TITLE Direct Submission JOURNAL Submitted (18-FEB-2007) Zoology, Charles University, Vinicna 7, Prague, 2 12843, Czech RepublicFEATURES Location/Qualifiers source 1..402 /organism="Rhinopoma hardwickii" /organelle="mitochondrion" /mol_type="genomic DNA" /db_xref="taxon:124756" /haplotype="2949" CDS 1..>402 /codon_start=1 /transl_table=2 /product="cytochrome b" /protein_id="ABR14084.1" /db_xref="GI:148832289" /translation="MTHIRKSHPLFKIINDSFIDLPAPSNISSWWNFGSLLGICLAVQ ILTGLFLAMHYTSDTTTAFYSVTHICRDVNYGWILRYLHANGASMFFICLFMHVGRGI YYGSYLFTETWNIGIILLFAVMATAFMGYVLP"ORIGIN 1 atgacccaca tccgaaaatc ccacccctta ttcaaaatta tcaacgactc attcatcgac 61 ctaccagctc catcaaacat ttcctcctga tgaaattttg ggtccctact aggtatttgt 121 ttagctgtac aaatcttaac aggactgttc ctagcaatac attatacatc agataccaca 181 accgccttct actctgttac ccatatctgc cgagacgtaa attacggctg aatcctacgt 241 tacctccatg ccaacggagc atccatattc ttcatctgcc tatttataca tgtaggccga 301 ggcatctatt acggctcata cctattcaca gaaacatgaa acattggcat tatccttcta 361 ttcgccgtaa tagcaacagc attcataggc tatgtcctcc ca//

KEYWORDS

Pod kterými klíčovými slovy ji lze najít

Page 16: Stránky praktika

LOCUS EF443167 402 bp DNA linear MAM 15-OCT-2007DEFINITION Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial.ACCESSION EF443167VERSION EF443167.1 GI:148832288KEYWORDS .SOURCE mitochondrion Rhinopoma hardwickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma.REFERENCE 1 (bases 1 to 402) AUTHORS Hulva,P., Horacek,I. and Benda,P. TITLE Molecules, morphometrics and new fossils provide an integrated view of the evolutionary history of Rhinopomatidae (Mammalia: Chiroptera) JOURNAL BMC Evol. Biol. 7, 165 (2007) PUBMED 17868440 REMARK Publication Status: Online-OnlyREFERENCE 2 (bases 1 to 402) AUTHORS Hulva,P. TITLE Direct Submission JOURNAL Submitted (18-FEB-2007) Zoology, Charles University, Vinicna 7, Prague, 2 12843, Czech RepublicFEATURES Location/Qualifiers source 1..402 /organism="Rhinopoma hardwickii" /organelle="mitochondrion" /mol_type="genomic DNA" /db_xref="taxon:124756" /haplotype="2949" CDS 1..>402 /codon_start=1 /transl_table=2 /product="cytochrome b" /protein_id="ABR14084.1" /db_xref="GI:148832289" /translation="MTHIRKSHPLFKIINDSFIDLPAPSNISSWWNFGSLLGICLAVQ ILTGLFLAMHYTSDTTTAFYSVTHICRDVNYGWILRYLHANGASMFFICLFMHVGRGI YYGSYLFTETWNIGIILLFAVMATAFMGYVLP"ORIGIN 1 atgacccaca tccgaaaatc ccacccctta ttcaaaatta tcaacgactc attcatcgac 61 ctaccagctc catcaaacat ttcctcctga tgaaattttg ggtccctact aggtatttgt 121 ttagctgtac aaatcttaac aggactgttc ctagcaatac attatacatc agataccaca 181 accgccttct actctgttac ccatatctgc cgagacgtaa attacggctg aatcctacgt 241 tacctccatg ccaacggagc atccatattc ttcatctgcc tatttataca tgtaggccga 301 ggcatctatt acggctcata cctattcaca gaaacatgaa acattggcat tatccttcta 361 ttcgccgtaa tagcaacagc attcataggc tatgtcctcc ca//

SOURCE

Organismus + zařazení v systému

Page 17: Stránky praktika

LOCUS EF443167 402 bp DNA linear MAM 15-OCT-2007DEFINITION Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial.ACCESSION EF443167VERSION EF443167.1 GI:148832288KEYWORDS .SOURCE mitochondrion Rhinopoma hardwickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma.REFERENCE 1 (bases 1 to 402) AUTHORS Hulva,P., Horacek,I. and Benda,P. TITLE Molecules, morphometrics and new fossils provide an integrated view of the evolutionary history of Rhinopomatidae (Mammalia: Chiroptera) JOURNAL BMC Evol. Biol. 7, 165 (2007) PUBMED 17868440 REMARK Publication Status: Online-OnlyREFERENCE 2 (bases 1 to 402) AUTHORS Hulva,P. TITLE Direct Submission JOURNAL Submitted (18-FEB-2007) Zoology, Charles University, Vinicna 7, Prague, 2 12843, Czech RepublicFEATURES Location/Qualifiers source 1..402 /organism="Rhinopoma hardwickii" /organelle="mitochondrion" /mol_type="genomic DNA" /db_xref="taxon:124756" /haplotype="2949" CDS 1..>402 /codon_start=1 /transl_table=2 /product="cytochrome b" /protein_id="ABR14084.1" /db_xref="GI:148832289" /translation="MTHIRKSHPLFKIINDSFIDLPAPSNISSWWNFGSLLGICLAVQ ILTGLFLAMHYTSDTTTAFYSVTHICRDVNYGWILRYLHANGASMFFICLFMHVGRGI YYGSYLFTETWNIGIILLFAVMATAFMGYVLP"ORIGIN 1 atgacccaca tccgaaaatc ccacccctta ttcaaaatta tcaacgactc attcatcgac 61 ctaccagctc catcaaacat ttcctcctga tgaaattttg ggtccctact aggtatttgt 121 ttagctgtac aaatcttaac aggactgttc ctagcaatac attatacatc agataccaca 181 accgccttct actctgttac ccatatctgc cgagacgtaa attacggctg aatcctacgt 241 tacctccatg ccaacggagc atccatattc ttcatctgcc tatttataca tgtaggccga 301 ggcatctatt acggctcata cctattcaca gaaacatgaa acattggcat tatccttcta 361 ttcgccgtaa tagcaacagc attcataggc tatgtcctcc ca//

REFERENCE

Článek(y), kde byla daná sekvence publikována + autoři

Page 18: Stránky praktika

LOCUS EF443167 402 bp DNA linear MAM 15-OCT-2007DEFINITION Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial.ACCESSION EF443167VERSION EF443167.1 GI:148832288KEYWORDS .SOURCE mitochondrion Rhinopoma hardwickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma.REFERENCE 1 (bases 1 to 402) AUTHORS Hulva,P., Horacek,I. and Benda,P. TITLE Molecules, morphometrics and new fossils provide an integrated view of the evolutionary history of Rhinopomatidae (Mammalia: Chiroptera) JOURNAL BMC Evol. Biol. 7, 165 (2007) PUBMED 17868440 REMARK Publication Status: Online-OnlyREFERENCE 2 (bases 1 to 402) AUTHORS Hulva,P. TITLE Direct Submission JOURNAL Submitted (18-FEB-2007) Zoology, Charles University, Vinicna 7, Prague, 2 12843, Czech RepublicFEATURES Location/Qualifiers source 1..402 /organism="Rhinopoma hardwickii" /organelle="mitochondrion" /mol_type="genomic DNA" /db_xref="taxon:124756" /haplotype="2949" CDS 1..>402 /codon_start=1 /transl_table=2 /product="cytochrome b" /protein_id="ABR14084.1" /db_xref="GI:148832289" /translation="MTHIRKSHPLFKIINDSFIDLPAPSNISSWWNFGSLLGICLAVQ ILTGLFLAMHYTSDTTTAFYSVTHICRDVNYGWILRYLHANGASMFFICLFMHVGRGI YYGSYLFTETWNIGIILLFAVMATAFMGYVLP"ORIGIN 1 atgacccaca tccgaaaatc ccacccctta ttcaaaatta tcaacgactc attcatcgac 61 ctaccagctc catcaaacat ttcctcctga tgaaattttg ggtccctact aggtatttgt 121 ttagctgtac aaatcttaac aggactgttc ctagcaatac attatacatc agataccaca 181 accgccttct actctgttac ccatatctgc cgagacgtaa attacggctg aatcctacgt 241 tacctccatg ccaacggagc atccatattc ttcatctgcc tatttataca tgtaggccga 301 ggcatctatt acggctcata cctattcaca gaaacatgaa acattggcat tatccttcta 361 ttcgccgtaa tagcaacagc attcataggc tatgtcctcc ca//

FEATURES

Podrobný popis jednotlivých genů včetně jejich pozic – např. počátek a konec kódující sekvence, sekvence proteinu + XREFS

Pozice genu v rámci sekvence

Page 19: Stránky praktika

LOCUS EF443167 402 bp DNA linear MAM 15-OCT-2007DEFINITION Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial.ACCESSION EF443167VERSION EF443167.1 GI:148832288KEYWORDS .SOURCE mitochondrion Rhinopoma hardwickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma.REFERENCE 1 (bases 1 to 402) AUTHORS Hulva,P., Horacek,I. and Benda,P. TITLE Molecules, morphometrics and new fossils provide an integrated view of the evolutionary history of Rhinopomatidae (Mammalia: Chiroptera) JOURNAL BMC Evol. Biol. 7, 165 (2007) PUBMED 17868440 REMARK Publication Status: Online-OnlyREFERENCE 2 (bases 1 to 402) AUTHORS Hulva,P. TITLE Direct Submission JOURNAL Submitted (18-FEB-2007) Zoology, Charles University, Vinicna 7, Prague, 2 12843, Czech RepublicFEATURES Location/Qualifiers source 1..402 /organism="Rhinopoma hardwickii" /organelle="mitochondrion" /mol_type="genomic DNA" /db_xref="taxon:124756" /haplotype="2949" CDS 1..>402 /codon_start=1 /transl_table=2 /product="cytochrome b" /protein_id="ABR14084.1" /db_xref="GI:148832289" /translation="MTHIRKSHPLFKIINDSFIDLPAPSNISSWWNFGSLLGICLAVQ ILTGLFLAMHYTSDTTTAFYSVTHICRDVNYGWILRYLHANGASMFFICLFMHVGRGI YYGSYLFTETWNIGIILLFAVMATAFMGYVLP"ORIGIN 1 atgacccaca tccgaaaatc ccacccctta ttcaaaatta tcaacgactc attcatcgac 61 ctaccagctc catcaaacat ttcctcctga tgaaattttg ggtccctact aggtatttgt 121 ttagctgtac aaatcttaac aggactgttc ctagcaatac attatacatc agataccaca 181 accgccttct actctgttac ccatatctgc cgagacgtaa attacggctg aatcctacgt 241 tacctccatg ccaacggagc atccatattc ttcatctgcc tatttataca tgtaggccga 301 ggcatctatt acggctcata cctattcaca gaaacatgaa acattggcat tatccttcta 361 ttcgccgtaa tagcaacagc attcataggc tatgtcctcc ca//

ORIGIN

Sekvence

Konec sekvence

Page 20: Stránky praktika

Příklad

GenBank na stránkách NCBI – ve vyhledávání možnosti “Nucleotide” - GenBank + RefSeq

Vyhledávání podle rodového názvu “Mammuthus”

Velké množství záznamů – omezit výběr pouze na neredundantní databázi RefSeq

Celý genom – použít webový formulář k výběru pouze sekvence cytochromu b (pozice v části SOURCE – CDS)

Vyhledejte sekvence cytochromu b ze všech druhů mamutů, které byly osekvenovány (jaké druhy?)

Exportujte protein-kódující část do FASTA formátu a uložte na počítač

Postup:

Page 21: Stránky praktika

Porovnání sekvencí: Alignment Porovnání/přiřazení dvou a více sekvencí Při alignmentu předpokládána homologie sekvencí Využívány různé typy algoritmů = různé předpoklady

Sekvence se shodují

Sekvence se liší

Sekvence chybí

Page 22: Stránky praktika

• Pairwise Alignment (2 sekvence)– Globální (Needleman-Wunsch):

• Zhruba stejně dlouhé sekvence

• Snaží se přiřadit od začátku až do konce sekvence

– Lokální (Smith-Waterman):• Jen nejlépe shodující se místa obou sekvencí

• Sekvence různě dlouhé

Např. BioEdit http://www.ebi.ac.uk/http://www.bioinformatics.org/sms2/index.html

http://en.wikipedia.org/wiki/Sequence_alignment

Typy alignmentů

Page 23: Stránky praktika

• Multiple Alignment– Více sekvencí– Hledá konzervativní místa– ClustalW, Muscle, T-coffee

Např. BioEdit,http://www.ebi.ac.uk/,http://www.bioinformatics.org/sms2/index.html

http://en.wikipedia.org/wiki/Multiple_sequence_alignment

Page 24: Stránky praktika

Uchovávání alignmentů

Podobně jako v případě sekvencí – v textových souborech ve specifickém formátu

Různé formáty: nejčastěji formát programu ClustalW (.aln) lze také jako multiple FASTA Phylip (.phy), NEXUS (.nex) – odpoledne Nově SAM (Sequence Alignment/Map format) – velké

celogenomové alignmenty

Page 25: Stránky praktika

BLAST

Základní BLAST – prohlédávání celé databáze pomocí

nukleotidové sekvence

Vyhledávání v jednotlivých referenčních

genomech

Page 26: Stránky praktika

BLAST

Vložit sekvenci

Zvolit “Others”

Zvolit databázi, ve které chceme BLASTovat

Page 27: Stránky praktika

Příklad 1

Vyhledejte sekvence nejpodobnější cytochromu b mamuta z tří jiných druhů

Vytvořte multiple FASTA soubor Proveďte multiple alignment stažených

sekvencích

BLAST na NCBI – „nucleotide blast” option - “reference genomic sequences” databáze (nonredundantní genomické sekvence)

Stáhnout protein-kódující sekvence cytochromu b Vytvořit v libovolném textovém editoru multiple FASTA soubor Provést multiple alignment (na EBI – na webu, BioEdit – na počítači)

EBI (www.ebi.ac.uk) – services – DNA & RNA – Clustal2W BioEdit – Accessory Applications – ClustalW Multiple Alignment

Postup:

Page 28: Stránky praktika

Příklad 2Úloha ze života

• BLAST ke zjištění zdroje kontaminace – např. sekvenuji mamuty – nezdá se mi jedna se sekvencí

Postup:

Jedna ze dvou sekvencí na stránkách praktika

BLAST - “nucleotide blast” option

???

Page 29: Stránky praktika

Navržení primerů pro PCR

Maskování repeatůDesign primerůIn Silico PCR (e-PCR)

Page 30: Stránky praktika

http://www.repeatmasker.org/

Maskování repeatů: RepeatMasker

•Umožní vyhledat a „zakrýt“ oblasti, které jsou v genomu ve větším počtu (mikrosatelity, retrotranspozony a transpozony)

•Umožní nám to při navrhování primerů se vyvarovat nespecifickým amplifikacím při PCR

•Pouze ale organismy, které jsou buď již osekvenovány anebo jsou jim blízce příbuzné (retrotransposony a transposony) X mikrosatelity lze maskovat u jakýchkoliv organismů

Page 31: Stránky praktika

Zamaskovaná sekvence

• Pomocí N nebo použitím malých písmen (většina programů určených pro analýzu sekvencí s nimi umí pracovat)

>MusY.1ACACTTTTTCTTTTGCATAATGCTGTGTGGAGATTTTGCAGACAGCATTGCTGTAAAATGCAGAGTAATTTCTGTAATGAGCTTGTGAAATATTGACTATTATGGCCCTCTCTAAGCATGGCTTTAATTATATTCTAGCACAGCAGCTTCTCTGGGGATACTCAGGTCAGATCACTGACTGAATGTTGTGTTCATTTGAAACNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGTCATTTGTTGGTGTGCTGAATTCTGTTTTGTTTTGCTTTTAACCTAACTAGCTAGAAATTCTGTCAATCTTTTTTCCTTCCTAGAAAGANNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGAAACACAGGCTTT

Page 32: Stránky praktika

RepeatMasker

Page 33: Stránky praktika

RepeatMaskerVložit nukleotidovou sekvenci

Vybrat organismus

Page 34: Stránky praktika

RepeatMasker

Výstup analýzy RepeatMaskeru

Page 35: Stránky praktika

RepeatMasker

Výstup analýzy RepeatMaskeru

Page 36: Stránky praktika

Design primerů:Primer3, Primer3Plus

http://www.bioinformatics.nl/cgi-bin/primer3plus/primer3plus.cgi/

TCCGAAAATCCCACCAATTATCAACGACTCATTC

F

R

Page 37: Stránky praktika

TGCG{CGCTAAGA<CTCCT>AA[CACACACACA]CGGAATTAGGGAAC}TT

Included RegionTargetExcluded Region

Page 38: Stránky praktika

Maskování repeatů

Koncentrace Mg2+ Koncentrace dNTPs

Rozestup primerů => délka amplifikované oblasti

Page 39: Stránky praktika

Elektronická PCR (e-PCR)

• Vezme dvojici primerů a zkouší, zda-li by PCR ve známém genomu amplifikovala pouze námi požadovanou oblast nebo i jiné oblasti

• Server UCSC (http://www.genome.ucsc.edu/)

• Lze i na NCBI

Page 40: Stránky praktika

e-PCR

Page 41: Stránky praktika

e-PCR

Organismus AssemblyF a R primery

Page 42: Stránky praktika

Příklad

• Sekvence mikrosatelitů z myšího Y chromosomu na stránkách praktik (vytvořte multiple FASTA)

• Zamaskujte mikrosatelity pomocí RepeatMaskeru

• Navrhněte kolem nich primery v Primer3

• Zjistěte, které z těchto primerů jsou dále použitelné pomocí e-PCR

Page 43: Stránky praktika

Pozice genů v genomu

Genomický koordinátový systém – založený na fyzické pozici nukleotidů v rámci většího celku (např. kontigu, chromozomu)

Tvoří pak tzv. fyzickou mapu (v base pairs: bp)

– např. u myši je začátek chromozomu na centromeře (pozice 1)

– např. gen SRY chrY:1,918,381-1,919,568 (přibližná pozice pak 1.9 Mb)

Jiné mapy: cytogenetická mapa, genetická mapa (cM)

Page 44: Stránky praktika

Assembly

Verze koordinátového systému Počáteční verze genomu postrádají hůře sekvenovatelné

oblasti – jsou zaplněny Nky, ale postupně dochází k neustálému zpřesňování genomické sekvence = zpřesňování fyzické mapy

Rozdíl ve fyzikální pozici genů mezi různými assembly (až několik Mb)

Adh5 (Alcohol dehydrogenase 5)

chr3: 138,443,093-138,455,499chr3:138,106,057-138,118,463

GRCm38NCBIM37

Page 45: Stránky praktika

Genomové prohlížeče Ensembl, UCSC, NCBI Nejvíce user-friendly asi Ensembl...

VERZE

Page 46: Stránky praktika

Příklad

Najděte tyto informace o genu Adh5 v myším genomu: Počet transkriptů, typ transkriptu? Kolik exonů má kanonický transkript? Jaká proteinová rodina (ID)? Kolik druhů dostupných na Ensembl má alespoň jeden ortholog tohoto

genu? Ve kterém taxonu dostupném na Ensembl je největší počet homologů

tohoto genu? Získejte protein-kódující sekvence genu (vždy kanonický transkript) pro

všechny hlodavce na Ensemblu, exportujte je do FASTA formátu, proveďte alignment

Page 47: Stránky praktika

BioMart

• Při práci s více geny – efektivní získávání dat

• Pracuje na principu filtru – lze nastavit parametry výběru tzn. filtrovat na základě:

– pozice v genomu

– ID genů (konverze ID z různých databází)

– genové rodiny

– orthology

– paralogy

– ...

• Výstup lze uložit jako .txt, .csv nebo .xls soubor

Page 48: Stránky praktika

BioMart (Ensembl)

Page 49: Stránky praktika

Dababáze

Dataset = organismus

Verze se aktualizuje každé cca 2-3 měsíce

Důležité: pamatovat si verzi se kterou pracuji!!!

Page 50: Stránky praktika

Parametry výběru: kritéria definující set genů

Požadovaná data ve výstupu

Propojení s daty z jiných organismů (pokročilé)

Page 51: Stránky praktika

Kritéria výběru: pozice v genomu

Page 52: Stránky praktika

Výběr atributů ve výstupu

Page 53: Stránky praktika
Page 54: Stránky praktika

Seznámení s BioMartem

Na základě jakých všech kritérií je možné filtrovat?

Jaká data lze na BioMartu získat – možnosti atributů?

Page 55: Stránky praktika

Příklad 1• Oblast na chromosomu 11 (23 – 25 Mb) byla asociována s

reprodukční izolací mezi dvěma druhy myši domácí. Cílem je získat seznam protein-kódujících genů v této oblasti a vybrat kandidáty pro další výzkum (předpoklad: rychle se vyvíjející se geny mají větší pravděpodobnost být zodpověné za vznik reprodukční bariéry).

• Postup:– Získejte seznam genů včetně jména a popisu spolu s pozicí v

genomu, orthologů u potkana a informace o rychlosti molekulární evoluce mezi potkanem a myší z oblasti chr11:23000000-25000000

– Exportujte data do excelové tabulky seřaďte geny nejvíce kandidátních po nejméně kandidátní, určete kandidáty

Page 56: Stránky praktika

Příklad 2• Získejte protein-kódující sekvence všech genů z rodiny

tzv. hlavních močových proteinů (Major Urinary Proteins) v genomu myši a proveďte multiple alignment

• Postup:– Získejte ID rodiny MUPs

– Použijte BioMart k získání protein-kódujících sekvencí MUPů a exportujte je do FASTA souboru


Recommended