生物信息学复习总结

生物信息期末总结
1. 生物信息学(Bioinformatics)定义: (第一章) ★
生物信息学是一门交叉科学, 它包含了生物信息的获取、 加工、 存储、 分配、 分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工 具来阐明和理解大量数据所包含的生物学意义。 (或: ) 生物信息学是运用计算机技术和信息技术开发新的算法和统计方法, 对生物 实验数据进行分析, 确定数据所含的生物学意义,并开发新的数据分析工具以实 现对各种信息的获取和管理的学科。 (NSFC)

2. 科研机构及网络资源中心:
NCBI:美国国立卫生研究院 NIH 下属国立生物技术信息中心; EMBnet:欧洲分子生物学网络; EMBL-EBI:欧洲分子生物学实验室下属欧洲生物信息学研究所; ExPASy: 瑞士生物信息研究所 SIB 下属的蛋白质分析专家系统; (Expert Protein Analysis System) Bioinformatics Links Directory; PDB (Protein Data Bank); UniProt 数据库

3. 生物信息学的主要应用:
1. 生物信息学数据库; 2. 序列分析; 3. 比较基因组学; 4. 表达分析; 5. 蛋 白质结构预测;6.系统生物学;7.计算进化生物学与生物多样性。

4. 什么是数据库:



1、 定义: 数据库是存储与管理数据的计算机文档、 结构化记录形式的数据集合。 (记录 record、字段 field、值 value) 2、生物信息数据库应满足 5 个方面的主要需求: (1)时间性; (2)注释; (3)支撑数据 ; (4)数据质量 ; (5)集成性。 3、生物学数据库的类型:一级数据库和二级数据库。 (国际著名的一级核酸数据库有 Genbank 数据库、 EMBL 核酸库和 DDBJ 库等;

蛋白质序列数据库有 SWISS-PROT 等;蛋白质结构库有 PDB 等。 ) 4、一级数据库与二级数据库的区别: 1)一级数据库: 包括:a.基因组数据库----来自基因组作图; b.核酸和蛋白质一级结构序列数据库; c.生物大分子(主要是蛋白质)的三维空间结构数据库, (来自 X-衍射 和核磁共振结构测定); 2)二级数据库: 是对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验 数据和理论分析的基础上针对特定的应用目标而建立的。 一般说来,一次数据库的数据量大,更新速度快,用户面广,通常需要高性 能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑。 二次数据库的容量则小得多,更新速度也不像一次数据库那样快,也可以不 用大型商业数据库软件支持, 这类针对不同问题开发的二次数据库的最大特点是 使用方便,特别适用于计算机使用经验不太丰富的生物学家。 5、一个数据库记录(entry)一般由两部分组成: 1)原始序列数据(sequence data); 2)描述这些数据生物学信息的注释(annotation):注释中包含的信息与相应的 序列数据同样重要和有应用价值。 6、数据的完整性和注释工作量:1)序列数据广,序列注释不够完整; 2)库数据面窄,序列注释全面. 7、数据库的动态更新:1)不断增加;2)不断修正.



5、几个大型数据库简介:
NCBI、 EBI、 SIB (共点: 拥有庞大的一级数椐库、 大量工具软件和广泛的外联。 ) 1、NCBI(www.ncbi.nlm.nih.gov): NCBI 是指美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI) ,成立于 1988 年,其主要工作是开发以 GenBank 为代表的 数据库,进行计算生物学研究,开发用于分析基因组数据的软件工具,发布生物 医学信息。

1)Entrez(集成化的数据库) (http://www.ncbi.nlm.nih.gov/gquery/) Entrez 是 NCBI 著名的用于提取序列信息的工具,它将科学文献、DNA 和 蛋白质序列数据库、 蛋白质三维结构数据、种群研究数据以及全基因组组装数据 整合成一个高度集成的系统。类似于 EBI 的 SRS(见下文) ,是一个查询、提取 和显示系统。The original version(原始版本)(1991) of Entrez had just 3 nods。 2) 可查 Protein、 PubMed (生物医学文献数据库) 、 Nucleotide、 Genome、 Gene、 Pathway 等相关信息。

2、EMBL-EBI(www.ebi.ac.uk) EMBL Nucleotide Sequence Data Library(now known as EMBL-Bank)为世界 上第一个核酸序列数据库(1980) 。 欧洲分子生物学实验室下属欧洲生物信息学研究所 (European Bioinformatics Institute, EBI,1992,英国)EMBL-EBI 核酸数据库提供了序列搜索的服务。通 过它的序列提取系统—SRS6(搜索引擎) ,我们可以用十几种不同的方法(如用 关键字)搜索我们想要的序列。EBI 还资助了 Ensembl 项目,Ensembl 是一个 用于对各类物种基因组进行生物信息学分析的非常完备的网站。 欧洲分子生物学 实验室 EMBL (The European Molecular Biology Laboratory) 。 Services、 UniProt、 ArrayExpress、Ensembl、InterPro、PDBe 等界面。 3、SIB(us.expasy.org) 瑞士生物信息研究所(Swiss Institue of Bioinformatics,SIB ,30 March 1998 )。 用于获取蛋白质序列和相关数据的最有用的资源之一就 SIB 提供的蛋白质专家 分析系统:SWISS-PROT,ExPASy(Expert Protein Analysis System 瑞士日内瓦 大学专家蛋白质分析系统(http://www.expasy.ch/) ) 。

6、核酸序列数据库:

1、国际上权威的核酸序列数据库: (1)欧洲分子生物学实验室的 EMBL; (2)美国生物技术信息中心的 GenBank; (3)日本遗传研究所的 DDBJ, ( http://www.ddbj.nig.ac.jp/) ; 这三个数据库是综合性的 DNA 和 RNA 序列数据库,每条记录代表一个单 独、连续、附有注释的 DNA 或 RNA 片段。三个数据库中的数据基本一致,仅 在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。 2、INSDC 国际核酸序列数据库协会: 1998 年,GenBank、EMBL 和 DDBJ 共同成立了国际核酸序列数据库协会 (International Nucleotide Sequence Database Collaboration,INSDC) ,三大核酸数 据库之间每天将新测定或更新的数据进行交换共享, 保证数据信息的完整与同步, 每两个月更新一次版本。 (http://www.insdc.org/)

7、蛋白质序列数据库:
1)PIR(Protein Information Resource) ; (http://pir.georgetown.edu/) 2)SWISS-PROT; (http://www.expasy.ch/sprot/sprot-top.html) 3)TrEMBL;(http://www.ebi.ac.uk/trembl/index.html) 是与 SWISS-PROT 相 关的一个数据库。包含从 EMBL 核酸数据库中根据编码序列(CDS)翻译 而得到的蛋白质序列, 并且这些序列尚未集成到 SWISS-PROT 数据库中; 4)NCBI 美国国家生物技术信息中心( National Center for Biotechnology Information,NCBI) ; 5) UniProt; 通用蛋白质数据库 (http://www.uniprot.org/) 包括: (Swiss-Prot、 TrEMBL、PIR) 用户可以通过文本查询数据库,可以利用 BLAST 程序 搜索数据库,也可以直接通过 FTP 下载数据。

8、生物大分子结构数据库:
1)PDB(Protein Data Bank) ; (http://www.rcsb.org/) 2) MMDB(Molecular Modeling Database); (www.ncbi.nlm.nih.gov/Structure/)

9、其它生物分子数据库:
1)单碱基多态性数据库 dbSNP; 2)基因组数据库(GDB) ; 3)人类基

因组数据库 Ensembl; 4)表达序列标记数据库 dbEST; 5)序列标记位点数据 库 dbSTS;6) 面向基因聚类数据库 UniGene;7) 蛋白质结构分类数据库 SCOP; 8)蛋白质二级结构数据库 DSSP;9)蛋白质同源序列比对数据库 HSSP;10) OMIM(Online Mendelian Inheritance in Man),是关于人类基因和遗传疾病的分类 数据库。 。 。

》 》 》Nucleic Acid Research《 《 《
附:1、NCBI 和 EBI 使用的搜索引擎分别是什么? 答:NCBI 使用的是 Entrez,EBI 使用的是 SRS。 2、FASTA 格式有哪些部分组成,以什么字符开始? 答:包含 gi number,Database identifiers,Accession number,Locus name 等 部分,以>字符开始。 3、NCBI 的 WEB 和离线序列提交软件是什么? 答:WEB 提交工具:Bankit;离线提交:Sequin 4、系统生物学: 答:确定、 分析和整合生物系统在遗传或环境扰动下所有内部元件间相互作 用关系的一门学科。

10、序列数据的文件格式:(第二章)
格式主要有三种: DNA/RNA/氨基酸代码的标识(B、Z) ; GenBank 数据格式; FASTA 数据格式。 一、GBFF(GenBank flatfile)—GenBank 平面文件格式: GenBank、EMBL、DDBJ 每天都相互同步更新各自的数据库,那么它们是 怎样交换数据的呢?这里引入 GBFF(GenBank flatfile 即 GenBank 平面文件)格 式。 GBFF 是 GenBank 数据库的基本信息单位, 是最为广泛使用的生物信息学序 列格式之一。GBFF 文件分为三部分:a.头部包含整个记录的信息(描述符) ; b.第二部分包含了注释这一记录的特性;c.第三部分是核苷酸序列本身。 (注:所有序列数据库记录都在最后一行以“//”结尾。 )

1) GBFF:LOCUS 行 (LOCUS ,SCU49845,5028 bp,DNA linear,PLN,21-JUN-1999) 所有 GBFF 都起始于 LOCUS 行: 第一项:是 LOCUS 名称(SCU49845) :现在唯一的作用是它在数据库中是独一 无二的,已不再具有任何实际意义。大多数情况下,它仅使用检索号码 (accesession number)以满足对 LOCUS 名称的要求; 第二项是序列长度(5028 bp) :规定单条数据库记录的长度不能超过 350kb。除 历史原因外,GenBank 已经很少接受长度低于 50bp 的序列了; 第三项表明分子类型(DNA) :其序列必须是一种单一的分子类型; 第四项是 GenBank 分类码(PLN) :由 3 个字母组成。现在其作用仅限于在下载 数据库时对数据库作简单的分类。 最后一项是其最后修订日期 (21-JUN-1999) : 有时也仅表示数据首次公开日期。 2) GBFF: DEFINITION 行(definition) (DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds.) LOCUS 行的下一行为 DEFINITION 行: 主要对 GenBank 记录中所含的生物 学意义做出总结。它的说明内容包括了来源物种、基因/蛋白质名称。若序列是 非编码区,则包含对序列功能的简单描述;若是一段编码区,则标明该序列是部 分序列(partial cds)还是全序列(complete cds) 。 3) GBFF:ACCESSION 行( accession)检索号行

(ACCESSION U49845)
检索号(accession)是序列记录的惟一指针。通常由 1 个字母加 5 个数字

(U12345)或由 2 个字母加 6 个数字(AF123456)组成。它在数据库中是惟一 而且不变的。 有时 ACCESSION 行中可能会出现多个检索号, 可能是由于数据提 交者提交了一条与原记录相关的新记录或新提交的记录覆盖了原有的旧记录。 我 们称第一个检索号为主检索号,其余的统称为二级检索号。 4) GBFF:VERSION 行(version)版本号行

(VERSION U49845.1 GI:1293613)
VERSION 行是版本号,格式为:检索号.版本号。版本号用于识别数据库中 一条单一的特定核苷酸序列。在数据库中,如某条序列数据发生了变化,即使是 单碱基的改变它的版本号也将增加,而其检索号保持不变。 版本号系统与其后的 GI(geninfo identifier)号系统是平行运行的。即当一 条序列改变后,它将被赋予一个新的 GI 号,其版本号也将增加。蛋白质的翻译 发生任何变换,核酸序列都将被赋予一个新的 GI 号。 5)GBFF:KEYWORDS 行(keywords)关键词行 (KEYWORDS .)

关键词行是用来描述序列的。如果该行没有任何内容,那么就只包含一个“ .由 于没有对照词汇表, 故 NCBI/GenBank 拒绝接受关键词, 它只存在于旧的记录中。 6)GBFF:OURCE 行(source)来源行

(SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces
cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces.) 对来源行(SOURCE)没做特殊的规定,它通常包含序列来源生物的简称,有时也 包含分子类型。 在下面以 NCBI 的分类数据库为依据, 指明物种的正式科学名称。 7)GBFF:REFERENCE 行 reference 参考文献行

(REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J.
and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) PUBMED 7871890) 参考文献行将与该数据有关的参考文献均收录在内。 将最先发表的文献列于 第一位。如果序列数据没有被相关文献报道,该行将出现“unpublished”或“in

press” 。最后将有一个可能的 PUBMED 指针。 8)GBFF:FEATURES 行(features)特性表行 (FEATURES CDS Location/Qualifiers <1..206 /codon_start=3 /product="TCP1-beta" /protein_id="AAA98665.1" /db_xref="GI:1293614" /translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM" gene 687..3158 /gene="AXL2" ...... ) 特性表(features)描述基因和基因的产物以及与序列相关的生物学特性。特 性表提供一个参考词汇表以对合法的特性进行注释。这些特性包括:1、该序列 是否执行一个生物学功能;2、它是否与一个生物学功能的表达相关;3、它是否 与其它分子相互作用;4、它是否影响一条序列的复制;5、它是否与其他序列的 重组相关;6、它是否是一条已识别的重复序列;7、它是否有二级或三级结构; 8、它是否存在变异或者它是否被修订过。 特性表格式是按表单的方式设计的,分三个主要部分: 1)特性表关键词(feature) ,简要说明功能组; 2)特性位置(location) ,指明在特性表中的什么地方可以找到相关特性, 在此可以包含操作符(operator)和功能性描述符(descriptor)以指明序 列需经过怎样的处理才能得到相应的特性; 3)限定词(qualifier) ,相关特性的辅助信息,限定词组使用一组标准化的 对照词汇表以利于计算机从中提取信息。 (这段序列可以解读为:该编码序列(CDS)起始于第 1 碱基,终止于第 206 碱基,它的产物是 TCP1-beta ,基因名为“AXL2” 。 ) 9)GBFF:ORIGIN (origin)

(ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct ...... 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc )

在 GBFF 文件的最后,以类似于 FASTA 格式的方式给出了所记录的序列。 二、 FASTA 数据格式(FASTA format) : Accession numbers are labels for sequences(检索号)

11、 RefSeq 资料库: (NCBI Reference Sequence Database 参考序列数据库)
RefSeq 资料库是 NCBI 将 GenBank 的序列再做详细整理的 non-redundent 序 列资料库,它的序列格式和 GenBank 几乎完全相同,但因为是完全不同的独立 资料库,为与 GenBank 区别,RefSeq 的 Accession Number(检索号)格式和 GenBank 的不同。 该数据库所收集的参考序列一直在不断地被修改中, 尽管如此, NCBI RefSeq 仍是目前最可信赖的序列数据库。 GenBank 中一个基因的索引号可能有上百个,但对应一个基因的 RefSeq 只 有一个。 (http://www.ncbi.nlm.nih.gov/RefSeq/) NCBI 参考序列数据库(RefSeq)旨在提供一个全面的、集成的、冗余,好的 注释组序列,包括基因组 DNA、转录和蛋白质。RefSeq 是医学、功能和多样性 研究的基础;它们提供一个稳定的参考基因组注释、基因识别和表征,突变和多 态性分析(特别是 RefSeqGene 记录),表达研究和比较分析。

e.g. >数据库检索实例<:

搜索 Genbank no. FJ798090,获得序列相关信息
1. 进入 NCBI 网站,选择 nucleotide:FJ798090 搜索,得到相关信息; 2. 从 CDS 行可看到有关 Aa 的信息,从 ORIDIN 行可看到 DNA 相关信息; 3. 在原网页上选择右边相关信息选择框的 PubMed,查看关联文章; 4. 主页进入 DNA&RNA,选择 tools,点第二个 Batch Entrez,批量下载序列; 5. 提交结果,显示参数与序列下载(Send 选项、选 File、然后选 FASTA 格式), 下载序列,提交序列。

12、提交序列:
1、提交方式主要有三种:1) 、Bankit 逐条提交、需要注册;2) 、Sequin 10000 条以下;3) 、Tbl2asn 超过 1 万条、命令行。 2、 Bankit 提交: 先注册, 后点 New Submission (创建一个新提交) , Sequencing Technology(测序技术) , nucleotide(核酸) , Organism (生 物体) ,Submission Category(提交类别) ,Source Modifiers (源寄存器修改) ,Primers(引物) ,Features(特性) ,Review and Correct(检查和纠正,3 处) 。 3、Sequin DNA 分析软件: (A DNA Sequence Submission and Update Tool) 序列提交:研究产生的新序列,需要递交到公共数据库保存;需要撰写论文 发表新序列时,需要数据库接受号。 4、WEB 在线提交工具:1、NCBI 的 Bankit;2、EBI 的 WEBIN;3、DDBJ 的 SAKURA; 5、离线提交:NCBI 的 Sequin。 6、提交比较:Bankit 提交:使用简单,每个步骤有详细说明。但一次只能提 交一个序列,长度不能太长;Sequin:安装在用户自己的计算机上,可同时递交 若干序列和较长序列,而且整合了许多有用的序列注释工具。

13、引物设计及测序结果分析: (第三章)
1、引物设计流程: 1)序列查找与下载(GenBank) ;

2)序列同源性比较(Blast/alignment); 3)引物设计与筛选(primer 3/其他); 4)引物加工与修饰(酶切、保护、标签、启动子等); 5)引物评价分析(Oligo 6); 6)引物二次筛选(blast); 7)引物最终评估(band); 2、引物设计原则: 基本原则:1)引物与模板的序列要紧密互补;2)引物与引物之间避免形成稳 定的二聚体或发夹结构;3)引物不能在非靶点引发 DNA 聚合反应。 注意点:1、引物长度在 15-30bp 之间; 2、GC 含量为 40-60%之间; 3、引物的特异性(3’端不能有连续的 GGG 或 CCC) ; 4、3’△G 的绝对值不超过 9,双链形成所需自由能; 5、密码子的兼并:3’不要位于密码子的第 3 位。 3、引物设计软件:1)在线工具 Primer 3、Primer-Blast; 2)本地软件 Primer Premier 5; 3)引物评估软件 Oligo 6。 e.g.在线设计引物: 在 Primer 3 界面上将需要设计的序列粘贴复制进入大方框, 确定基本参数和 结果参数后,点击 pick 键后出现 output 页面,将所需的序列即一定要 PCR 出的 序列用中括号括上,再复制进大方框。这两者的差别是第一个是随机的引物,而 第二个选出的引物必然包含你所需的那一段。

KEYS (in order of precedence)优选引物: (****** target, >>>>>> left primer , <<<<<<right primer) 4、Oligo 7 手工设计引物:

上游 ATGGGAAAAGACTATTACAAAATC 下游 TCAATTCGGCAGCGTATCGTAGAG 选择引物长度→选定上下游引物→3’△G 绝对值不能超过 9→Duplex Formation 二聚体分析、Hairpin formation 发夹分析(△G 不能超过 4.5)→成分和 Tm→错 误引发位点分析:一般在 100 以下,若正确引发效率达到 400,可承受超过 100 多点→PCR 最终分析评价→引物二次筛选(上下游引物在 ncbi 中进行 blast 分析 (搜索 primer ncbi)并输入设计的引物,选择 nr 数据库)→引物最终评估(大 小、特异性、效率)→保护碱基与酶切位点(BamHⅠ,NotⅠ) 。 5、测序结果分析: (一、Sanger 法测序;二、测序图查看;三、序列拼接。 ) Sanger 法测序:流程: (1.PCR 扩增;2.产物纯化;3.测序反应;4.电泳分离) ; DNA 测序的实验方法:(末端终止法) ; 测序图查看软件:Chromas、Seqman?; 不好的结果:杂峰、套峰。 e.g.序列拼接实例: 1. SeqMan 软件启动界面;2. 原始测序文件导入软件;3. Assemble(装配) ; 4. Strategy of Contig (重叠群策略) Contig→Strategy view 和 Contig→Alignment view→去除矛盾碱基和缺口(手动删除、修改可疑碱基)→导出拼接序列。

14、核酸序列分析: ( 第四章 )
(常规分析、比对分析、基因结构识别) 1、常规分析: (序列的检索、序列组分分析、序列变换、限制性酶切分析) 1、核酸序列检索: (Entrez、SRS) 2、核酸序列组分分析: (Bioedit→分子量;DNAMAN→碱基组成;EditSeq→碱 基分布) 1)EditSeq(碱基组成:Goodies→DNA Statistic) ; 2)Bioedit (碱基组成 Sequence-?Nucleic Acid?Nucleotide composition) ; Bioedit:一种对基因序列进行分析加工或序列拼接的软件。 3、序列变换: (反向互补序列 EditSeq→Goodies→Reverse complement;

反向序列 EditSeq→Goodies→Reverse Sequence) 4、限制性酶切分析: (BioEdit→Sequence→Nucleic Acid→Restrict Map 在线:NEBcutter、WebCutter、Rebase) 2、比对分析: 意义: 推测基因和蛋白质的进化演变规律; 推测基因和蛋白质的结构和功能; 基本假设:序列的保守性→功能的保守性; 工具:Blast 和 Clustal X; 1) BLAST 比对(Basic Local Alignment Search Tool, 基本局部比对搜索工具)

BLAST 程序的中心思想是将序列切割成一段一段来比较。这两段序列长度 为 W(分别来自提交序列,与数据库) ,比对分值>T。 主要分三步进行: (第一步:由查询序列生成的长度固定(W=3)的字段编译列 表(Score>T);第二步:在数据库中扫描获得与编译列表中的字段匹配的序列记 录,作为后续延伸的种子 seed;第三步:对于每一对选择出来的种子,将其向两 边延伸,使其在尽可能长的距离得到尽可能多的分数。 ) 比对结果的判读:比对结果的显著性以 E 值(Expect value)来衡量,E 值趋向 于 0 时,说明比对结果越显著。E 值的意义就是概率; 比对得分(bit score):表明序列比对的得分,数值越高,两序列越相似。 【作业:以纤维素酶基因序列为靶标,进行核酸组分分析,NCBI 中比对你的序 列,至少使用 blastn,blastx 并下载不少于十个比对出来的序列。 】 回头来看 NCBI 参数选择: (blastp、blastn)

① Limit by Entrez Query: 任何 NCBI BLAST 搜索的范围都可以用在 Entrez 搜 索中使用的任何一种范围限定词来限定; ② Max target sequences:比对之后显示的最大的比对序列的数目; ③ 期望 expect:期望值 E 是得分大于或等于某个分值 S 的不同的比对的数目在 随机的数据库搜索中发生的可能性。 这个数值表示你仅仅因为随机性造成获得这 一联配结果的可能次数。对于 blastn、blastp、blastxt 和 blastn 期望值的默认设置 是 10。 在这个 E 值下, 随机出现得分等于或高于比对得分 S 的期望数为 10 个(这 里是假设用与实际的查询序列长度相等的随机的查询序列搜索数据库)。当将期 望选项值调小时, 返回的数据库搜索结果将变少, 匹配被搜索到的概率也会变小。 增大 E 值将返回更多的结果; ④ 字段长度 word size:对于蛋白质搜索,窗口大小可以被设定为 3(默认值)或 者 2。当用一个查询序列来进行数据库搜索时,BLAST 算法首先将查询序列分 割成一系列具有特定长度(字段长度)的小的序列段(字段)。实际应用中对于蛋白 质搜索很少需要改变字段的长度; 对于核酸序列, 默认的字段长度是 28, BLAST 的字长缺省值为 28,即 BLASTN 将扫描数据库,直到发现那些与未知序列的 28 个连续碱基完全匹配的 28 个连续碱基长度片段为止。然后这些片段(即字)被扩 展。降低字段长度将会使搜索变得更准确同时也会变得更慢; ⑤ 矩阵 matrix: 对于 blastp 的蛋白质-蛋白质搜索有 5 种氨基酸替代矩阵: PAM30、 PAM70、 BLOSUM45、 BLOSUM62(默认值)以及 BLOSUM80。 一些其他的 BLAST 服务器还提供了很多其他的替代矩阵,如 PAM250。通常情况下明智的选择是在 一次 BLAST 搜索中使用几种不同的打分矩阵; ⑥ Compositional adjustments:这个选项是默认选择的,一般来说可改善 E 值 的统计计算和提高灵敏度(减少返回的假阳性结果的数目);

2)blast2 双序列比对: Blast 比对后,当数据库中搜索到多个显著相似的序列时,检测目的序列是 否与之有真正关联,可进行双序列比对 Pairwise Aligment。 Ncleotide: Hsp40 ORF VS bm40
(改变参数)

点阵图 Dot matrix view: 连续线表示序列匹配指出, 缺口表明量序列不匹配之处。 比对结果:

3、基因结构识别: 包括: (ORF 识别; 启动子与转录因子结合位点分析; 重复序列分析; CpG island) 1) ORF 识别: Kozak 原则:1、第四位的偏好碱基为 G;2、ATG 的 5‘端约 15bp 范围内的 侧翼序列内不含碱基 T;3、在第 3、6、9 位,G 为偏好碱基;4、除第 3、6、9 位,在整个侧翼序列中,c 为偏好碱基。 常见 ORF 在线预测工具: (ORF Finder;GeneMark,hmm;Glimmer 原核生 物;Glimmer HMM 真核生物) (ORF 的验证:Blast) 。

2)启动子及转录因子结合分析:Promoter Scan;

3)重复序列分析:repeatmasker; 4)CpG island:CpGPlot; (CpGisland 通常位于启动子附近) CpG 双核苷酸在人类基因组中的分布很不均一,而在基因组的某些区段, CpG 保持或高于正常概率,这些区段被称作 CpG 岛。在哺乳动物基因组中的 1~2kb 的 DNA 片段,它富含非甲基化的 CpG 双倍体。CpG 岛主要位于基因的启 动子 (promotor) 和第一外显子区域,约有 60%以上基因的启动子含有 CpG 岛。 GC 含量大于 50%,长度超过 200bp。

15、DNA 双序列比对 Pairwise Sequence Alignment 原理: (第五章)
1、比什么?给定两条序列(DNA or protein) Seq 1:CATATTGCAGTGGTCCCGCGTCAGGCT Seq 2:TAAATTGCGTGGTCGCACTGCACGCT 它们存在多大程度的相似? CATATTGCAGTGGTCCCGCGTCAGGCT TAAATTGCGT-GGTCGCACTGCACGCT 2、为什么比?(发现功能、研究进化、某条序列的关键特征、疾病的鉴定) 3、序列变化:三种类型的变化包括:Substitution (点突变)、Insertion(插入) 、 Deletion(删除) ,后两个统称为 Indel (插入缺失) 。 4、为达到比对两序列的目的,我们需要一个定量模型来评估两序列,如何定量 两序列间的相似性? 一、 全局比对(Global alignment) : 是对给定序列全长进行比较的方式。 在待比较的两个序列中引入空位 (gap) , 使得对序列的全长都得到比较,Needleman-Wunsch 算法。全局序列比对,比对 的是全部序列。建立一个得分矩阵,A 序列在上方,B 序列在左侧,方格(i,j)的 数值是 A(0-i)到 B(0-j)的最佳比对。全部比对的得分在最下角。 二、 局部比对:获得两序列最佳匹配的区域,有时与全局匹配一致。

16、蛋白序列比对: (第六章)
一般规则: 蛋白质序列 25%的同一性 (长度>100) , 即为同源基因 homologous gene,DNA 序列同一性大于 70%为同源序列。 基于氨基酸相似性的序列比对: 打分矩阵,基于同一性的打分矩阵:对相似性序列比对不错;但对于相似性 程度低的序列效果很差; 替换矩阵,对高度相似的序列,我们可以对氨基酸替换频率进行评估打分; BLOSUM 矩阵基于高度保守区的置换模式; PAM 矩阵基于通过全局比对的突变,包括高度保守区与高度可变区; BLAST 默认使用 BLOSUM62,可以更改。

19、分子进化与系统发育分析(第九章)
1、达尔文进化论:进化:变异的遗传;自然选择:解释为何演变发生的机制; 2、中性进化论:并非所有种群中保留下来的突变都由自然选择所形成;大多数 突变是中性或接近中性,不妨碍种群的生存与繁衍。 3、分子进化的模式: DNA 突变的模式:替代,插入,缺失,倒位; 核苷酸替代:转换 (Transition) & 颠换 (Transversion); (转换:嘌呤被嘌呤替 代,或者嘧啶被嘧啶替代;颠换:嘌呤被嘧啶替代,或者嘧啶 被嘌呤替代) 基因复制:多基因家族的产生以及假基因的产生: A. 单个基因复制、重组或逆转录;B. 染色体片断复制;C. 基因组复制 4、同源物的定义: 5、同源性与相似性: 相似性 (Similarity):序列比对过程中用来描述检测序列和目标序列之间相似 DNA 碱基或氨基酸残基序列所占比例(为定量描述) ; 同源性 (Homology): 两个基因或蛋白质序列具有共同祖先的结论 (定性判断) ; 相似不一定同源;同源不一定相似。 氨基酸序列相似性超过 30%,很可能同源。 6、Ka/Ks:计算及含义

1)Ka:每个非同义位点的非同义替代数目; 2)Ks:每个同义位点的同义替代数目; Ka/Ks ~ 1: 中性进化; ;ka/Ks << 1: 阴性选择,净化选择; ;ka/Ks >> 1: 阳性选 择,适应性进化。 (多数基因为中性进化,约 1%的基因受到阳性选择->决定物种 形成、新功能的产生;PAML, MEGA 等工具:计算 Ka/Ks 及统计显著性) 7、相对同义密码子使用度(relative synonymous codon usage,RSCU): 定义: 观测到的某一同一密码子的使用次数, 除以 “期望” 的该密码子出现次数。 8、密码子相对适应度(The relative adaptiveness of a codon) : 编码第 i 个氨基酸的第 j 个同义密码子的 “相对适应性” , 即该同义密码子的 观察值,除以编码该氨基酸的同义密码子的最大值。 9、CAI:密码子适应指数(Codon Adaptation Index) ,是分析密码子偏爱性 最常用的方法。 (CAI 值介于 0~1 之间, 该值越大表示偏性越强;CAI 值一般用 来预测种内基因的表达水平,以及预测外源基因的表达水平;不同物种 CAI 的 计算依赖于各自的参考数据集。 ) 10、构建系统发育树(进化树)的方法: A. 最大简约法 (maximum parsimony, MP),适用序列有很高相似性时; B. 距离法 (distance-based methods) ,适用序列有较高相似性时; C. 最大似然性法 (Maximum Likelihood,ML) 可用于任何相关序列集合; D. 贝叶斯(Bayesian)推断; 计算速度:距离法 >最大简约法 >最大似然法 11、信息位点 (Sites are informative):能将所有可能的树区别出来的位点。 信息位点是指那些至少存在 2 个不同碱基/氨基酸且每个不同碱基/氨基酸至 少出现两次的位点。 12、通过进化距离构建进化树的方法有很多,常见有: (1) Fitch-Margoliash Method (FM 法):对短支长非常有效; (2) Neighbor-Joining Method (NJ 法/邻接法): 求最短支长, 最通用的距离方法; (3) Neighbors Relaton Method(邻居关系法) ; (4) Unweighted Pair Group Method with Arithmetic Mean (UPGMA, 非加权组 平均法)


相关文档

生物信息学总复习
生物信息学总结
生物信息学复习
生物信息学期末复习知识点总结
生物信息学复习提纲
生物信息学复习资料
生物信息学 考点及总结
生物信息学B复习要点
生物信息学复习题
陈润生,生物信息学,考试总结
电脑版