YLWWINNER是什么
发布网友
发布时间:2022-04-20 04:17
我来回答
共1个回答
热心网友
时间:2022-05-13 03:16
分子生物学数据库的演变经历了文献索引数据库、事实数据库和知识数据库三个阶段。
生物信息学涉及的数据库可大致分为二种:初级数据库和二级数据库。
一级数据库(初级数据库):数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释。
二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
国际上著名的初级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等;基因组数据库等。
国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。
EMBL数据库的每个条目是一份纯文本文件。每一行最前面是由两个大写字母组成的识别标志, 欧洲国家的许多数据库如SWISS-PROT、ENZYME、TRANSFAC 都采用EMBL格式。
GenBank序列文件由单个的序列条目组成。序列条目是一个纯文本文件,由字段组成,每个字段由关键字(为完整的英文字,不用缩写)起始(每行左端或为空格),后面为该字段的具体说明。有些字段又分若干次子字段,以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。
Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。
PubMed系统是由美国国立生物技术信息中心(NCBI)开发的用于检索MEDLINE、PreMED-LINE数据库的网上检索系统。MEDLINE是美国国立医学图书馆(U.S.National Library of Medicine)最重要的书目文摘数据库,内容涉及医学、护理学、牙科学、兽医学、卫生保健和基础医学。
BLAST(Basic Local Alignment Search Tool):是目前常用的数据库搜索程序,意为“基本局部相似性比对搜索工具”。国际著名生物信息中心都提供基于网络的BLAST服务器。
SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据库。
数据库查询(database query) :对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。有时也称数据库检索,它和互联网上通过搜索引擎 (Search engine) 查找需要的信息是一个概念。
数据库搜索(database search
是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。最为著名的信息检索系统是美国NCBI开发的Entrez数据检索系统和EBI开发的SRS序列检索系统
数据库相似性搜索工具最常见的是FASTA工具和BLAST工具。
EMBL的发送系统为WebIn
GenBank 的发送系统sequin
测序工作者可以把自己工作中获得的新序列提交给NCBI,添加到Genbank数据库。这个任务可以由基于Web界面的BankIt或独立程序Sequin来完成。
确定DNA序列之间或蛋白质序列之间相似性程度的过程称为序列比对(sequence alignment)。
双序列比对(pairwise alignment)是指通过一定算法对两个DNA或蛋白质序列进行比较,找出两者之间最大相似性匹配。
变异的种类主要有以下三种: 替代(substitution)插入或删除(insertion or deletion) indel 重排(rearrangement
同源序列是从某一共同祖先经趋异进化而形成的不同序列 。
相似性(similarity)指序列比对过程中用来描述序列之间相同或相似DNA碱基或氨基酸残基序列所占比例的高低。
同源性(homology)是指从一些数据中判断出两个基因在进化上曾具有共同祖先的结论。
全局比对(global alignment):
从全长序列出发,考察两个序列之间的整体相似性。
局部比对(local alignment):
着眼于序列中的某些特殊片断,比较这些片断之间的相似性、
(3)K-元法/字法
(k-tuple method /word method)
该方法从寻找完全匹配的短片断(称为k-元或字)出发,并以此为基础运用动态规划方法将这一片断向两端延伸,得到较长的相似性匹配。
在进行序列两两比对时,有两方面问题直接影响相似性分值:取代矩阵和空位罚分。
空位:序列中任意连续的尽可能长的空格
空位开放 (gap opening)
对新空位的产生进行的空位开放罚分(a)
空位延伸(gap extension )
对空位延伸所进行的空位延伸罚分(b)
空位罚分(Wk)的数学公式
Wk=a+bk k为连续空位个数
@空位处罚特点:1、同常对于a会选择一个高分(10-15分)对于b会选择一个低分(1-2分)
2、大的空位设置值配以很小的空位扩展罚值被普遍证实是最佳的设定思路
@目前最有名的蛋白质矩阵Blosum、PAM
@PAM矩阵要点:可观测突变百分率
核酸序列的检索
1.NCBI中的Entrez
*核酸中载体序列的识别和去除VecScreen
重复序列分析 有CENSOR(EMBL)和RepeatMasker
CpG岛识别 CpGPlot/CpGReport
启动子与转录因子结合位点的识别TRES、Neural Network Promoter Prediction、Dragon Promoter Finder、 promoterInspector、NNPP2.1、TSSG、promoter2.0、Mcpromoter 。
内含子-外显子剪接位点的识别SpliceView、NetGene2和BDGP中Splice Site Prediction等。
编码区统计特性分析GRAIL和GenMark
tRNA基因的识别tRNAscan-SE
其它综合基因预测工具GENSCAN
*性内切酶分析REBASE(从google英文界面进入)
在线*性酶切资源NEBcutter V2.0 WebCutter
PCR引物设计Primer 3 Genefisher
① 引物应用核酸系列保守区内设计并具有特异性。
② 产物不能形成二级结构。
③ 引物长度一般在15~30bp碱基之间,常用的是18~27bp,但不应大于38bp,两引物长度差异不超过3bp。
④ G+C含量在40%~60%之间。
⑤ 退火温度在42~57℃,但两引物间的退火温度的差不可大于5℃ 。
⑥ 引物自身不能有连续4个碱基的互补。
⑦ 引物之间不能有连续4个碱基的互补。
⑧ 引物5′端可以修饰(加酶切位点序列;标记生物素、荧光素、地高辛等 )。
⑨ 引物3′端不可修饰。
⑩ 引物3′端要避开密码子的第3位,一般避免使用碱基A,最好为G和C。
PIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,
PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。
SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。
ProtParam工具 这是用于计算蛋白质的各种物理化学性质的工具,包括蛋白质的相对分子质量、理论pI值、氨基酸组成、原子组成、消光系数、半衰期、不稳定系数以及总平均亲水性等。
Compute pI/MW工具 是ExPASy工具包中的程序,计算蛋白质的等电点和分子量。对于碱性蛋白质,计算出的等电点可能不准确。
AACompldent工具 根据氨基酸组成辨识蛋白质。
PeptideMass工具 是分析蛋白质在各种蛋白酶和化学试剂处理后的内切产物。
蛋白质二级结构预测
nnpredict工具 (不能用,二级结构预测改用GOR)
HNN工具- Hierarchical Neural Network method
ProtScale工具蛋白质的疏水性分析
Tmpred---跨膜结构分析
COILS---卷曲螺旋预测
SignalP ---信号肽预测工具
蛋白质*结构预测
SWISS-Model工具 自动蛋白质同源模建服务器,有三个工作模式:Automated Mode、 Alignment Mode和 Project Mode。程序先把提交的序列在ExPdb晶体图像数据库中搜索相似性足够高的同源序列,建立最初的原子模型,再对这个模型进行优化产生预测的结构模型。
最为著名的三大核心数据库:PDB 生物大分子结构数据库;SWISS-PROT 蛋白质序列数据库;
GENBANK 核酸数据库
公认三大核酸数据库:NCBI(美) EMBL(欧洲) DDBJ(日)