重复序列分析开放读码框(openreadingframe,ORF)的识别基因结构分析内含子/外显子剪切位点识别选择性剪切分析CpG岛的识别核心启动子/转录因子结合位点/转录启始位点的识别转录终止信号的预测GC含量/密码子偏好性分析核苷酸序列分析重复序列分析原核基因组中除rRNA、tRNA基因有多个拷贝外,重复序列(repetitivesequences)不多。哺乳动物基因组中则存在大量重复序列,分为3类:高度重复序列。一般较短,长10~300bp,重复106次左右,占基因组10%~60%,在人类基因组中约占20%,功能还不明确。核苷酸序列分析ORF重复序列分析中度重复序列。长10~300bp,重复10~105次,占基因组10~40%。哺乳类中含量最多的一种称为Alu的序列,长约300bp,重复3×105次,在人类基因组中约占7%,功能不是很清楚。单拷贝序列。这类序列基本上不重复,占哺乳类基因组的50%~80%,在人类基因组中约占65%。由于大量重复序列影响序列分析,因此在对真核基因分析前,最好把重复序列屏蔽掉。核苷酸序列分析ORFArabidopsisthalianachromosome2,partsequence()Output开放读码框的识别开放读码框(openreadingframe,ORF)是一段起始密码子(ATG)和终止密码子(TAA,TAG,TGA)之间的碱基序列ORF是潜在的蛋白质编码区原核生物中多数基因的编码序列在100氨基酸以上;真核生物的编码区由内含子和外显子组成,其外显子的平均长度约为50个氨基酸。预测ORF的方法有两类:基于统计分析和模式识别(如GENSCAN,GeneMark,GRAILII等),基于同源比对。核苷酸序列分析ORF开放读码框的识别Kozak规则:ORF中起始密码子ATG前后的碱基具有特定的偏好性。若将第一个ATG中的碱基分别标为1、2、3位,则Kozak规则可描述如下:第4位的偏好碱基为G;ATG的5’端的15bp范围内的侧翼序列内不含碱基T;第3、6、9位G为偏好碱基;除第3、6、9位,在整个侧翼序列区中,C为偏好碱基。核苷酸序列分析ORF核苷酸序列分析ORF开放读码框的识别预测ORF的方法都是针对特定物种而设计的,如GENSCAN最初是针对人类的,后扩展对脊椎动物、果蝇、拟南芥、玉米基因的预测。GlimerM适于恶性疟原虫、拟南芥、曲霉菌和水稻对mRNA,cDNA,EST,宜用GetOrf,ORFFinder,Plotorf,BestORF等核苷酸序列分析ORF应用ORFFinder预测水稻瘤矮病毒(RGDV)S8片断的ORFORFFinder:水稻瘤矮病毒(ricegalldwarfvirus,RGDV),需要对RGDVS8片断的基因序列(GenBank登陆号:AY216767)进行ORF分析并确定其位置,::可设置待分析序列片断的起始和结束位置;ORFFinder提供了22种遗传密码表可供选择。
核苷酸序列 来自淘豆网m.daumloan.com转载请标明出处.