大题:
1,PWM位置权重矩阵(通常应用于模体的表示上)
共n个位置,统计所有的给定序列在每个位置上的碱基出现的频率。
比如总共20条序列,在给定的第一个位置上C出现了1次,T出现了10次,得到的结果就是上述的第一列。
补充:(应该不会考~~~)
如果对其进行打分,可能还需要考虑背景概率(通常是全基因组的碱基出现频率)。
PWM的自信息:
i表示第i个碱基,Pi,j表示第i个碱基的概率。Pb表示背景概率。
2,设计一个XXXX方案?(老师说步骤写的太简略,还需要补充。)
①在蛋白质序列数据库Swiss-pro上下载乳腺癌相关的蛋白质序列。
②构建一个负集:肺癌相关的蛋白质序列。
③使用cd-hit或者PISCES进行序列比对。选取序列相似性>40%作为可靠的序列集合,使用十倍交叉验证。
④统计氨基酸含量特征:统计每条序列上每个氨基酸出现的频率作为特征。
⑤用这些氨基酸作为特征参数构建分类器。
填空题:
1,目前TF因子数据库:Consite,TRANSFAC,JASPAR
2,模体搜索软件:MEME
3,同源类型:直系同源、旁系同源。
4,同源序列数据库(经证实,这个不考)
杨磊-计算氨基酸残基-杨磊老师-试题 来自淘豆网m.daumloan.com转载请标明出处.