用高通量的芯片技术获得大量的数据后如
何分析这些数据,是一个一个基因去查文
献,还是可以先进行批处理,找到分析的
重点后再进行详细的分析?
单看变化基因的数目而不观察富集度是不可取的
Endocrinology,2006
单看变化基因的数目而不观察富集度是不可取的
通过p值来体现基因的富集度
算法: 超几何分布(Hypergeometric Distribution)
NMnm(M和n的交集)
某物种在MAS库中收录特定Pathway 用户输一个特定Pathway包含用
的基因个数(基因组范围) 包含的所有此入的基户输入基因的个数
物种基因数因个数
肿瘤分析的例子
12组癌与癌旁的样品用全基因表达谱芯片进行分析;选择非肿瘤组
织的RNA混合做一个共同参照物,每个癌与癌旁组织都和共同参照
物和芯片进行杂交。
基因癌1/CK 癌旁1/CK 癌2/CK 癌旁2/CK 癌3/CK 癌旁3/CK
NM_002402
NM_002639
NM_006615
AK025431
……
全部芯片数据的非监督聚类分析
癌组织癌旁组织
用SAM软件挑选在癌与癌旁中差异表达的基因
Significant: 505 Tail strength (%):
Median number of false positives: 0 SAM Plotsheet se (%):
False Discovery Rate (%): 0
10
5
e
r 0
o
c
S -4-3-2-101234
d
e
v
r
se
Ob -5
-10
-15
Expected Score
一共得到505个变化的基因,用聚类图进行展示的结果
癌组织癌旁组织
用SAM软件挑选癌与癌旁针对正常组织都变化的基因
Significant: 727 SAM Plotsheet
Median number of false positives: 0
False Discovery Rate (%): 0
8
6
4
2
ore
0
-2 - -1 - 0 1 2
-2
Observed Sc
-4
-6
-8
-10
Expected Score
一共得到727个变化的基因,用聚类图进行展示的结果
癌组织癌旁组织
数据分析部分 来自淘豆网m.daumloan.com转载请标明出处.