.
精选文档.
PCA分析和散点图
gaom
今天主要跟大家演示一下简单的PCA分析,并且以散点图的形式将结果展示出来。
首先在进行PCA分析之前,先跟大家稍微讨论下什么是PCA分析。PCA分析又叫主成分分析,其实从字面上来理解我们可以发现它其实是和样品分组相关的。
举个简单的例子,我们观察了某种植物的株高、叶片大小、果实大小等等多种性状,并记录每种性状对应的数值。这时候我们想看看根据这些性状信息看看我们观察的样本是否明显的分组现象。每一种性状相当于一个维度。利用PCA分析可以将结果投影到一个低维的向量空间(具体计算就不详述了)。类似的比如我们多个样本的表达谱数据,每个基因在各个样品的表达情况就可以算作一个维度。如果大家对PCA算法感兴趣的话,可以自行百度,在这里就不进行太多的描述了。毕竟今天主要是教大家怎么利用R进行PCA分析和结果展示。 还是第一步,我们先准备好我们用来分析的数据。
setwd("C:/Users/gaom/Desktop")#打开文件所在路径,并将文件所在目录作为工作目录
data<-(file = "",header = T,sep = "\t")#读取数据,并将首行作为列名
dim(data)
## [1] 2999 13
head(data)
## ID_REF T01 T02 T03 T04 T05 T06
## T07 T08 T09 T10 T11 T12
.
精选文档.
上述数据为从GEO数据库随意找的基因表达。其中第一列为基因探针号,后续几列则为T01到T12的12个样品对应的表达量数据,每三个样品为一组。因为数据是拼凑的,所以这里不关注探针具体信息了。
准备好数据之后我们就开始进行PCA计算了。其实代码非常简单。
pca<- prcomp(t(data[,-1]), scale=T)
head(pca$x)
## PC1 PC2 PC3 PC4 PC5 PC6
## PC7 PC8 PC9 PC10 PC11 PC12
summary(pca)
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6
## PC7 PC8 PC9 PC10 PC11
## Cumulative Propor
## PC12
##
R语言绘图:PCA分析和散点图 来自淘豆网m.daumloan.com转载请标明出处.