Structure
Jonathan K. Pritcharda
Xiaoquan Wena
Daniel Falushb 1 2 3
a芝加哥大学人类遗传学系
b牛津大学统计学系
软件来64
1
94
鲍勃
2
-9
142
-9
0
94
Anja
1
112
142
-9
1
-9
Anja
1
114
142
66
1
94
彼得
1
-9
145
66
0
-9
彼得
1
110
145
-9
1
-9
卡斯坦
2
108
145
62
0
-9
卡斯坦
2
110
145
64
1
92
2 数据文件的格式
基因型数据的格式显示在表2中〔表1显示一个例子〕。根本上,整个数据集被作为一个矩阵安排在单个文件里,其中个体的数据在行里,位点在列里。用户能对格式做出假设干选择,大多数这些数据〔除基因型外!〕是可选择的。
对于一个二倍体生物,每个个体的数据可以是作为连续的2行被储存,其中每个位点在一列,或者在一行中,其中每个位点在连续的两列。除非你打算使用连锁模型〔见下面〕,否那么单个个体的等位基因的次序并不重要。预基因型〔pre-genotype〕数据列〔见下面〕对每个体记录两次。〔更一般地,对于n倍体生物来说,每个个体的数据被储存在n个连续的行中,除非ONEROWPERIND选项被使用。〕
数据文件的组成局部:
输入文件的要素如下所列。如果给出,它们一定按以下顺序,然而大多数是可选的并且可以被完全删除。用户必须指明哪些数据被给出,或者在前端里〔front end〕,或者〔当从命令行运行Structure时〕在一个单独的文件mainparams里。同时,用户也要指定个体和位点的数目。
行
标记名称〔可选择;字符串〕 文件的第一行可以包含数据集里的每个标记的标识符的一个列表。这一行包含整数或字母的L个字符串,其中L是位点的数目。
隐性等位基因〔仅用于有显性的标记数据;整数〕SNP或者微卫星数据一般将不包括这一行。但是如果选项RECESSIVEALLELES被设置为1,那么程序要求有这一行来说明每个标记上哪个等位基因〔如果有的话〕是隐性的。。该选项用于象AFLP那样的数据,以及用于多倍体的情形,其中基因型可能是模糊的。
标记之间的距离〔可选择;实数〕文件里的下一行是一个标记之间距离的集合,供有连锁的位点使用。这些应该是遗传距离〔例如,厘摩〕,或者是这种距离的一些替代,基于〔例如〕物理距离。如果标记距离〔粗略地〕与重组率成正比,那么距离的实际单位不
是那么重要 。前端从数据估计一个适宜的尺度,但是命令行版本的用户必须在文件extraparams里设置LOG10RMIN、LOG10RMAX和LOG10RSTART。标记必须按照连锁群中的图谱次序排列。当连续的标记来自不同的连锁群〔例如,不同的染色体〕时,这应该用数值-1注明。第一个标记也被赋值为-1。所有其他的距离都是非负的。这一行包含L个实数。
连锁相信息〔可选择;仅用于二倍体数据;在范围[0, 1]内的实数〕。这只供连锁模型使用。这是L个概率的一行,出现在每个个体的基因型数据之后。如果连锁相是完全知道的,或者没有连锁相信息可用,那么这些行是不必要的。当有来自家系数据的局部连锁相信息,或者当来自雄性的单倍体X染色体数据和二倍体常染色体数据被一起输入时,它们可能是有用的。对于连锁相信息有两种可选择的表示:〔1〕个体的两行数据被假设为分别与父本的和母本的相对应。连锁相行说明当前标记上的排序正确的概率〔设置MARKOVPHASE = 0〕;〔2〕连锁相行说明与以前的等位基因有关的一个等位基因的连锁相是正确的概率〔设置MARKOVPHASE = 1〕。,以便把这行填写到L项。例如以下数据输入表示来自一个男性的信息,有5个连锁相未知的常染色体微卫星位点,后面是3个X染色体位点,使用母本/父本相模型:
102 156 165 101 143 105 104 101
100 148 163 101 143 -9 -9 -9
其中-9表示“缺失数据〞,这里缺失是由第二X染色体缺乏造成的,,,因此其连锁相是的。相同的信息可以用markovphase模型来描述。这样的话输入文件将读为:
102 156 165 101 143 105 104 101
structure-.---中文使用手册 来自淘豆网m.daumloan.com转载请标明出处.