文丨麒阁史观编辑丨麒阁史观一、材料和方法的研究依据 为了检测罗姆人的基因,我们收集了27罗马样本以及四个国家的六组抽样。 所有的研究都是根据《赫尔辛基宣言》中所表达的原则进行的。罗姆人自我报告为同一部落至少三代的后代。我们使用Affymetrix1MSNP芯片对样本进行基因分型。 我们要求每个SNP的每个样本中有5的基因型缺失被纳入分析,其中包括27个个体,但有726,404个SNP超过了这个阈值。 这些数据与数据从其他四个来源,包括国际单倍型地图第三阶段(单倍型图),n1115样本11人口基因型1M数组,CEPH人类基因组多样性小组(HGDP),n257个人51人口500KSNP数组。 (作者观点)我们之前的研究印度基因变异,我们称之为印度项目在本文中n25132组基因型1MSNP阵列和人口参考样本(POPRES),n3,来自37个欧洲群体的845个个体在Affymetrix500KSNP阵列上进行基因分型。 根据分析结果,我们从这些来源中纳入了不同数量的参考种群。二、种群结构分析与Fst计算 为了研究罗姆人与HapMap群体的关系,我们创建了一个罗姆人和HapMap群体的合并数据集(n1,142和726,404个SNPs)。 由于背景LD可以影响PCA和混合分析,我们通过排除50个SNPs的窗口(每次滑动5个窗口)中强LD(成对基因型相关r2。0。1)中的SNPs,使用PLINKv1。07细化标记集。 (作者观点)精简的数据集包含61,052个SNPs,我们使用智能pca进行PCA分析并计算FST值,聚类分析则采用混合物进行。 为了研究罗马人与南亚人的关系,我们创建了一个Roma、HapMap、POPRES和HGDP的合并数据集(n1,966和205,710个SNPs),并使用包含55,303个SNPs的LD精简数据集进行PCA和混合。人口混合物的正式测试 为了检验罗姆人是否具有西欧亚血统和印度血统,我们使用了无根系统发育树((YRI,CEU),(Onge,Roma)),并计算了所有三个可能与这些种群相关的系统发育树的4个种群检验统计量。 为了进行分析,我们创建了一个罗姆、印度项目和HapMap人群的合并数据集(n1274和524053个SNPs)。 让YRIi,CEUi,Ongei和Romai分别为YRI、CEU、Onge和Roma人群中SNPi的等位基因频率。 具体来说,我们计算了整个基因组中所有snp的相关性:r(YRIiCEUi,OngeiRomai)。 (作者观点)在没有混合物的情况下,期望的相关性将为0。标准误差使用块折刀计算,在每次运行中删除一个5厘米的块。估计全基因组祖先的比例 我们使用F4比率进行估计,估计了祖先的全基因组比例,该估计方法估计了西欧亚血统比Onge的过剩。我们使用了一种种群关系模型。 并且我们使用混合图对该模型进行了测试,发现该模型与数据很好地拟合,这意味着f统计量没有一个大于预期的三个标准误差。 F4比值估算计算f4(YRIi、罗马奥迪)F4(YRIi、奥迪、CEUiOngei)的比值。这个数量包括所有站点(262,558个SNPs),并使用标准误差使用块折刀(块大小为5cM)计算。 为了表示该分析所需的所有种群,我们创建了一个合并的数据集,其中包括来自罗姆人、印度项目、HGDP和HapMap(n1,531和262,558个SNPs)的数据。 我们使用种系检测IBD片段。为了进行分析,我们使用Beagle对所有相关群体的数据进行了分阶段分析。 然后在罗马、HapMap、印度项目、POPRES和HGDP(n1,966和205,710个SNPs)的组合数据集上以基因型扩展模式进行种系运行。 我们应用以下参数计算IBD片段:种子大小75,最小IBD片段长度3cM,杂合子或纯合子错误数0。种系的输出用于计算种群I和J之间的平均成对共享。 其中IBDij为个体i和j之间共享的IBD段长度,m分别为种群I和J中的个体数。 为了确定欧洲血统的来源,我们还计算了罗姆人和欧洲四个地理区域之间的平均共享,并对以下样本进行分析。 每组包含以下样本:北欧(n595)包括CEU,HGDP拉脱维亚,英国、爱尔兰、瑞典、苏格兰、挪威、丹麦和芬兰POPRES。 南欧(n649)包括TSI,意大利、巴斯克、撒丁岛,和托斯卡纳HGDP,和西班牙、克罗地亚、波斯尼亚黑塞哥维那、阿尔巴尼亚、马其顿、斯洛文尼亚、科索沃、意大利、塞浦路斯、葡萄牙、希腊和塞尔维亚POPRES。 东欧(n82)包括俄罗斯HGDP和罗马尼亚、匈牙利、斯洛伐克、捷克共和国、保加利亚、乌克兰、波兰和俄罗斯POPRES,西欧(n241)包括来自HGDP的法语和德国、比利时、法国、奥地利和来自POPRES的荷兰。 同样地,为了确定南亚血统的来源,我们计算了罗姆人和南亚人之间的平均IBD距离。 我们分组南亚样本在七个地区类别如下:北(n38)包括塔鲁,哈里亚,外氏,斯里瓦斯塔瓦,撒哈拉,罗迪,HGDP帕森和信地。 西北(n225)包括克什米尔潘迪特和POPRES旁遮普,东北(n8)包括尼和奥那加。 西南(n16)包括库伦巴和哈拉基,东南部(n29)包括马迪加、奈杜、韦拉马和坎萨利。 西部(n32)包括比尔、梅格哈瓦尔和POPRES古吉拉特邦,东部包括桑塔尔和萨塔纳米,安达曼人(n16)包括大安达玛和昂格。 我们应用改进的滚动来估计一个包含1,274个个体和524,053个SNPs的组合数据集的混合日期。 对于每一对距离为dmorang的snp(x,y),我们计算(x,y)之间的协方差。具体来说,我们使用以下统计数据。 其中,SNPs(x,y)和权重函数w(x,y)之间的z(x,y)的协方差是一个权重函数,可以是祖先群体之间的等位基因频率差异,也可以是基于SNPs(PCA的负荷(x,y)。 (作者观点)我们研究加权协方差与遗传距离的关系,并获得一个日期拟合指数函数仿射项yAe{ndzc,其中n是代数,d是摩根的距离,c是仿射项(非零的渐近线)和加权LD曲线的振幅(LD在短距离)。 标准误差计算使用加权块折刀,在每次运行中删除一条染色体。我们用指数函数拟合一个指数和来估计双脉冲混合模型下的混合日期:yAe{n1dzBe{n2dzc,其中n1,n2为几代的混合日期。估计个体的自合子度 我们使用PLINKv1。07,在一个包含1,274个个体和524,053个SNPs的组合数据集中,识别了基因组中的自合子片段。 PLINK使用滑动窗口方法来寻找长度至少为1MB且包含100个连续的纯合子snp的基因组区域。我们允许每个片段有一个杂合子和五个缺失的呼叫。 对每个个体分别鉴定自合子片段。我们应用这种方法来计算每个罗马人和每个HapMap群体中的30个随机个体的基因组自合子度,这个长度为自合子片段的总长度。 为了推断创始人事件的日期,我们使用包含罗马和HapMap群体的数据集(n1,142和7264,404个snp)计算等位基因共享的相关性作为LD的度量。 具体来说,我们计算成对Roma个体之间等位基因共享的自相关,然后减去(Roma,CEU)跨群体自相关,以消除祖先等位基因共享的影响。 (作者观点)因此,我们得到了一个与该组中等位基因共享过量相关的罗马特异性LD的测量方法。我们绘制了与遗传距离的自相关图来推断创始人事件的时间。 具体地说,我们拟合了指数函数:yAe{2tDzc,其中摩根事件中的D距离和创始人事件的t时间。 为了研究罗姆人与全球人群的关系,我们进行了混合分析。每条竖线代表一个基于每个集群的估计祖先的比例的个体颜色。 罗马人群和HapMap人群的(a)混合分析(K2到K7)。K6的交叉验证误差最低;(b)对罗马人、欧洲人(CEU)和南亚人的混合分析。 K3的交叉验证误差最低,所以我们将所有组(罗姆人除外)的样本量限制在20人以内。 为了估计西欧亚血统在罗马人中的比例,我们使用了系统发育树,不同颜色的线显示了由这条线连接的种群之间发生的漂移。 橙色的线表示YRI和Adygei之间的漂移,红色和绿色的线表示罗马和Onge之间的漂移。M表示罗马和Onge之间的共同漂移。 这个方法是来自印度(ANI)和欧洲(离开印度后)的罗姆人的西欧亚血统比例(p)的详细估计方法,并且这个数字改编自Reich等人。 我们使用相关(a)或z(x,y)的协方差(b)版本,将平方归一化项Pz(x,y)2作为表S3中描述的混合和瓶颈场景,SNPs之间的遗传距离d的函数。 在没有瓶颈的情况下,归一化项受有限采样噪声的控制,并不依赖于后的混合。 然而,Pd对于强瓶颈的情况下z(x,y)2展品一个指数衰减Ae{2kdzc速率常数大约等于两倍的年龄的瓶颈,(a)最佳适合k15、25、46、65、83和(b)12、20、41、60、78显示为实线。参考文献: 《基因编辑技术:进展与挑战》 《基因编辑的伦理争议》