新闻资讯

一项以家庭为基础的跨多种神经认知、运动、社会认知和社会行为功能的遗传和表观遗传效应研究

介绍
作为一个物种,人类善于在日常生活中使用沟通(语言和非语言)、心理设施、社交互动能力和精细运动技能。这些能力在神经发育过程中成熟。然而,有些人具有非典型的神经发育,这与认知、运动、行为和/或社会认知障碍有关。以这些损伤为特征的疾病统称为神经发育障碍,它们通常表现出较高的合并症[ 1 ]。许多此类疾病具有很强的遗传成分,但它们通常表现出遗传和临床异质性[ 1,2,3,4 ]]。如此高度的异质性反过来又阻碍了对这些疾病的分子基础的研究。

已提出作为解决精神遗传学中这一问题的一种策略是使用内表型。内表型是可遗传的特征,(通常)方便测量并表现出与精神疾病的关联;更正式地说,它们被认为是与人群中的疾病相关的遗传性状,主要与疾病状态无关,并且与家庭中的疾病共同分离(复杂疾病的另一个标准是在受影响的家庭中发现的内表型)在未受影响的家庭成员中发现的成员的比例高于一般人群)[ 5]。内表型也可以是定量的,在这种情况下,在受影响个体的未受影响的亲属中,内表型应该“较温和”,并且与疾病的严重程度相关,并且,如果这种相关性不是由于疾病进展或药物治疗,那么它可能表明,与疾病的相关性是通过疾病易感性[ 6 ]。可以使用标准化测试测量的许多特征都满足这些标准。与本研究相关的是可遗传数量性状的情况,而这些性状本身可能是不同衡量标准的组合。例如,人们很早就知道一般智力是可遗传的[ 7]。尽管智商(IQ)本身的衡量标准以及估计其遗传力的模型的假设都存在争议,但双胞胎研究和其他基于家庭的研究的总体证据表明,智商差异的很大一部分取决于个体的差异是由于遗传的加性效应造成的[ 8 , 9 ]。具体来说,韦克斯勒儿童智力量表子测试的指数也具有中等到高的遗传力[ 10]。此外,旨在测量自闭症谱系障碍的各种表型表达的特定测试,即可以识别心理理论障碍的“奇怪故事”测试,以及提供自闭症行为特征定量测量的社会反应量表,都已被设计出来。显示出具有中等(“奇怪的故事”)到高(社会反应量表)的遗传力[ 11 , 12 ]。事实上,社会反应量表和韦克斯勒儿童智力量表的测量已成功用作自闭症谱系障碍 (ASD) 和注意力缺陷/多动障碍 (ADHD) 的研究中的内表型 [ 13 , 14 ]。

尽管已经对上述性状和疾病(以及一般性的复杂性状和疾病)进行了许多遗传学研究,但这些研究共同并没有确定足够的关联来解释所研究的性状或疾病的遗传力,这个问题被称为“缺失的遗传力”[ 22]。随着全基因组关联研究(GWAS)规模的扩大,在传统的全基因组显着性阈值下发现了更多的关联。然而,即使样本量越来越大,某些关联也无法通过 GWAS 设计实现,还有其他原因:例如,不仅个体之间可能存在表型异质性,而且不同的研究可能对疾病使用不同的定义,不同的研究可能会使用不同的疾病定义。确定标准和/或不同的评估工具,有时,所研究的表型本身可能反映了几种重叠的潜在能力。从遗传学角度来看,一个重要原因是常见的 GWAS 研究设计,即仅使用不相关的个​​体并仅对特定类型的效应进行建模,可能无法捕获性状遗传结构的所有方面。22、23 ] 。 _ 与本研究相关的是表观遗传现象(即不是由 DNA 序列本身变化引起的遗传现象),称为亲本效应 (POE),其中等位基因的影响取决于其亲本起源。基于家庭的遗传研究,可以获得父母 DNA 和先证者 DNA,是研究这些影响的理想选择。POE 已涉及许多复杂性状和疾病的研究 [ 24 ]。研究表明,当这些效应确实发生但没有建模时,传统的 GWAS 设计可能会忽略它们 [ 25 , 26 ]。此外,相同的等位基因在父系遗传和母系遗传时可能会产生相反的影响[ 25,26 ]。

基因组印记是表观遗传机制,被认为是 POE 的主要原因 [ 27 ]。印记基因座是两个亲本等位基因在功能上不相同的基因座(其中之一甚至可能完全沉默)。一种可能导致印记的分子机制是甲基化(DNA 核苷酸上存在甲基)。差异甲基化区域(DMR)中的等位基因特异性甲基化,或者在这种情况下,印记控制区域,可以导致差异基因表达,具体取决于等位基因的亲本起源[ 27]。组蛋白(DNA 缠绕在其周围形成核小体的基本蛋白质,核小体是 DNA 的紧凑包装,使 DNA 能够适应细胞核)的修饰也可能导致基因表达的改变;共价修饰组蛋白的蛋白质复合物可导致转录抑制[ 28 ]。POE也可能是由基因组印记以外的机制引起的,例如,特定类型遗传的传递偏差,例如三核苷酸扩展变异,取决于父母的性别[ 29]。一些涉及基因组印记的疾病具有强烈的行为和认知表现。也许最常被引用的例子是普瑞德-威利综合症和安格曼综合症。与这两种疾病相关的基因映射到染色体 15q11q13,但这两种疾病涉及不同的基因,并且它们表现出相反的 POE(普瑞德-威利综合征为父系,天使曼综合征为母系);同样,这两种疾病的认知和行为缺陷也不同[ 30 ]。这些疾病的大多数病例是由亲代表达的 DNA 缺失引起的,但有些病例是印记缺陷的结果,导致异常的甲基化模式 [ 31 , 32]。就复杂的神经发育障碍而言,已报道的 POE 的一些值得注意的例子包括特定语言障碍 [ 33 , 34 ]、阅读障碍 [ 35 ] 和自闭症谱系障碍 [ 36 ]。一项对小鼠 97 种性状的研究(可以确定等位基因的亲本来源)发现,大多数小鼠都表现出 POE,而它们的遗传力很大一部分可归因于 POE。此外,研究表明非印记基因座也可以通过与印记基因座的相互作用表现出 POE [ 37 ]。这些例子说明了在研究行为和认知表型时考虑 POE 的重要性。

我们的研究旨在在一个基于深度表型的家庭队列中检查一般遗传关联以及父母来源的影响,其中家庭是根据存在(至少一个父母)或不存在(父母双方)来选择的)诊断精神分裂症或双相情感障碍,其中收集了父母和孩子的 DNA,以及各种定量神经认知、运动、社会认知和社会行为特征的数据 [ 38 ]。在之前使用该队列的研究中,已证明父母未诊断出精神分裂症或双相情感障碍的孩子与父母中至少一位诊断出精神分裂症的孩子之间的一些调查特征存在显着差异。其中包括处理速度和工作内存[39 ]、社会反应性[ 40 ]和运动功能[ 41 ]。有趣的是,这些研究没有发现父母未诊断出精神分裂症或双相情感障碍的孩子与父母至少有一位诊断为双相情感障碍的孩子之间存在类似的差异。

因此,我们研究的主要目标是双重的:(i)从上述领域寻找定量表型的特定基因型-表型关联,以及(ii)除了一般关联之外还对 POE 进行建模,以识别不会被捕获的关联病例对照 GWAS 设计。虽然我们并不打算表明所研究的特征是特定疾病的内表型[如前所述,其中一些特征已在之前的研究中用作内表型,并且它们(或通过其他测试测量的类似特征)已被证明可以可遗传)],它们本身都与神经发育有着内在的相关性。此外,最近的一篇文章研究了精神病学中使用内表型的历史,建议扩大定义以包括跨诊断特征,42 ]。在这种情况下,识别影响神经发育特征的遗传变异本身就是一项重要的努力。据我们所知,这是第一项在同一队列中检查这四个神经发育领域的研究,结合了一般 GWAS 模型和 POE 模型。

材料和方法
参加者
本研究中使用的样本是丹麦高风险和复原力研究 VIA 7(以下简称 VIA 7 研究)的一部分[ 38]。VIA 7 研究招募了 7 岁的儿童及其亲生父母。从丹麦登记处招募家庭,因为至少有一名父母被诊断为精神分裂症谱系精神病或双相情感障碍(“高风险”家庭),或者作为对照家庭,其中父母均未患有精神分裂症或双相情感障碍;然而,本研究并未直接研究这些疾病。总体而言,在本研究纳入的 402 名有遗传数据的儿童中(经过质量控制),244 名来自高危家庭(精神分裂症:147 名;双相情感障碍:97 名),158 名来自对照家庭。每次分析的样本量因标记而异,因为信息丰富的儿童数量取决于性状数据、标记(基因型)数据的可用性,以及在亲本分析中还取决于亲本基因型。因此,我们分别指定所有显着结果的信息丰富的儿童(先证者)的数量。关于父母数据,关联测试中仅使用遗传数据。经过下述质量控制后,平均有 261.117 个三人组、88.0364 个子母二人组、24.1713 个子父二人组、17.0366 个儿童、0.352642 个父母、0.173135 个母亲和 0.0495053 个父亲(以及数据集中没有孩子的父母 37.9879 个)每个标记,用 PREMIM 计数 [43 ],不考虑兄弟姐妹。这些数字加起来约为 391(不包括数据集中没有孩子的父母),这是我们样本中具有遗传数据的独立儿童的数量(11 个家庭还包括兄弟姐妹)。

表型数据
我们调查了从 VIA 7 研究的综合电池中选择的不同测试得出的八个特征:MABC(丹麦版儿童运动评估电池(运动 ABC-2)的总分,第二版 [ 44 ]。注意:标准丹麦语版本的样本来自英国,但具有跨文化有效性[ 45 ]);WISC 编码[丹麦版韦克斯勒儿童智力量表第四版 (WISC-IV) 编码子测试的得分(正确总数)[ 46 ]];WISC 符号搜索[丹麦版 WISC-IV 符号搜索子测试的得分(正确总数)];固态继电器(分数来自《奇怪的故事——修订版》[ 47 ],基于翻译成丹麦语的 8 个心智化问题的正确答案总数);SRS(来自丹麦版社会反应量表(SRS-2)[ 48 ]的T分数,第二版,由孩子的老师完成);WISC 算术[丹麦版 WISC-IV 算术子测试的得分(总正确答案)];WISC 字母数字排序[丹麦版 WISC-IV 字母数字排序子测试的分数(正确试验的次数)];RIST 指数[丹麦版雷诺智力筛查测试 (RIST) 的指数得分 [ 49 ]]。

WISC 算术、WISC 字母数字排序、RIST 指数和 MABC 分数根据每个测试手册中的规范进行年龄标准化。如果某些测试或子测试没有规范,例如,当我们为 8 至 16 岁儿童使用 WISC-IV 编码和符号搜索子测试版本时,或者没有规范(SSR 分数)时,原始分数将被重新调整使用 VIA 7 儿童的人口控制子集的平均值将其转化为 SPSS v25.0.0.2 中的 Z 分数,这些儿童与队列中的其他儿童年龄匹配。SRS 总 T 分数未根据年龄进行调整,因为该分数与 7-15 岁儿童的年龄无关[ 12 ]。有关这些测试的更多详细信息,请参阅之前关于 VIA 7 研究的出版物 [ 39 , 40 ,41 ]。每个性状的测试分数的分布如图1所示 ,其中包含性状的直方图和密度图,并使用直方图和密度函数在R[ 50 ]v3.6.3中生成。我们还计算了本研究中使用的基因型儿童样本中各个性状的成对皮尔逊相关系数,如图 2所示。这是使用 R 的 Hmisc 包 v.4.7-0 [ 51 ] 完成的,并且使用 R [ 52 ]的 corrplot 包 v.0.92 生成绘图。性状的描述性统计见表1,其中还包括在R 中的shapiro.test函数中实现的 Shapiro–Wilk 正态性检验的 p 值。

所有特征都在某种程度上偏离了正常状态。然而,由于我们大多数测试的有效样本取决于亲本基因型,因此不同遗传标记(单独测试)的差异很大。因此,不同的儿童子集被用于不同的标记,并且尝试转换分数以迫使它们具有正态分布是不切实际的,因为每个转换不一定适用于多个标记。此外,以这种方式转换分数会妨碍结果的解释,因为分数之间的空间变化不均匀,因此,效应大小的解释会出现问题。我们在之前的论文中详细讨论了这个问题,其中我们还检查了归一化对我们的最佳结果造成的差异[53 ]。最后,正如我们下面所解释的,我们使用方差分量(假设正态性)来纠正给定家庭中孩子之间的相关性。由于我们只有 11 个拥有一个以上孩子的家庭,我们研究了从每个家庭中移除一个孩子而不是对方差分量进行建模的影响,我们发现它对我们的最佳结果影响很小 [ 53 ];因此,我们使用上面详述的表型评分,而不进行额外的转换。

遗传数据
我们从 VIA 7 研究样本的子集中获得了 DNA 样本,并在 Illumina PsychChip v1-1_15073391_C 上对这些样本进行了基因分型,该芯片的基因座计数为 603,144(根据该阵列的 Illumina 清单文件中的信息行)。该数据集已在我们之前的研究中详细描述过[ 53 , 54 ]。简而言之,样品和标记的质量控制 (QC) 步骤如下: 对原始遗传数据进行初始 QC:在第一步中删除检出率低或性别信息不一致的个体,以及 Gentrain 评分 < 0.3 的标记。 。此时,18 个人已被删除(包括一个可能的重复样本),数据集中还剩下 600,282 个标记。随后的 QC 使用 PLINK 完成 [ 55] v.1.90b5.2:孟德尔误差 > 1% 的个体和标记被删除 (N = 10)。剩余孟德尔误差低于此阈值的基因型被设置为缺失。缺失数据 > 5% 的标记被删除(此时所有剩余个体的缺失数据 < 5%)。具有极端杂合率(阈值为样本平均值 ± 3 SD)的个体被剔除(N = 21)。通过主成分分析(PCA)估计遗传祖先。排除样本的阈值是 PC1 或 PC2 高于或低于 VIA 7 平均值 2 SD,使用 VIA 7 样本和 CEU、CHB、JPT 和 YRI HapMap 样本创建 PC 空间,如已发表的文章中所述。 QC 协议 [ 56]。为了减少人口分层带来的偏差,具有不同血统的个体及其亲属被剔除(N = 36),而其余样本则与 CEU 个体聚集在一起。表现出隐秘相关性或与生物家庭成员的关系低于谱系信息预期的个体被删除(N = 13)(排除预计不相关的个​​体的 Pi-hat 阈值为 0.185)。Hardy–Weinberg 平衡 (HWE) p 值阈值为 1 × 10 –6用于标记,次要等位基因频率 (MAF) 阈值为 1%(在创始人中)。基于上述阈值或 MAF 低于 1% 的显着 HWE p 值的标记被排除。如果 PsychChip 中包含具有相同位置的标记对,我们可以使用 PLINK --list-duplicate-vars 抑制优先,删除每对一个标记,如果等位基因代码匹配,否则优先考虑具有 rsID 的标记。在这些步骤中删除的个体数量为 64,其中包括 3 个重复样本(请注意,有些样本在多个步骤中被标记,在最终排除样本之前(即在孟德尔错误检查之后)进行了多次检查的情况)。总共有 1094 个基因分型个体和 299,604 个常染色体标记通过了这些 QC 步骤,我们进一步从中删除了 125 个插入缺失,总共 299,479 个常染色体标记。本研究仅使用该基因分型标记数据集。文本和表格中的位置位于基因组构建 hg19 中。阵列上的少数标记在 Illumina 清单文件中的位置与相同主要构建的 dbSNP 中的位置略有不同。53 ]。这是使用 UCSC 基因组浏览器 BLAT 工具完成的,并且,当我们的热门命中中的标记具有 rsID 时,我们检查 SNP 确实距探针 1 bp。否则,我们检查探针是否映射到距清单文件中的位置 1 bp 的位置。正如预期的那样,所有探针都映射到距感兴趣位置 1 bp 的位置(方向取决于链)。热门点击中的一个标记在清单文件中的位置不正确,但探针映射到正确的位置。

统计分析——GWAS阶段
在GWAS阶段,我们使用QTDT(定量传递不平衡检验)[ 57 ]v2.6.1进行统计遗传分析。MERLIN [ 58 ] v1.1.2 用于估计 QTDT 使用的每个标记的血统同一性 (IBD) 分数。对每个性状标记组合进行了三个测试:使用所有家庭数据( qtdt -at)的一般(即不是 POE 测试)总关联测试,父本亲本总关联测试,其中仅使用父系遗传的等位基因 ( -at -op ) 和母系亲本总关联检验,其中仅使用母系遗传的等位基因 ( -at -om)。总关联模型(与 QTDT 也可以运行的正交模型相反)不是 TDT,之所以使用它是因为它在没有群体分层的情况下更强大 [ 59 ]。在此模型中,测试了父系和母系测试中的家庭成分 X 之间/家庭内的组合,或 Xpat 和 Xmat,分别表示对平均值的组间/家庭内影响。X 是本文中 QTDT 分析报告的效应大小。X 是根据完整模型中的数据估计的,并且在零模型中固定为零。然后通过似然比检验评估这两个模型的可能性,产生 χ 2统计量,可用于根据 χ 2计算单边 p 值分配。本研究中的检验与零模型相比,在完整模型中多了一个自由参数,因此 χ 2统计量以 1 个自由度进行评估。我们在两个模型中都包含了方差分量(-wega),其中包含环境分量、多基因分量和加性主基因座分量。这允许有多个孩子的家庭使用,尽管只有 11 个家庭有兄弟姐妹。如前所述,在表型评分中考虑了年龄。对于所有性状,将性别协变量添加到零模型和完整模型中。脚注1曼哈顿图和QQ图是用Stephen Turner和Daniel Capurso的“qqman”R脚本生成的(前一种图类型的(主要更新)版本是2011年4月19日起的,版本是2013年6月10日起的)对于后者,可从: https: //github.com/stephenturner/qqman/bloqb/v0.0.0/qqman.r获得。使用 Illumina 网站上的密钥将标记 ID 转换为 rsID(如果可能)后,使用LocusZoom [ 60 ]生成区域关联图QTDT 输出文件是使用内部程序(包含在附加文件1中)制成表格的,但我们研究中热门点击的统计数据也使用原始 QTDT 输出进行了手动检查,并且它们与程序的输出相匹配。

统计分析——父本和母本等位基因传播差异的事后检验
当检测到一个双亲的 POE 时,并不意味着另一双亲的传输有显着不同。儿童效应可能很显着,并且在单独观察父系遗传等位基因或仅单独观察母系遗传等位基因时也会出现这种情况。因此,有必要测试这些亲本等位基因传播之间的差异。这可以通过将 POE 参数以外的风险参数包含在零模型和完整模型中来控制它们来实现。QTDT 不允许在零模型和完整模型中自由选择参数,但它包含了对父本和母本等位基因传播之间影响差异的测试(qtdt -at -ot)。在此测试中,空模型具有 X,完整模型同时具有 X 和 Xmat。不可能在完整模型中包含 Xpat 而不是 Xmat(在怀疑父系 POE 时测试 POE);因此,作为预防措施,我们使用不同的程序 EMIM [ 43 ] 测试了已知 POE 的两个参数化,除了儿童风险参数之外,它还允许对父母风险参数(在本例中一次一个)进行建模,并且发现完整模型的总体可能性在两种情况下大致相同。脚注2因此,当分别测试父系遗传等位基因和母系遗传等位基因时,我们使用此测试过滤掉 GWAS 中显着的关联,但这些关联与另一方父母的传播没有显示出显着差异。但请注意,这些模型不会测试感兴趣位点的简单亲本效应或 POE 类型(如果 POE 是真实的),因此,我们仅使用它们来测试是否存在POE,不用于效果评估;我们总是从测试中报告等位基因的影响,其中在完整模型中仅包含 Xmat 或 Xpat,而不包含 X。最后,应该指出的是,POE 可能对父系和母系传播分别都很重要,而且它们之间仍然可能存在显着差异,

QTDT 分析的功效和有效样本量
QTDT 分析的功效取决于几个因素,包括:标记等位基因频率、效应大小、标记和数量性状基因座之间的连锁不平衡、分析中子代基因型的数量和亲本基因型。评估基于家庭的关联方法的研究使用具有上述参数的模型模拟来估计这些方法的功效。例如,对于二分性状,当效应为 R 1  = 1.5 和 R 2时,300 个案例-母亲二人组为检测儿童遗传效应提供了合理的功效[ 61 ] = 2.25(参数说明请参见第二个脚注),基线风险为 0.1,显着性水平为 0.05,风险等位基因频率为 0.3。当强大的 POE 运行并包含在模型中时,一些方法仅用 100 个案例父母三重奏即可实现约 90% 的功效 [ 62 ],其中 I p  = 2.5 或 I m  = 2.5,显着性水平为 0.05,a 20% 和 80% 的人群的基线风险为 0.05 或 0.01,风险等位基因频率为 0.3 或 0.1。关于与本研究相关的数量性状,我们考虑了已发表的估计各种 QTDT 模型功效的模拟报告。例如,在原始 QTDT 论文中,假设最大 D', h 2风险等位基因频率为 0.1,风险等位基因频率为 0.5,显着性水平为 0.001,包括父母基因型,480 名儿童样本(同胞为 1 且父母基因型可用的家庭)得出的功效估计值为 97.4% [57 ]。在另一项研究中,样本量为 200、h 2为 0.1、风险等位基因频率为 0.3 时,功效达到 74% [ 63 ]。

我们这样做是为了获得最佳分析结果。对于当前的一组分析,还需要考虑一点:文献中的功效估计是针对 QTDT 正交模型的。在没有人群分层的情况下(正如我们研究中的情况),可以使用总关联模型,并且在所有其他条件相同的情况下,该模型比正交模型具有更大的功效[ 59 ]。

关于各种测试中的样本量,对于一般测试,所有具有给定标记物的非缺失基因型和 IBD 信息以及非缺失表型的儿童都被用于该标记物的测试。在 POE 测试中,包括两组儿童:(i)父母双方均已进行基因分型且其中一方为纯合子的儿童,或者母亲和父亲具有不同基因型的儿童(此外,当测试父亲的亲本效应时) ,父亲必须是杂合子,并且当测试母体影响时,母亲必须是杂合子),以及(ii)所有至少有一个纯合父母的孩子,即使另一个父母有缺失的基因型[ 65]。这可能会减少基于父母基因型的样本量,这就是为什么我们报告每个信息丰富的先证者(满足所有上述标准(对于一般测试,以及适用的 POE 测试的附加标准)的先证者数量)。关联在顶部结果中。

统计分析——对 GWAS 结果的多重测试和质量测量进行校正
在本研究中,我们采用以下策略来校正多重测试:在 GWAS 中,我们呈现满足以下两个标准的所有关联:(i)它们通过了传统的全基因组显着性阈值(P ≤ 5 × 10 –8),(ii)对于 POE 关联,在父本和母本等位基因之间的差异检验中,P ≤ 0.0008,计算为常规阈值(0.05),对符合 POE 关联的事后检验数量进行 Bonferroni 校正第一个标准 (n = 63)。然后,我们优先考虑除了满足上述两个标准外,还满足以下标准的关联:(iii) 它们的 p 值(在 GWAS 中)等于或低于传统显着性阈值 (0.05) Bonferroni 校正所有 GWAS 中执行的实际测试数量 (n = 299,479 × 24),即 P ≤ 7 × 10 –9;(iv) 至少 30 名儿童具有相关标记的次要等位基因(注意:这与 QTDT 的信息先证者数量不同,而是意味着样本中至少有 30 名儿童具有相关标记的次要等位基因;虽然这并不能保证给定测试中特定数量的儿童具有等位基因(因为这也取决于前面解释的因素),但它可以突出显示效应大小不太可能因其中之一而出现偏差的关联。等位基因相对罕见)。结果部分更详细地讨论了符合所有四个标准的关联。对于这些关联,我们还重复了相关关联测试,同时添加了家庭高风险状态(HRS)的协变量(即孩子是否来自父母有以下情况的家庭的虚拟变量(0/1))精神分裂症或双相情感障碍,或者来自父母双方都没有这些诊断的家庭)。此外,我们使用了 EMIM v3.22 [43 ],一个基于多项家族的遗传关联模型的程序,用于测试最高结果(表2)和 HRS 作为二元结果之间的关联。我们使用了一种儿童趋势分析模型[ 61 ],其中当儿童具有两个风险等位基因时,疾病风险乘以的因子被限制为具有一个风险等位基因的风险的平方,或者,使用上述符号,R 2  = R 1 2。在这项分析中,我们使用了病例家庭子集和对照家庭子集,但我们没有使用没有父母的对照,因为 EMIM 不区分对照和疾病状态未知的个体(这意味着根据定义,HRS 未知的父母可能如果孩子没有给定标记的遗传数据,则可用作对照)。该检验的 p 值源自具有一个自由度的 χ2 分布(因为在整个模型中仅自由估计了一个风险参数),并且检验统计量来自于对数似然差异的两倍零模型(其中乘法风险参数固定为 1)和完整模型(其中根据数据进行估计)。

QTDT 不会输出其计算的估计值的标准误差 (SE)。为了获得结果中顶级关联中观察到的效果的 SE,我们使用了以下方法:使用 QTDT 输出的 χ 2统计数据,我们将误差计算为,其中 X 是 QTDT 的效果大小。

变异和基因的功能注释
对于变体的功能注释,我们使用 eQTLGen [ 67 ] 门户和 GTEx V8 门户 [ 68 ] 来查找表达数量性状位点 (eQTL) 关联,并使用 PhenoScanner [ 69 ] 来查找 DNA 甲基化和组蛋白修饰关联,以满足我们的要求四个研究范围的重要性标准。对于基因级注释,我们使用 VarElect [ 70 ],它使用 GeneCards [ 71 ] 数据库根据基因与自由文本关键字的关联对基因进行排名。

结果
在所有 24 个 GWAS 中,88 个关联达到了全基因组显着性 (P ≤ 5 × 10 –8 ),其中 25 个在一般测试中突出显示,其余在 POE 测试中突出显示。附加文件2:图 S1 显示了所有 24 个 GWAS 的曼哈顿图,以及附加文件3:图 S2 显示了相应的 QQ 图。在所有分析中,基因组膨胀因子的范围为 0.967 至 1.077(平均值为 1.008,标准差为 0.024)。在上述 88 个关联中的 POE 关联中,只有 23 个在经过多重测试(方法)校正后在父本和母本等位基因之间的差异测试中显着,因此其余的被排除在下游分析之外。其余 48 个协会如表2所示。

在 48 个全基因组显着的关联中,在适用的情况下,显示父系和母系等位基因之间存在显着差异,只有 3 个符合我们与研究范围显着性水平有关的额外条件,并且至少有 30 个先证者具有次要等位基因。这 3 个标记的区域关联图如图3所示 。我们采用这些额外的标准来识别更稳健的关联,特别是因为非常罕见的等位基因可能会导致效应大小出现偏差。在满足所有四项标准的 3 个关联中,2 个与 WISC 算术评分相关,并在一般测试中突出显示,其余关联与 SRS 评分相关,并显示母亲 POE。其中两个关联与基因内变异有关:转谷氨酰胺酶 3 基因 ( TGM3 ) 中的 rs214831(一般测试,与 WISC 算术相关)和钙通道、电压依赖性 Beta 4 亚基基因中的 rs7604835(母体 POE 测试,与 SRS 相关) (CACNB4)。标记 rs214831 与其所在基因(即TGM3)的表达密切相关,在 eQTLGen 上(P = 5.72 × 10–34 ),其中 A 等位基因与该基因的较高表达相关;在我们的研究中,效应等位基因 (G) 与较低的测试分数相关,这表明较低的表达与较低的分数相关。它还与GTEx 上基底神经节中PTPRA的表达相关(P = 0.000022),等位基因 G 与较低的表达相关。当向模型中添加高风险状态的协变量(即孩子是否来自高风险家庭或对照家庭)时,该标记至少保持名义上的显着性(P = 0.0312)。标记 rs7604835 在我们的研究中显示母体 POE,与 PhenoScanner 上的多个 DNA 甲基化和组蛋白修饰位点相关(最小 P = 1.19 × 10 –45),基于两项不同研究的证据 [ 72 , 73 ]。这为与该地点的 POE 的关联提供了进一步的支持。当添加高风险状态的协变量时,该标记在全基因组范围内仍然显着(P = 2 × 10 –9)。满足所有四个标准的最后一个关联,即一般测试中rs6117457和WISC算术之间的关联,没有涉及任何蛋白质编码基因,并且我们在文献或功能数据库中找不到任何与之相关的先前关联。添加高风险状态协变量后,该标记不再显着 (P = 0.0765)。将顶部标记的效果转化为 PVE,我们得到:rs6117457、rs214831 和 rs7604835 分别为 0.078、0.08 和 0.11。在所有情况下,针对 HRS 调整的关联方向与之前相同。然而,应该指出的是,解释 HRS 协变量的模型可能很困难:WISC 算术和 SRS 都与 VIA 7 研究中儿童的精神分裂症家庭状况相关 [ 39,40 ]; 由于本例中的协变量可能意味着精神分裂症(一种与认知特征在遗传上相关的疾病)的某种遗传倾向[ 74 ],因此相同的 SNP 可能与精神疾病和感兴趣的表型都有一定的关联。此外,精神分裂症和双相情感障碍都很复杂,这意味着它们同时具有遗传和环境风险因素 [ 75 , 76]。因此,家庭的高风险状态是由父母之一是否患有精神病决定的,同时受到遗传因素和环境因素的影响;父母的遗传因素影响孩子的遗传(暴露)和家庭的高风险状况(父母的疾病和潜在的协变量),这可能会影响孩子的结果(所调查的特征)。同样,可能无法测量的环境因素(或一般的外部因素,例如父母的智商)可能会影响家庭的高风险状态和所调查的儿童特征。在这种情况下,调整协变量可能会减少可能的混杂造成的偏差,但会引入碰撞偏差。更复杂的是,我们的大部分测试都是针对 POE,这限制了遗传因果路径,但不限制本研究中确定的家庭高风险状态的因果路径。因此,我们测试了这些标志物本身是否与高风险状态相关。表中没有任何标记经过多次测试的 Bonferroni 校正后, 2 个标记与其相关,并且即使在校正之前,前三个标记也没有名义上的相关性。因此,对于这些标记,如果家庭的高风险状态与遗传暴露无关,那么即使不将 HRS 作为协变量包括在内,也可以消除模型中潜在的混杂因素和潜在的碰撞偏差。尽管高风险状态指的是父母而不是孩子的表型,但这种关联的缺乏可能表明表2中突出显示的特征可能不是精神分裂症或双相情感障碍的有用内表型,但可能与其他疾病相关。

表2中的大多数相关标记(48 个中的 29 个)属于蛋白质编码基因。总共,15 个独特基因与至少一个全基因组显着关联 [满足标准 (i) 和 (ii)] 与其中的变体有关:ANKS1B、ATP11A、CACNB4、CPLX2、CSMD1、EFCAB1、FRK、KIF13B、PRKCE、SIRPA、SYNE1、TGM3、TMEM2、TSACC和ZSWIM6。鉴于表2中的关联当使用 WISC、SRS 和 RIST 的算术和符号搜索子测试时,我们在运行 VarElect 分析时将以下术语与基因名称一起使用:自闭症或“工作记忆”或行为或沟通或智力或“处理速度”或“韦克斯勒儿童智力量表”或“雷诺智力筛查测试”或“社会反应量表”或精神分裂症或“双相情感障碍”。添加最后两项是因为它们代表了确定 VIA 样本所依据的疾病。15 个基因中有 14 个与至少一个术语直接相关(即该基因的 GeneCard 包含该术语),每个基因的关联术语的平均数量为 4.43 (± 2.41)。ANKS1B ) 和突触核包膜蛋白 1 ( SYNE1 )。附加文件4:表 S1 列出了术语和基因之间的所有直接关联以及分数的讨论。VarElect得分最高的基因是CUB And Sushi Multiple Domains 1 ( CSMD1 ),平均致病可能性最高的基因是前述的CACNB4。

讨论
我们的研究使用基于家庭的 GWAS 设计调查了八种神经认知、运动、社会认知和社会行为功能,包括一般关联测试以及父母效应测试。我们已经确定了 48 个全基因组显着关联,其中 3 个满足我们研究范围的显着性阈值。我们的结果突出了几个蛋白质编码基因,其中一些基因与相关表型的先前遗传分析有关。

通过满足我们所有四个显着性标准的关联突出显示了两个基因:TGM3和CACNB4。该标记是该基因的 eQTL,进一步支持了与TGM3的关联。该基因参与表皮终末分化,并与某些癌症有关[ 77 , 78]。在我们的研究中,该基因中的标记与工作记忆的测量相关。有趣的是,之前的研究发现了该基因与相关表型之间的相关关联:一项对阿尔茨海默病(AD)患者的 RNA 血液转录组的研究,这种疾病涉及严重的记忆障碍,发现差异表达基因中最大的表达倍数变化AD 病例和对照中使用TGM3 [ 79 ]。同一家族的基因与多种神经退行性疾病有关[ 80 ]。另外值得注意的是,我们研究中的相关标记也是PTPRA的大脑 eQTL,一个对海马神经元迁移很重要的基因;缺乏 PTPRA 蛋白的小鼠表现出学习和短期记忆障碍[ 81 ]。社会反应性 (SRS) 和CACNB4之间的关联与母亲 POE 相关。该标记还与甲基化和组蛋白修饰位点相关,为 POE 提供了进一步的支持。该基因编码电压依赖性钙通道β亚基家族的成员,并且它属于在许多研究中与多种精神和神经发育障碍(包括自闭症谱系障碍)有关的基因家族[82 ]。由CACNB4编码的亚基具体来说,在大脑中高度表达,并且在小脑中突出[ 83 ]。最近的一项研究发现,该基因中的致病性错义变异会导致严重的神经发育障碍,包括智力障碍、语言障碍、运动障碍和癫痫发作[ 84]。当将高风险状态的协变量添加到顶级关联的统计模型时,我们观察到它要么稍微改善了关联(使用 SRS,母亲 POE 测试),要么大幅降低了关联(使用 WISC 算术,一般测试)。在模型中包含这个协变量是否合适取决于遗传变异、性状和协变量之间的因果路径,这些路径是复杂且未知的。因此,对这些事后测试的解释应谨慎进行。

在表2中的其他基因中,三个基因在功能注释中突出显示,因为它们具有最高的 VarElect 分数或与最多数量的术语相关:CSMD1、ANKS1B和SYNE1。CSMD1特别令人感兴趣,因为它与精神分裂症有关[ 85,86,87 ]。有趣的是,在我们的研究中,该基因与与工作记忆测量相关的标记有关。对该基因的一项研究报告称, CSMD1中的精神分裂症风险变异与空间工作记忆相关[ 88]。这可以说明遗传变异对精神分裂症内表型的影响。在这种情况下,值得注意的是一项重新定义精神病学内表型概念的提议,以使其包括可能在多种疾病中共享的跨诊断特征[ 42 ]。ANKS1B通过标记 psy_rs10860381 与母亲 POE 测试中的社会反应性之间的关联而受到影响。该基因编码一种在大脑中高度表达的活动依赖性突触后效应蛋白,并且与多种神经发育表型有关[ 89]。重要的是,小鼠模型中该基因的单倍体不足导致社交互动受损和感觉运动功能障碍,这是自闭症谱系障碍的核心特征[ 90 ]。更重要的是,该基因在大脑中表现出等位基因表达不平衡,这可能是基因组印记的结果(可能导致 POE),尽管这只是一种可能的解释 [ 89 ]。在一般测试中, SYNE1通过几个标记与处理速度(WISC 符号搜索)之间的关联而受到影响。该基因编码一种蛋白质,该蛋白质参与将特化的肌核锚定在神经肌肉接头下方,但它也在大脑中表达——主要是在小脑中[ 91]]。它与隐性形式的小脑共济失调有关,其中还可能包括认知缺陷[ 91 ]。有趣的是,与对照组相比,具有SYNE1突变的个体表现出处理速度缺陷[ 92 ],这与我们在一般测试中显示该基因与处理速度之间的关联的结果一致。SYNE1和TGM3在自闭症谱系障碍的新生突变研究中得到了强调[ 93 ]。

表2中的一些其他关联也值得注意。社会反应性和 rs191695175 之间的父系 POE 关联是我们研究中最显着的关联。该标记的次要等位基因频率非常低,约为 0.01(在创始人中),这可能会导致效应大小出现偏差。然而,该标记发现于 8 号染色体染色体带 8q24.13 上,该位点是全基因组连锁研究中同一性状(即 SRS)暗示性连锁峰的一部分 [ 13 ]。在另一项研究中,除了焦虑评分和语用语言技能评分之外,同一基因座还显示出与 SRS 的联系 [ 94]。然而,这些研究并未对 POE 进行建模。因此,尽管我们可能无法相信该基因座的估计效应大小,但该关联本身可能是有效的并得到先前研究的支持,并且 POE 如果确实在该基因座上起作用,则有可能有助于与之前的研究相比,本研究中的信号更强。之前还有其他研究也包括类似的表型,例如社交互动和社交沟通(都不是用 SRS 测量的),但它们没有对 POE 进行建模,并且它们的显着结果与我们的不重叠 [ 95 , 96]。我们还观察到与标记 rs11784069 的一个有趣的关联趋势:当从母亲遗传时,等位基因 T 与较高的 WISC 算术分数(更好的工作记忆功能)相关,但是,当从父亲遗传时,它与较低的分数相关(表2)。这是引言中提到的现象的一个例证,即不同亲本类型在同一基因座上具有相反的 POE,这种现象在人类的其他数量性状中已经观察到。该标记是全血中eQTLGen (P = 3.2717 × 10 –310 ) 和 GTEx (P = 9.5 × 10 –20 ) 上MYOM2的高度显着性 eQTL 。有趣的是,该基因的小鼠直系同源物Myom2,在一项研究中显着上调,并且在记忆增强小鼠海马体中上调基因中排名第五[ 97 ],这与我们研究中的关联相关,因为 WISC 算术分数是工作记忆的衡量标准。

内表型和研究领域的最佳结果
我们研究中的顶级结果所暗示的特征,即 SRS(社会反应能力)和 WISC 算术(工作记忆),已被分别提议作为 ASD 和 ADHD 的内表型[ 13、98、99、100 ] 。然而,这些研究并未在全基因组显着水平上确定特定基因与这些内表型之间的联系;他们专注于连锁分析或候选基因,并且在建立关联模型的情况下,这只是暗示性的。因此,我们的研究为通过内表型从基因到疾病的途径中缺失的部分提供了遗传证据,即:TGM3  →工作记忆→ADHD和CACNB4 → 社会反应能力 → 自闭症谱系障碍(ASD),通过我们确定的顶级遗传关联。同样,记忆障碍,包括言语工作记忆障碍,是精神分裂症的常见特征[ 101 ],这表明TGM3、CSMD1和PTPRA与精神分裂症之间通过工作记忆内表型存在进一步的通路。表2中突出显示的关联属于神经认知和社会行为领域。这并不意味着来自其他领域的性状不会产生良好的内表型;我们的研究没有对此进行检验,并且缺乏遗传关联可能是由于这些性状的遗传力较低和/或样本量不足造成的。

我们研究的局限性
我们的结果应该根据几个潜在的局限性进行评估。首先,我们的研究样本是一个以家庭为基础的样本,因此样本量不是很大。虽然这有利于我们能够获得深度表型样本,但它可能不利于遗传关联研究。虽然,如之前 QTDT 模型的模拟研究所示,我们的样本应该足够大以检测到一些效应,但预计我们的样本中只能检测到强烈的效应,这可以解释为什么我们的大多数全基因组显着效应关联是基因内的。还应该强调的是,由于混杂因素,某些效应大小可能会被高估。由于很难确定对高风险状态的调整是否适当,应该记住,某些关联的影响可能不准确。然而,由于进行 GWAS 的目的是发现下游分析的新遗传关联,而不是估计其影响,因此我们采用了这种方法,而不是像前面讨论的那样可能过度调整模型。另一个限制是我们没有合适的复制样本,其中包括来自儿童和父母的相同表型和遗传数据。尽管我们的候选基因在之前的相关性状研究中已得到强调,为它们与我们性状的关联提供了更多可信度,但与特定变异的关联需要在独立样本中复制。由于进行 GWAS 的目的是发现下游分析的新遗传关联,而不是估计其影响,因此我们采用了这种方法,而不是像前面讨论的那样可能过度调整模型。另一个限制是我们没有合适的复制样本,其中包括来自儿童和父母的相同表型和遗传数据。尽管我们的候选基因在之前的相关性状研究中已得到强调,为它们与我们性状的关联提供了更多可信度,但与特定变异的关联需要在独立样本中复制。由于进行 GWAS 的目的是发现下游分析的新遗传关联,而不是估计其影响,因此我们采用了这种方法,而不是像前面讨论的那样可能过度调整模型。另一个限制是我们没有合适的复制样本,其中包括来自儿童和父母的相同表型和遗传数据。尽管我们的候选基因在之前的相关性状研究中已得到强调,为它们与我们性状的关联提供了更多可信度,但与特定变异的关联需要在独立样本中复制。另一个限制是我们没有合适的复制样本,其中包括来自儿童和父母的相同表型和遗传数据。尽管我们的候选基因在之前的相关性状研究中已得到强调,为它们与我们性状的关联提供了更多可信度,但与特定变异的关联需要在独立样本中复制。另一个限制是我们没有合适的复制样本,其中包括来自儿童和父母的相同表型和遗传数据。尽管我们的候选基因在之前的相关性状研究中已得到强调,为它们与我们性状的关联提供了更多可信度,但与特定变异的关联需要在独立样本中复制。

未来展望
研究表明,认知能力的遗传力从童年到成年早期逐渐增加[ 102 ]。有趣的是,身高也观察到了类似的趋势(女孩在 13 岁左右达到顶峰,男孩在 14 岁左右达到顶峰)[ 103 ]。当由遗传解释的表型方差的比例增加时,由环境解释的方差的比例减少,反之亦然。就身高而言,这种趋势可以反映幼儿生活条件和/或产前环境因素的影响[ 103]。对于认知能力,作者推测这种趋势可能是基因型与环境相关性的结果,即他们的基因在儿童成长过程中越来越多地影响他们选择、修改和创造自己的经历[ 102 ]。从统计遗传学的角度来看,较高的遗传力意味着如果在儿童年龄较大时对样本进行研究,可以发现更多的遗传关联。这可能意味着使用成年早期测量的这些功能在 VIA 样本中重复进行分析可能会产生进一步的关联。此外,对我们研究中强调的基因的功能研究可以进一步了解本研究中研究的神经发育障碍的分子病因学,其内表型。

结论
我们的研究通过一般测试或 POE 测试确定了几个与社会行为和神经认知功能相关的候选基因;后一个测试中的关联也得到了外部研究的支持,这些研究已经确定了与相关标记相关的甲基化或组蛋白修饰位点。重要的是,我们的大多数全基因组显着关联都在蛋白质编码基因内,其中许多先前与相关性状和疾病的研究有关,尽管许多先前的关联与罕见和/或有害的突变有关。我们的研究提供了进一步的证据,证明常见变异可能会影响未诊断出患有严重精神障碍的个体的相关特征,并且进一步支持了所研究特征中突出基因的作用,这可以被视为先前研究中这些基因含义的复制。我们没有发现本研究中包含的其他一些功能/领域的特征之间存在显着关联;这可能是由于这些性状的遗传力较低,以及 VIA 样本中无法发现的潜在较小影响的结果。我们的结果还说明了 POE 建模在人类遗传学研究中的有用性,虽然之前的研究重点关注一系列定量的非社会认知、非社会行为和非神经认知特征,但我们的研究强调了潜在的存在对其中几个特征的 POE 进行了系统的研究,从而为人类中的这种现象提供了进一步的证据。我们没有发现本研究中包含的其他一些功能/领域的特征之间存在显着关联;这可能是由于这些性状的遗传力较低,以及 VIA 样本中无法发现的潜在较小影响的结果。我们的结果还说明了 POE 建模在人类遗传学研究中的有用性,虽然之前的研究重点关注一系列定量的非社会认知、非社会行为和非神经认知特征,但我们的研究强调了潜在的存在对其中几个特征的 POE 进行了系统的研究,从而为人类中的这种现象提供了进一步的证据。我们没有发现本研究中包含的其他一些功能/领域的特征之间存在显着关联;这可能是由于这些性状的遗传力较低,以及 VIA 样本中无法发现的潜在较小影响的结果。我们的结果还说明了 POE 建模在人类遗传学研究中的有用性,虽然之前的研究重点关注一系列定量的非社会认知、非社会行为和非神经认知特征,但我们的研究强调了潜在的存在对其中几个特征的 POE 进行了系统的研究,从而为人类中的这种现象提供了进一步的证据。以及威盛样本中无法发现的潜在较小影响。我们的结果还说明了 POE 建模在人类遗传学研究中的有用性,虽然之前的研究重点关注一系列定量的非社会认知、非社会行为和非神经认知特征,但我们的研究强调了潜在的存在对其中几个特征的 POE 进行了系统的研究,从而为人类中的这种现象提供了进一步的证据。以及威盛样本中无法发现的潜在较小影响。我们的结果还说明了 POE 建模在人类遗传学研究中的有用性,虽然之前的研究重点关注一系列定量的非社会认知、非社会行为和非神经认知特征,但我们的研究强调了潜在的存在对其中几个特征的 POE 进行了系统的研究,从而为人类中的这种现象提供了进一步的证据。

发布日期:2024-02-28