新闻资讯

包括猴痘病毒在内的正痘病毒基因组微卫星特征的系统生物学

1 . 介绍
痘病毒科病毒科已分为两个亚科:昆虫痘病毒亚科和脊索痘病毒亚科,已知它们分别感染昆虫和脊椎动物。由 22 属 83 种组成,它们具有不同的核苷酸相似性 (https://ictv.global/taxonomy)。它们具有大尺寸的 dsDNA 基因组 (130–360 kb)。正痘病毒属属于脊索痘病毒亚科。已知的正痘病毒(OPXV) 包括天花痘病毒(导致天花疾病)、牛痘痘病毒和其他已通过天花疫苗接种控制的无毒力物种OPXV 表现出免疫原性交叉反应性 [1]。

痘病毒科DNA 基因组编码一些保守基因和可变基因。由于其基因组较大,基因组复制发生在细胞质而不是细胞核中。这也要求痘病毒基因组编码其自己的复制机制[2] 。基因组的中心部分几乎占基因组的四分之三,包含病毒复制以及病毒粒子组装和释放的必需基因。末端区 ORF 编码的蛋白质具有否定宿主抗病毒机制的作用,包括免疫反应、抗原加工、细胞凋亡、干扰素,统称为毒力因子 [3] [4]。富含锚蛋白重复序列​​(ANK)的末端蛋白是与蛋白质-蛋白质相互作用相关的宿主范围基因。天花病毒和牛痘病毒分别有 10 和 15 个 ANK 重复序列。[5] . 它们在抑制干扰素等炎症细胞因子方面发挥着重要作用[6]。

据报道,牛痘、湿疹、牛痘和猴痘的传播途径是通过体液或皮肤擦伤[7] [8]。截至 2022 年 8 月 21 日,来自 94 个国家共发现 41,358 例猴痘确诊病例 (https://www.cdc.gov/poxvirus/monkeypox/response/2022/world-map.html)。这就需要努力了解猴痘病毒的基因组学,以探索其发病机制和进化的多个方面。

本研究试图从 OPXV 属 8 个物种的基因组中提取和分析微卫星。微卫星或 SSR(简单序列重复)通常以 20-60 个单至六核苷酸基序重复出现。微卫星的分布在基因组的编码区和非编码区中是非随机的[9]、[10]、[11]、[12]。它们在编码区突变中的作用比基因组区域其他部分的作用更大(10-100倍)[13]。SSR 的模式和分布也被用作物种形成、宿主分化和进化的标记[14] , [15]、[16]、[17]、[18]、[19]。

2 . 材料和方法
2.1 . 基因组序列
根据ICTV 报告(https://ictv.global/taxonomy)收集的OPXV信息,从 NCBI(http://www.ncbi.nlm.nih.gov/)检索到 8 个完整基因组序列。 FASTA 格式。有关各种基因组特征(例如宿主范围及其基因组性质)的所有相应元数据均已编译。研究中使用的基因组及其重要方面的摘要已显示在补充文件 1 中。

2.2 . 简单和复杂微卫星的提取
OPXV的微卫星或SSR通过 MISA 网络服务器进行分析 (https://webblast.ipk-gatersleben.de/misa/index.php?action=1)。使用全长基因组的 FASTA 格式作为输入文件,并根据病毒基因组的标准化参数进行提取 [10]、[16]。简而言之,被视为 SSR 的最小重复数设置如下:6(单)、3(二)、3(三)、3(四)、3(五)和 3(六)。这些参数已被用作病毒基因组的标准,其尺寸相对较小,并且给出了其中存在的用于分析的卫星的可接受的说明。两个 SSR 之间的最大允许距离已知为 dMAX,初始提取时该距离保持为 10。这也意味着多个 SSR 当间隔距离 ≤dMAX 时将被视为复合 SSR (cSSR)。进一步以 10 为间隔增加 dMAX,以研究 SSR 的聚类情况(如果有),直到 dMAX50 并提取 SSR 进行比较分析。

2.3 . 统计分析
通过 Excel 工具库 2021 配置生成各种微卫星相关参数之间的相关性分析。我们研究了 GC% 和基因组大小与微卫星参数(如简单和复杂 SSR 发生率、RA(相对丰度)、RD(相对密度)和 cSSR)之间的相关性。

2.4 . 物种之间的进化关系
为了了解 OPXV 之间的进化关系,我们使用 MEGA11生成了系统发育树[20]。通过 MAFFT 服务器 (https://mafft.cbrc.jp/al​​ignment/server/) 的 MSA(多序列比对)及其默认参数用作 MEGA11 的输入。最终树是使用 iTOL 平台 (https://itol.embl.de/) 开发的。此外, Morpheus (https://software.broadinstitute.org/morpheus/)通过热图分析了所研究序列的相似性。

3 . 结果
3.1 . 正痘病毒的基因组组成
正痘病毒(OPXV )病毒组具有非常大的 dsDNA 基因组。研究中包含的基因组平均大小为 205 kb,最大范围为 POX2 (224.499 kb),最小范围为 POX7 (185.578 kb)。相比之下,除了一种以外,所有物种的 GC% 都是相同的,均为 33%。POX8 是个例外,其基因组中 GC 含量为 31%。图 1 A中基因组特征的图形表示和补充文件 1 中提供的详细信息也很明显。

图。1
下载:下载高分辨率图像 (128KB)
下载:下载全尺寸图像
图。1。正痘病毒基因组中的基因组特征和微卫星发生率摘要。(A) 基因组大小 (Kb) 和 GC 含量 (%)。注意基因组大小的变化,但 GC 组成几乎一致。(B) SSR 和 cSSR 的发生率以及相应的 cSSR% 值。cSSR% 表示作为 cSSR 一部分存在的 SSR 的百分比。SSR 反映在 X 轴上,cSSR 反映在 Y 轴上,cSSR% 通过颜色编码反映。注意不同基因组中发病率的差异。

3.2 . SSR发生率
在 OPXV的 8 个基因组中总共观察到 10584 个 SSR 和 854 个 cSSR 。POX2 基因组最大,为 224.499 kb,其 SSR 数量也最多,为 1493 个,cSSR 为 121 个。同样,基因组大小最小为 185.578 kb 的 POX7 的 SSR 和 cSSR 数量最少,分别为 1181 个和 96 个(图 1)B)。这表明 SSR 的发生率与基因组大小相关。然而,跨基因组的 SSR 和 cSSR 发生率之间的关系并不直接相关。例如,POX1和POX3分别具有1364和1363个SSR。其中事件cSSR的对应值分别随着111和100个cSSR而变化。相比之下,具有 1237 个 SSR 的 POX5 具有 109 个 cSSR。因此,尽管 SSR 的发生率可能取决于基因组大小,但它们在基因组中的分布肯定不是这样。提取的 SSR 和 cSSR 的摘要已在图 1 B 和补充文件 1 中提供,而详细信息如图 2所示和补充文件 2。以百分比表示时,作为 cSSR 一部分存在的 SSR 数量称为 cSSR%,其范围从 19.07 (POX5) 到 15.48 (POX3),如图1 B 和补充文件 1 所示。这是再次与暗示 SSR 基因组特异性作用的发生率数据不符。

图2
下载:下载高分辨率图像 (350KB)
下载:下载全尺寸图像
图2 . -正痘病毒基因组中微卫星分布的概述。P1至P6分别代表单至六核苷酸重复基序。C代表cSSR。

3.3 . 相关性研究
我们研究了基因组大小和 GC% 与微卫星参数(如 SSR 和 cSSR 发生率、相对丰度 (RA)、相对密度 (RD)、cSSR%)之间的相关性。从数据中发现,OPXV基因组的基因组大小与SSR和cSSR发生率均显着相关(SSR发生率,R2=0.021,P>0.05,cSSR发生率,R2=0.035,P>0.05)。其余参数与我们所需的参数没有显着相关性。

3.4 . SSR 患病率
SSR 的发生率不能孤立地解释,因为基序重复十次的 SSR 将具有完全不同的含义,其中基序重复三十次。为了根据基因组大小了解基序长度和覆盖范围,我们使用两个标准参数:RA 和 RD。RA 被定义为每 kb 基因组中存在的微卫星数量,而 RD 是由每 kb 基因组中的微卫星 SSR 组成的序列空间。

SSR 和 cSSR 的 sRA 和 cRA 分别为 4.9 至 5.84 和 34.96 至 38.39。POX7 (sRA 5.27) 的 SSR 发生率最低,但不显示最小 sRA,并且每 kb 基因组的 SSR 发生率高于 POX5 (sRA 5.05) 和 POX8 (sRA 4.93)。有趣的是,POX7 确实具有最低的 sRD (34.96),这意味着基序重复的次数较低。POX5 的 cRA 最高为 0.55,这证实了 cSSR% 是基因组中的最大值。较高的 cSSR% 反映了更多的 SSR 作为 cSSR 存在,因此反映了基因组中 SSR 的聚类。这是基因组特定事件。例如,在 SSR 发生率最高的 POX2 中,cRA 低于 POX1 和 POX5。POX 3 中观察到的 cRA 最低,为 0.47。此外,cRD 值范围在 11.20 (POX5) 至 9.20 (POX3) 之间。RA 和 RD 值的详细信息已显示在图 3和补充文件 1。

图3
下载:下载高分辨率图像 (171KB)
下载:下载全尺寸图像
图3 . 简单序列重复(SSR)和复合简单序列重复(cSSR)的相对丰度(RA)和相对密度(RD)。

3.5 . cSSR 发生率随 dMAX 的增加而增加
为了进一步评估基因组中 SSR 的聚类情况,我们将 dMAX 从 10 更改为 50,间隔为 10,并观察相应的 cSSR 发生率。观察到的数据已在补充文件 3 中给出并如图 4所示。预计 cSSR 发生率会随着 dMAX 的增加而增加,但其非线性证实了 SSR 的基因组特异性发生率和定位。例如,cSSR 发生率最低为 96 的 POX7 在 dMAX20 和 dMAX30 时分别有 152 和 201 个 cSSR。差异增加可以通过以下事实来衡量:在 dMAX30 时,POX5 的 cSSR 数量最少,为 193 个。POX1 和 POX6 从 dMAX40 移动到 dMAX50 时 cSSR 有所下降。这可能是因为合并了以前独立的 cSSR。

图4
下载:下载高分辨率图像 (184KB)
下载:下载全尺寸图像
图4 . cSSR 模式的 dMAX 从 10 到 50 不等。cSSR 发生率的增加是预期的,但其中缺乏模式意味着基因组水平的独特性。

3.6 . 微卫星基序大小、组成和普遍性
单至六核苷酸 SSR 的提取已成为病毒基因组分析的标准。我们分别分析了 cSSR 内部和外部的 SSR。根据基序大小,不属于 cSSR 一部分的 SSR 在基因组中的分布揭示了一些有趣的观察结果。首先,二核苷酸 SSR 在所有基因组中最为普遍。其次,POX8 仅具有单核苷酸和二核苷酸 SSR。不存在三至六核苷酸重复,表明它们仅作为 cSSR 存在。第三,POX1和POX2缺乏五核苷酸重复,但分别有3和5个六核苷酸重复(图5)A,补充文件 4 和 5)。总体而言,OPXV 基因组显示双核苷酸重复出现频率最高,为 57.47%,其次是单核苷酸重复,为 33%,三核苷酸重复为 8.6%。存在相同数量的四核苷酸和六核苷酸重复。

图5
下载:下载高分辨率图像 (148KB)
下载:下载全尺寸图像
图5。正痘病毒基因组中事件 SSR 的基序长度和组成。(A) 单核苷酸至六核苷酸 SSR 对微卫星基因组特征的贡献 (B) 单核苷酸重复基序组成。注意 A/T 区域单核苷酸 SSR 的流行。

就基序组成而言,单核苷酸 SSR 主要是 T (51%) 和 A (48.4%),因此导致存在可忽略不计的 G 或 C 单重复序列(图 5 B)。在二核苷酸重复中,AT/TA 是最具代表性的 SSR,由区域组成 (63%),远远落后于 TC/CT 和 AG/GA,分别为 11% 和 10%。在三核苷酸重复中,最常见的是 ATA/TAT、ATC/TAG、TTA/AAT、ATT/TAA、GAT/CTA、CAT/GTA。二核苷酸和三核苷酸SSR的基序组成如图6所示。补充文件 2、4 和 5 中提供了所有提取的 SSR 的详细信息。

图6
下载:下载高分辨率图像 (167KB)
下载:下载全尺寸图像
图6 . 事件 SSR 中二核苷酸和三核苷酸基序的基序组成。(A) 最常见的二核苷酸 SSR (B) 最常见的三核苷酸 SSR。

3.7 . 编码区和非编码区中存在 SSR
据报道,微卫星存在于各种基因组的编码部分和非编码部分中。在这里,OPXV 在编码区(7084)有大部分 80.32%的 SSR,而在非编码区(1735)。有趣的是,非编码区中五核苷酸重复的数量(6)多于编码区(2)。此外,编码区中总四(分别为 21,10 个存在的 CDS 和 NCS)和六(分别为 21, 12;CDS 和 NCS)基序重复也很高。另一方面,三核苷酸基序重复主要仅存在于翻译区域中(729、79;分别为 CDS 和 NCS)。补充文件 6 显示了跨基因组的所有 SSR 的定位。

随后,分析了特定蛋白质中 SSR 的存在,如图 7所示。来自所有基因组中 SSR 数量最多的六种蛋白质被用于此目的。基因组中相似的蛋白质已用相同的颜色突出显示。该分析中没有对 POX2 的蛋白质进行注释,因此无法推断其中的数据。以下数据包含了其他七个基因组,其中尽管 Ankyrin/Ankyrin-like 蛋白在五个基因组中具有最大数量的 SSR(POX1 和 POX7 除外),但 SSR 的数量差异很大,从 POX8 的 138 个 SSR 到 POX8 的 46 个。 POX3。聚合酶是唯一存在于所有基因组中的蛋白质,但 SSR 发生率不同。就SSR发生率而言最一致的蛋白质是Kelch,其POX1、POX3、POX5、POX6和POX8分别具有30、26、30、29和23个SSR。POX4 和 POX7 是例外,其中 Kelch 没有出现在列表中。

图7
下载:下载高分辨率图像 (385KB)
下载:下载全尺寸图像
图7 . 正痘病毒蛋白中 SSR 的分布。图中只显示了每个基因组中包含最多数量 SSR 的 6 种蛋白质。基因组中的相同蛋白质具有相同的颜色,以便于参考和比较。

3.8 . 正痘病毒独特的 cSSR 标记
迄今为止,个体基因组中 SSR 特征的独特性促使我们寻找基因组中独特存在的 cSSR。表1总结了所有独特的cSSR、它们的组成和基因组定位。仅包含 cSSR 的 SSR 基序用于此分析,而不使用表中用“X”表示的插入序列。我们的分析揭示了OPXV中多个独特的 cSSR 标记基因组。POX8 拥有最多的 50 个独特 cSSR,其次是 POX1、POX2 和 POX3,分别为 22、32 和 23 个。POX6 和 POX7 表现出最少的 12 个独特 cSSR。这些数据不一定证实 SSR 的发生率,因为更多的 SSR 不会导致更多的独特性。例如,POX2 最多有 121 个 cSSR,但只有 32 个独特的 cSSR,而 POX8 只有 108 个 cSSR,却有 50 个独特的 cSSR。这再次重申每个基因组都有独特的 cSSR 签名。

3.9 . 进化关系、基因组SSR特征和宿主多样性
OPXV 基因组的系统发育树以及基因组 A/T 区域中存在的 SSR 数量如图 8A所示,这已被证明是宿主确定的标记[16] 。这些病毒以人类和其他脊椎动物(如猴、牛、大鼠、骆驼和马)为宿主,这些病毒也已在系统发育树上进行了描述。通过热图分析进一步确定序列相似性,如图8所示B. 根据热图,三个最相似的基因组,即 POX1、POX7 和 POX5(相似度为 93%)也在系统发育树中彼此相邻,从而证实了这一点。此外,很明显,进化路径来自 POX5(啮齿动物宿主)转向 POX7 和 POX1,其中 POX1 的基因组大小和 cSSR 数量增加,POX7 的基因组大小和 cSSR 数量减少。痘病毒病毒也曾报道过这种基因丢失或获得的现象[21] [22]。

4 . 讨论
与病毒相比,OPXV 基因组具有相对较大的双链 DNA。据报道,与RNA 病毒相比,双链DNA 病毒的基因组突变频率较低[23]。尽管突变率较低,痘病毒仍能适应目标宿主基因组,从而导致新物种的出现。OPXV 是以人类和其他脊椎动物为宿主的属之一[21]。OPXV 显示出多种适应策略,并从祖先痘病毒进化而来,最终归入这个独立的属。此处,OPXV 基因组大小从 224 kb (POX2) 到 185 kb (POX7) 不等。有趣的是,最大的基因组 POX2(牛痘病毒)具有广泛的宿主,包括牛、人类和其他脊椎动物[24],而最小基因组 POX7(v ariola 病毒)专门针对人类作为宿主,没有其他报道的宿主[25]。其他具有中等基因组大小范围的病毒感染其他脊椎动物,如骆驼、牛、猴子和啮齿动物。它们可以直接或通过中间宿主感染人类。痘病毒倾向于丢失其基因,以选择狭窄的宿主范围并仅保留特定生态位所需的基因[21],[26]。这可以通过基因组中普遍存在的 SSR 来帮助,这些 SSR 可能有助于通过链滑移或重组位点[14]、[18],[19]。

今年早些时候,非洲、美洲和东地中海等多个地区报告了猴痘病毒(https://www.who.int/emergcies/disease-outbreak-news/item/2022-DON396),这些地区主要是猴痘病毒负责将病毒传播给人类[27]。因此,我们利用微卫星作为工具探索了 OPXV 基因组。在 OPXV 中,POX2(牛痘病毒)病毒的最大基因组也具有最高数量的 SSR 和 cSSR,但这种差异并未反映在 sRA/sRD 和 cRA/cRD 值中。RA 和 RD 值非常相似,所研究物种的平均值分别为 5.3 和 0.52。因此,所有 OPXV 基因组都具有相似的微卫星事件频率。

此外,我们根据基序大小分析了微卫星重复组成。二核苷酸基序的频率最高,超过 57%,其次是单核苷酸基序。由于微卫星在链滑移和重组中的作用,这变得相关[28]。POX1 和 POX2 的基因组中没有五 SSR 基序。就SSR的基序组成而言,我们发现所有单核苷酸SSR几乎都集中在A/T区域。这很重要,因为当病毒具有人类和相关宿主时,单核苷酸 SSR 要么完全或主要存在于基因组的 A/T 区域,无论基因组 GC% [15]、[16]、[17]。在二核苷酸重复基序中,AT/TA 的出现率高达 63%,可以作为突变和基因组进化的热点[29] , [30]。

随后,我们研究了编码/非编码基因组区域中的 SSR。据报道,病毒基因组大多由翻译/编码区域组成,在多个蛋白质的特定延伸上具有重叠基因,同时保持其基因组简洁。OPXV 基因组的有趣之处在于其核心/中心部分比末端区域更加保守。在进化过程中,必需基因已向基因组的中心区域迁移,并在同一属或科之间保守,物种之间的核苷酸同一性高达 98% [31]。猴痘病毒的功能注释表明它们在左右区域具有膜和免疫蛋白相关的ORF [32]。这是有道理的,因为免疫相关的 ORF 需要积累突变并多样化才能进化并不断逃避宿主的免疫系统。此外,与宿主决定和分化相关的锚蛋白/锚蛋白样蛋白和Kelch蛋白[5]是几乎所有研究的病毒中具有最高SSR密度的蛋白,如图7所示。唯一的例外是 POX7(天花病毒),该病毒仅报道人类为宿主。

有趣的是,已知 OPXV 基因组在进化过程中与基因失活或丢失有关。具有最大基因组的POX2(牛痘病毒)可能会通过基因组区域的丢失而多样化为其他病毒,如系统发育树中所示。这种损失很可能发生在编码抗宿主因子和病毒调节蛋白 特异性蛋白质的末端基因组区域[33]。尽管 SSR 存在于编码区和非编码区,但 80% 的 SSR 位于 CDS 部分。锚蛋白是一种非常保守的蛋白质,存在于所有 OPXV 中。它使病毒在目标宿主体内更容易受到影响。我们的数据显示所有物种的锚蛋白中都存在大量 SSR(补充文件 6)。其他宿主范围蛋白如 K1L、C7L 存在于基因组的末端区域,其中高密度的二核苷酸 SSR 也存在于除 POX5 和 POX8 之外的所有物种的基因组末端,如图2 B所示。因此,我们可以说其他物种 POX1、POX2、POX3、POX4、POX6 和 POX7 可能由于基因组分歧导致的重复序列丰富而进化。

据报道,OPXV 基因组一年内每个位点发生 1-2 次替换[34]。突变分析发现,在从189 kb扩展至200 kb的短基序中,左侧有8个突变,右侧有13个突变[33]。正如最近世界各地的猴痘感染所证明的那样,OPXV 基因组可能正在进化并扩大其宿主范围,这一事实要求对 cSSR 作为潜在生物标志物进行评估[35]。因此,我们研究了每个基因组的独特 cSSR。POX8 具有最多的 50 个独特 cSSR,并且蛋白质中 SSR 的存在差异最大,这似乎意味着它是该组中独特的病毒。此外,在 POX4 中发现了独特的长重复 (TA)3 SSR(具有中断的 CAT 核苷酸),但除此之外,值得注意的是,一直令人担忧的 POX4(猴痘病毒)在基因组微卫星特征方面并没有真正表现出独特性。这可能表明其他相关病毒也具有类似的致病潜力因此需要监控。本研究强调了病毒基因组中独特的微卫星特征的本质,以及它们作为生物标志物的潜力。单核苷酸重复定位、cSSR 的保守性以及排他性发生率和 SSR 的蛋白质特异性外壳等几个方面保证需要对所有病毒属内和跨属的重复进行全面的基因组特异性分析。这不仅可以帮助我们理解病毒的进化,还可以预测病毒的进化。

5 . 结论
基因组微卫星特征有两个方面在宿主确定中发挥作用。首先,人类和相关宿主病毒的 A/T 区域主要存在单核苷酸重复。其次,锚蛋白结构域蛋白反映了更广泛的宿主范围导致 SSR 的发生率较低,反之亦然。此外,基因组中独特的 cSSR 的差异存在表明每个 OPXV 成员都有不同的进化路径。基因组的不完整注释是确定其中各种蛋白质/ORF和SSR的重要性的挑战。

发布日期:2024-03-07