8814vip线路

circRNA测序案例1

标准化分析 > RNA测序 > circRNA测序 > circRNA测序案例1

玉米中转座子介导的环状RNA与转录组层面和表型变异有关
Circular RNAs mediated by transposons are associated with transcriptomic and phenotypic variation in maize
New Phytologist (2018) 217: 1292–1306
doi: 10.1111/nph.14901

背景
环状RNA(circRNA)是一类共价封闭的单链RNA分子。约30年前,一些circRNA被确定并被认为是异常剪接和转录噪音。然而最近,circRNA被大量报道,并且发现circRNA可以影响亲本线性转录本的表达。在植物中,circRNA在拟南芥和水稻中已被在全基因组范围内鉴定。然而circRNA在玉米中的研究相对较少。玉米是世界上广泛种植的作物之一,并且其基因组上含有高于85%的重复序列。那么玉米中全基因组上circRNA的分布如何,重复序列与circRNA的形成是否有关系,与玉米的表型是否有关系,这些都是亟待解决的问题。

主要材料方法
1.    材料与数据
测序数据:玉米自交系B73两周幼苗circRNA-Seq(NCBI序列号PRJNA356366)和poly(A)选择的mRNA-Seq(NCBI序列号PRJNA356498)。
公共数据:977个公共的玉米RNA-Seq数据,包括不同B73组织(叶、种子、胚、幼苗、胚乳、胚囊、胚珠、花粉、根和茎顶端分生组织)和不同玉米自交系种子(NCBI序列号SRP026161和SRP018753)。

2.    主要分析流程
(1)circRNA的生物信息学鉴定。主要使用的circRNA鉴定软件为KNIFE、CIRCexplorer2、CIRI、circ_finder等(具体流程可以参见图1a)。
(2)circRNA基因组特征分析。
(3)circRNA侧翼区域重复序列富集情况分析。使用方法RepeatMasker。
(4)circRNA与母基因线性转录本表达量分析。
(5)circRNA侧翼区域重复序列产生miRNA情况分析。
(6)circRNA侧翼区域重复序列与玉米表型变异相关分析。对于43个玉米自交系的GRMZM2G089149基因(能够产生circRNA,并且含有LLERCP重复序列)进行circRNA和线性转录本的表达量分析等。

主要结果
1.    环状RNA在玉米中广泛存在
环状RNA(circRNA)可以根据他们在基因组上的来源分为基因间区和基因上类型。为了鉴定玉米circRNA,该课题组对玉米自交系B73的两周幼苗进行了circRNA-Seq,并且收集了977个公共的玉米RNA-Seq数据,包括不同B73组织和不同玉米自交系种子。
在977个公共的玉米RNA-Seq数据中,使用的circRNA鉴定软件为KNIFE(图1a),在严格的过滤条件之后,只鉴定到256个高可信度circRNA。随机选取14个circRNA进行试验验证(10个来源于两个基因,4个来源于单个基因),发现只有4个来源于两个基因的circRNA和所有来源于单个基因的circRNA被证实。因此,在后续的研究中,该课题组只分析来源于单个基因的circRNA。
对于circRNA-Seq鉴定到的circRNA(使用的circRNA鉴定软件为CIRCexplorer2、CIRI、circ_finder,图1a),预实验表明,若随机选取只有一条读序支持的circRNA进行PCR实验,发现只有约10%的验证率;而当随机选取两条读序支持的circRNA时,验证率提高到85%。因此,该课题组选择至少有两条读序支持的circRNA进行后续的研究。他们一共在玉米中鉴定到了5329个符合要求的circRNA。5329个circRNA中,大约一半(2235)来源于未知的剪接位点,并且小于21%的circRNA可以被多个软件鉴定到。
由于每个circRNA鉴定软件的准确性和精确度都存在差异,而随机选取的实验验证发现CIRCexplorer2和CIRI(剪接位点已注释的circRNA)鉴定的circRNA具有较高的可信度(随机选取10个circRNA,其中CIRCexplorer2鉴定的有9个能被验证到,CIRI中剪接位点已注释的有7个能被验证到,而circ_finder鉴定的只有3个、CIRI中剪接位点未注释只有2个能被实验证实)。因此,该课题组选择至少有两条读序支持的、被CIRCexplorer2和CIRI(剪接位点已注释)鉴定的circRNA为高可信度circRNA,并且进行后续研究。
该课题组主要研究外显子类型circRNA(图1b),因为这些circRNA可能与基因表达和表型变异直接相关。为了验证鉴定的这些circRNA,该课题组随机选择了15个circRNA候选,PCR和Sanger测序结果都表明这些circRNA的实际存在(其中一个例子如图1c)。通过整理各软件鉴定的高可信度circRNA,一共有来自2009个基因位点的2804个外显子类型circRNA被鉴定到,其在基因组上的分布如图1d。

 
图1 玉米circRNA全基因组鉴定。

2.    产生circRNA的基因(包括circRNA)与不产生circRNA的基因存在明显不同的特征
为了了解circRNA以及产生circRNA的基因位点的特征,该课题组将产生circRNA的基因位点和随机选择的不产生circRNA的位点进行特征比较。结果发现,能够产生circRNA的基因长度比随机选择的不产生circRNA的基因长度长(图2a)。circRNA的外显子长度比一般的线性外显子长度短(图2b)。circRNA的相邻两边内含子长度比一般基因的内含子长度长(图2c)。虽然circRNA的表达量往往都比较低,但是他们的母基因的表达量却往往是比较高的(图2d)。然而circRNA的表达量与其母基因表达量之间并没有明显的相关性,这也揭示了玉米中circRNA和mRNA这两种RNA之间的关系的复杂性。

 
图2 玉米中circRNA的基因组特征。

3.    逆转录转座子LLE和LLERCP(LLE和LLE反向互补序列组成的序列对)在circRNA的侧翼区域显著富集
为了探究转座子是否在circRNA的形成和表达中起到作用,该课题组使用RepeatMasker软件注释了剪接位点上下35kb的基因组序列的重复元件(图3a)。结果显示,三种转座子LLE、LRE和DLE在circRNA的两边侧翼区域都显著富集,并且与他们的反向互补序列在circRNA的两侧形成Watson–Crick互补茎环结构(分别叫做LLERCP、LRERCP和DLERCP,图3b),这种结构能够促进circRNA的形成。然而,相对来说LRERCP和DLERCP在circRNA的侧翼区域含量较LLERCP少,因此该课题组选择LLERCP来做后续研究。
通过比较五种基因,分别是产生circRNA的基因、随机选择的不产生circRNA的基因、长度最长的基因、内含子长度较长的基因、相对高表达的基因,结果发现LLE在产生circRNA的基因中显著富集(图3c)。然而,产生circRNA的基因和长度最长的基因上LLE的富集程度比较接近(62%和58%),说明LLE的存在并不是circRNA形成的直接原因。相比于其他类型的基因,LLERCP在产生circRNA的基因的侧翼区域显著富集(图3d)。此外,相比于单个LLE在circRNA侧翼区域富集,LLERCP在circRNA的上游和下游侧翼区域成对富集的情况更加普遍,这说明LLERCP可能参与circRNA形成的过程(图3b)。


 
图3 circRNA侧翼区域逆转录转座子LLE和LLERCP的富集情况。具体说明见文中。

4.    LLERCP与circRNA和线性RNA的表达量相关
为了探究LLERCP是否对circRNA的表达量有关系,该课题组鉴定了51个既能够产生有LLERCP的circRNA,也能产生没有LLERCP序列的circRNA(图4a)。对含有LLERCP和不含有LLERCP的circRNA的表达量进行t检验,发现侧翼区域含有LLERCP的circRNA的表达量显著高于没有LLERCP的,这也表明LLERCP可能增强circRNA的表达(图4b)。此外,circRNA的表达量随着LLERCP数量的增加而显著变化,表明LLERCP在circRNA中有着潜在调节机制(图4c)。恰恰相反,线性RNA的表达量随着LLERCP的增加而显著降低(图4d)。circRNA和线性RNA随着LLERCP的数量增加的表达量变化,也揭示了circRNA和线性RNA之间的复杂关系。总而言之,LLERCP的数量可能在circRNA和线性RNA之间的表达量起到调节作用。

 
图4 玉米中LLERCP的数量与circRNA和线性RNA的表达量相关。具体说明见文中。

5.    玉米中LLERCP与小RNA的相关性较小
LLERCP可以在circRNA的成环过程中形成茎环结构(图5a)。这些茎环结构与小RNA形成过程中的茎环结构相似。为了研究小RNA和LLERCP形成的茎环结构之间的联系,该课题组下载了玉米自交系B73两周幼苗的sRNA-Seq序列,并且将序列比对到玉米基因组,而后计算所有LLE内部产生的21-25nt长的小RNA的表达量。总的来说,比对到circRNA侧翼LLERCP上的小RNA读序比比对到随机选择的LLE上的读序少(图5b-c)。也就是说,小RNA往往是在随机选择的基因组上的LLE上产生,而不是在circRNA侧翼的LLERCP产生。这些结果表明,LLERCP可能能够稳定转录本的二级结构,促进circRNA的形成。
 
图5 玉米中来源于LLERCP的小RNA的情况。具体说明见文中。

6.    LLERCP含量的变化与玉米中的表型变化相关
为了探究circRNA的潜在功能,GO富集分析发现circRNA可能与细胞进程(P= 4.40E-14)、绑定(P= 8.20E-09)或者细胞器(P= 3.4E-27)相关。此外,产生circRNA的基因与表型变异相关基因(基于GWAS结果)有重复。相比于随机选择的其他类型基因(随机选择的不产生circRNA的基因、长度最长的基因、内含子长度较长的基因、相对高表达的基因),产生circRNA的基因含有显著多的表型相关位点(图6a)。这个结果表明,circRNA可能与表型变异相关。更有趣的是,产生circRNA的基因中有17%含有LLERCP和GWAS信号(图6b),这个结果也比其他随机选择的基因高。LLERCP的富集表明LLERCP可能能够解释玉米表型变异的现象。

 
图6 表型变化相关基因在产生circRNA和含有LLERCP的基因中富集。具体说明见文中。

如果circRNA与表型变异相关,那么猜测在玉米自交系中,在性状相关的基因上,LLERCP可能有存在或者缺失多态性,并且这种变异与表型变异相关。为了验证这种假设,该课题组利用GRMZM2G089149(图7a),这个基因与玉米的穗位高度性状显著相关,并且含有LLERCP和能够产生circRNA(circ1690)。该课题组对43个自交系的GRMZM2G089149基因的LLERCP中的变异进行了分析(图7b)。GRMZM2G089149有14个外显子和13个内含子,其中第3-11个外显子产生了circ1690,并且第2和11个内含子上含有LLERCP序列。虽然第2个内含子上含有两条LLE序列,但是他们在43个不同的自交系中共分离。因此,只有一个LLERCP可以形成。GRMZM2G089149编码了一个未知蛋白,但是含有UVB光合作用域,这个作用域与植物的营养生长和穗位高度相关。基因组扩增和qRT-PCR分析显示,几乎所有(除去一个)含有LLERCP的GRMZM2G089149基因的自交系能够产生circ1690,并且含有LLERCP产生的circ1690表达量显著高于没有LLERCP产生的circ1690(图7c)。这些结果表明,LLERCP的存在与否与circRNA的形成和积累相关。此外,circ1690的表达量与GRMZM2G089149的线性转录本表达量呈负相关(图7d),这表明circ1690的表达可能会影响线性转录本的表达。更有趣的是,含有LLERCP的自交系的株高显著高于不含有LLERCP的自交系(图7e),这也与之前所提的假设一致(即LLERCP的存在或者缺失影响玉米穗位高度性状)。总而言之,这些结果提供了关于转座子通过circRNA形成在表型变异中发挥功能作用的机制的有趣线索。

 
图7 在玉米自交系中,LLERCP的存在与否与穗位高度的变化相关。具体说明见文中。


小结
1、环状RNA(circRNA)是共价闭合的RNA分子。最近的研究表明,circRNA可以来自转座子的转录物。鉴于玉米基因组中转座子的普遍存在,以及由转座子引起的大量的基因组变异,研究人员假设玉米中的转座子可能参与circRNA的形成并进一步调节表型变异。
2、研究人员在B73幼苗叶上进行了环状RNA高通量测序(circRNA-Seq),并且鉴定了2804个高可信度玉米circRNA,这些circRNA都展示出不同的基因组特征。
3、综合分析表明,circRNA的侧翼区域中显着富集着与重复序列LINE1-like element(LLE)及其反向互补对(LLERCP,LLE和LLE的反向互补序列形成反向互补对)相关的序列。有趣的是,随着LLERCP数量的增加,circRNA的积累发生变化,而同位点产生的线性转录物的积累减少。此外,在与表型变异相关的基因座中富集着能够产生LLERCP介导的circRNA的基因。这些结果表明,LLERCP介导的circRNA可能参与表型变异的调节。
4、此外,研究人员发现LLERCP的存在或者缺失与circ1690的表达差异相关,并且与玉米的穗位高度性状相关,这可能由于circRNA和线性转录物之间的相互影响而产生的。研究人员对玉米circRNA的首次研究揭示了转座子调节转录组学层面和表型变异的潜在新途径。




服务热线
025-58742321
地址:江苏省南京市高新区惠达路9号南自园区C楼101
联系人:丁先生
邮箱:project@jggene.com
手机:025-58742321