Traditional Chinese Medicine Transcriptome Analysis of Characteristic Distribution of Scorpion Genes in Venomous Glands
-
摘要:
目的 研究东亚钳蝎Buthus martensii Karsch转录组信息特征。 方法 以山东省临沂地区特色东亚钳蝎为研究对象,利用二代高通量测序平台Illumina HiSeq 4000 150PE分别对东亚钳蝎的前腹部、后腹部、毒液腺进行转录组测序。利用测定的转录组数据将毒液腺基因分别与前腹部和后腹部基因集进行比较,然后取两两比较之后的交集进行分析,筛选差异基因集进行GO和KO分析。 结果 GO功能分类共有60个大项,含有23个生物学途径,13个细胞组分和24个分子功能。富集最显著的前20个KEGG通路中与毒素密切相关的为钙离子信号通路、磷脂酶信号通路。 结论 通过无参转录组测序,构建了东亚钳蝎转录组序列数据库,为今后东亚钳蝎功能基因的挖掘提供了序列基础并为代谢产物的生物合成提供了数据支撑,为传统中药在临床应用乃至精准医学方面提供了新的思路。 Abstract:Objective To obtain the transcriptome dataset of Buthus martensii. Methods Taking the characteristic Buthus martensii in Linyi area of Shandong Province as the research object, the second-generation high-throughput sequencing platform Illumina HiSeq 4000 150PE was used to sequence the transcriptome of the anterior abdomen, posterior abdomen and venom gland of Buthus martensii. The venom gland genes were compared with the preabdomen and the postabdomen gene sets, and then the intersection of the two comparison was analyzed. The screening differential gene sets were analyzed by GO and KO. Results There were 60 major categories of GO functional classification, containing 23 biological pathways, 13 cellular components, and 24 molecular functions. Among the first 20 KEGG pathways that were most significantly enriched, the calcium ion signaling pathway and phospholipase signaling pathway were closely related to toxins. Conclusion In this study, we have constructed the transcriptome sequence database of B. martensii by nonparticipating transcriptome sequencing, which provids the sequence basis for the future research on the gene mining function of Buthus martensii and the research basis for the biosynthesis of metabolites. -
Key words:
- Buthus martensii /
- Venom gland /
- Preabdomen /
- Postabdomen /
- Transcriptome sequencing
-
东亚钳蝎(Buthus martensii Karsch,BmK)又名马氏正钳蝎Mesobuthus martensii Karsch,属节肢动物门蛛形纲钳蝎科动物,遍布全世界各地[1-2]。据统计,世界上大约有1 500种蝎子,其中12%是有毒的,对人类生命财产安全问题构成了极大地威胁[3]。我国中医理论讲究“以毒攻毒”,通过传统方法炮制后的全蝎一般以整体入药,是我国名贵的中药材之一,有着息风镇痉、攻毒散结、通络镇痛等一系列功能,但中药方剂成分复杂多样,具体发挥治疗效果的成分难以明确[4]。
转录组测序(RNA sequencing,RNA-seq)是使用高通量检测的方法对样本mRNA构建cDNA文库后进行测序,利用生物信息学对数据分析,对样本全部转录本情况进行研究,分析其基因表达水平,进而探究其具体分子生物学功能[5-8]。和传统测序手段(如 Sanger 法测序、基因芯片)进行比较,RNA-seq的优势在于微量、分辨率高、价格低以及应用范围广等。,并且可以通过从头测序的方法对没有参考基因组的物种进行研究。随着转录组测序技术的向前发展和和进一步补充,转录组学也加快了中药现代化步伐。因此,本研究运用 Illumina 检测平台的转录组测序技术,将东亚钳蝎的前腹部、后腹部和毒液腺分别进行了转录组测序分析,筛选DEG(差异表达基因),进行差异基因的 GO 富集和 KEGG 通路分析[9]。
1. 材料与方法
1.1 实验样品
实验动物捕捉自山东省临沂市兰陵县山区,经鉴定为东亚钳蝎,采集时间为2018年7月,选择体型健壮、完整且无病害的蝎子。
1.2 总RNA提取及文库构建
利用常规Trizol法从样品的组织中抽提总RNA,使用Nanodrop2000将所得到RNA的质量进行检测,利用琼脂糖凝胶电泳来检测RNA的完整程度,Agilent2100测定RIN值。检测符合质量标准的样品用于文库构建,将东亚钳蝎mRNA富集在含有Oligo dT的磁珠上,在Thermomixer中利用打断试剂把RNA切割成小片段,然后反转录,生成第一链cDNA,然后配置二链反应体系生成第二链,然后使用试剂盒把产物进行纯化回收,进而修复黏性末端,cDNA3’末端加碱基 A并连接接头并进行片段大小选择,最后进行PCR扩增反应。构建好的cDNA文库使用Agilent2100和ABI StepOnePlus Real Time PCR System进行质检,质检合格后使用Illumina/Hiseq-4000 RNA-seq进行上机测序[10-11]。文库的构建与测序由深圳迪谱生物科技有限公司完成。
1.3 序列的拼接与组装
在研究没有参考基因组的转录组时,需要把所获取RNA-seq高质量测序数据进行从头组装,然后生成重叠群(contig)和单一序列(singleton),目的是为进一步进行基因产物表达、生物学功能研究等提供基础[12]。本研究采用SeqPrep(https://github.com/jstjohn/Seqprep)对原始数据进行过滤,具体流程为:首先,将接头序列去掉,然后把3′末端质量较低的碱基修除,剔除含N百分比在10%以上的reads,舍弃adapter及质量修剪后长度小于30 bp的序列,得到clean date,使用Trinity(https://github.com/trinityrnaseq/trinityrnaseq)将所有的clean date进行denovo组装,拼接完成后使用TransRate(http://hibberdlab.com/transrate/)、CD-HIT(http://weizhongli-lab.org/cd-hit/)进行优化过滤。最后,使用BUSCO(Benchmarking universal single-copy orthologs,http://busco.ezlab.org)进行组装评估。
1.4 生物信息学分析
1.4.1 基因表达量的计算
Unigene表达量的计算使用FPKM法(Fragments Per kb per Million fragments),其计算公式为:FPKM = 109C/NL
设FPKM(A)为Unigene A的表达量,则C为唯一比对到Unigene A的fragments数,N为唯一比对到所有Unigene的总fragments数,L为Unigene A的碱基数[13-14]。
1.4.2 差异表达基因(DEGs)鉴定及功能富集分析
利用R语言(http://www.r-project.org/)对3个不同组织转录组样本进行差异基因鉴定。FDR ≤ 0.001 和 |log2Ratio| ≥ 1作为是否为差异基因的阈值。差异基因进行KO和GO功能富集分析。Blast2GO和WEGO进行GO富集,KAAS进行KO富集[15-16]。
2. 结果
2.1 转录组测序、组装及注释
通过对前腹部组、后腹部组及毒液腺组的转录组测序,分别获得46977080,45682534,51173286个reads,Q30均在94%以上,符合进一步数据分析标准[17],见表1。
表 1 测序数据的统计结果Table 1. Summary of transcriptome sequencing date and transcriptome assembly样本 原始数据 有效数据 碱基数目(G) 错误率(%) Q20(%) Q30(%) 前腹部 46977080 46593018 6945967490 0.02 98.26 94.29 后腹部 45682534 45222188 6735593318 0.02 98.27 94.3 毒液腺 51173286 50641874 7463605213 0.02 98.26 94.36 2.2 差异基因统计
如图所示,前腹部与毒液腺比对鉴定出差异基因数目为10411,与前腹部相比,毒液腺上调基因3912个(37.47%),下调基因6529个(62.53%);后腹部与毒液腺相比差异基因数目为8258,与后腹部相比,毒液腺上调基因2338个(28.31%),下调基因5920个(71.69%)。两组共同差异基因为5294个[18],见图1。
2.3 差异表达基因的GO功能分析
将所获得的两组共同差异基因的交集,共计5294个基因,放入到GO数据库做功能富集分析[19],结果显示,共有913个Unigene被注释在60个功能项中,其中314个Unigene归入23个生物学途径,最多的是生物学过程,共有71个,最少的是核酸代谢过程和细胞大分子生物合成过程,均只有1个;154个 Unigene 归入细胞组成,其中最多的是细胞组分,共有31个,最少的是intracellular organelle part和organelle part,均有4个;445个Unigene归入分子功能类,占比最大的是催化活性,共有102个[11],见表2。
表 2 差异表达基因的 GO 功能分类Table 2. GO functional categories of Buthus martensii UnigenesGO序列号 数目 功能描述 GO分类 GO:0044260 8 cellular macromolecule metabolic process BP GO:0009987 26 cellular process BP GO:0090304 1 nucleic acid metabolic process BP GO:0044237 22 cellular metabolic process BP GO:0043170 15 macromolecule metabolic process BP GO:0016055 7 Wnt signaling pathway BP GO:0034641 14 cellular nitrogen compound metabolic process BP GO:0006177 4 GMP biosynthetic process BP GO:0046037 4 GMP metabolic process BP GO:0006807 19 nitrogen compound metabolic process BP GO:0008150 71 biological_process BP GO:0044763 19 single-organism cellular process BP GO:0007275 10 multicellular organism development BP GO:1901360 13 organic cyclic compound metabolic process BP GO:0006725 13 cellular aromatic compound metabolic process BP GO:0009059 1 macromolecule biosynthetic process BP GO:0046483 13 heterocycle metabolic process BP GO:0006139 13 nucleobase-containing compound metabolic process BP GO:1901070 4 guanosine-containing compound biosynthetic process BP GO:0009225 4 nucleotide-sugar metabolic process BP GO:0034645 1 cellular macromolecule biosynthetic process BP GO:1901135 17 carbohydrate derivative metabolic process BP GO:0005975 15 carbohydrate metabolic process BP GO:0005615 25 extracellular space CC GO:0044421 29 extracellular region part CC GO:0044424 17 intracellular part CC GO:0032991 5 macromolecular complex CC GO:0044464 31 cell part CC GO:0044446 4 intracellular organelle part CC GO:0044422 4 organelle part CC GO:0044444 6 cytoplasmic part CC GO:0043226 8 organelle CC GO:0043229 8 intracellular organelle CC GO:0005578 6 proteinaceous extracellular matrix CC GO:0043234 5 protein complex CC GO:0031012 6 extracellular matrix CC GO:0030414 23 peptidase inhibitor activity MF GO:0061134 23 peptidase regulator activity MF GO:0030234 23 enzyme regulator activity MF GO:0004866 22 endopeptidase inhibitor activity MF GO:0061135 22 endopeptidase regulator activity MF GO:0004857 23 enzyme inhibitor activity MF GO:0003676 11 nucleic acid binding MF GO:0008238 12 exopeptidase activity MF GO:0098772 23 molecular function regulator MF GO:0097159 35 organic cyclic compound binding MF GO:1901363 35 heterocyclic compound binding MF GO:0004177 9 aminopeptidase activity MF GO:0004553 10 hydrolase activity,hydrolyzing O-glycosyl compounds MF GO:0016798 10 hydrolase activity,acting on glycosyl bonds MF GO:0008237 14 metallopeptidase activity MF GO:0003938 3 IMP dehydrogenase activity MF GO:0042813 3 Wnt-activated receptor activity MF GO:0009032 2 thymidine phosphorylase activity MF GO:0016154 2 pyrimidine-nucleoside phosphorylase activity MF GO:0005102 8 receptor binding MF GO:0004697 3 protein kinase C activity MF GO:0046914 25 transition metal ion binding MF GO:0008241 2 peptidyl-dipeptidase activity MF GO:0003824 102 catalytic activity MF 2.4 差异表达基因的KO富集分析
KEGG (Kyoto encyclopedia of genes and genomes)数据库可以将基因产物及其功能进行系统化分析注释[20]。它对基因组、化学分子和生化代谢系统等方面的数据进行了整合了,包括代谢通路、天然药物、人类疾病、基因序列、生化反应及基因组等[12]。利用该数据库有助于将基因及表达信息进行网络化研究。把获得的5294个Unigene放入KEGG数据库进行比对,显著富集的差异基因数量为1543个,为总体的29.15%。总共富集到108种代谢通路,其中Unigene最多的是钙离子信号通路,共注释到38个Unigene,占总体的2.46%;其次为补体系统途径,共注释到37个Unigene,占总体的2.40%;第三为胰液分泌途径,共注释到32个Unigene,占总体的2.07%。图2 为 Pathway富集性分析前 20 个通路的数据(图2)。为发现毒素相关基因,对转录组信息进行分析得出38个差异基因与钙离子通道相关,可能是潜在的毒素相关基因[21]。有15个差异基因与磷脂酶代谢通路有关,可能是调节相关酶类代谢的基因。
3. 讨论
我国人民在不断地创新和实践中发展了中医药,辨证论治理论更是博大精深,但是由于传统中药成分极其复杂,具体作用机制不明确以及其他因素严重影响了中药向全世界进军的步伐[22-23]。随着目前高通量RNA-Seq方法的不断改善和广泛应用,不仅影响了过去传统的研究方法,使转录组学,蛋白组学进入了全新的时代,而且在挖掘差异表达基因,阐释生物基因表达及调控机制中发挥了重要作用,从分子生物学角度为辨证论治理论提供强有力的基础,更加快了中药国际化的发展[24]。
本研究通过构建东亚钳蝎前腹部、后腹部和毒液腺的转录组文库,获得大量的转录组信息。共获得高通量的转录组信息,各样品的 clean rate在 98%以上,Q 30 都在94%以上,表明测序数据质控水平较高,测序质量高,完整性好,符合接下来数据分析的标准。
为了更好地挖掘相关的目的基因,本研究将东亚钳蝎的毒液腺基因集分别于前腹部与后腹部基因集进行比较,然后取两两比较之后的交集进行生物信息学分析,这样可以更好的体现出毒液腺中基因功能。
GO(Gene ontology)数据库可以对基因和蛋白质功能进行标准化的注释,适用于不同物种,开发了三级结构的规范化语言来规范各种在线平台中基因及其产物的生物学功能注释,可将基因产物定义为相关分子功能(molecular function,MF)、生物学途径(biological process,BP)、细胞学组成(cellular component,CC)三大类[9]。通过将DEG进行 GO 功能分类,归类到 60个大项中,含有 23个生物学途径,13个细胞组分和24个分子功能。深入对DEG进行 pathway 分析,进一步对DEG参与的主要代谢途径和信号转导途径进行研究,其中,富集最显著的前20个KEGG通路中与毒素密切相关的为钙离子信号通路、磷脂酶信号通路,更有利于明确差异表达基因在生物代谢周期中发挥的功能以及与其他基因的相互作用。
-
表 1 测序数据的统计结果
Table 1. Summary of transcriptome sequencing date and transcriptome assembly
样本 原始数据 有效数据 碱基数目(G) 错误率(%) Q20(%) Q30(%) 前腹部 46977080 46593018 6945967490 0.02 98.26 94.29 后腹部 45682534 45222188 6735593318 0.02 98.27 94.3 毒液腺 51173286 50641874 7463605213 0.02 98.26 94.36 表 2 差异表达基因的 GO 功能分类
Table 2. GO functional categories of Buthus martensii Unigenes
GO序列号 数目 功能描述 GO分类 GO:0044260 8 cellular macromolecule metabolic process BP GO:0009987 26 cellular process BP GO:0090304 1 nucleic acid metabolic process BP GO:0044237 22 cellular metabolic process BP GO:0043170 15 macromolecule metabolic process BP GO:0016055 7 Wnt signaling pathway BP GO:0034641 14 cellular nitrogen compound metabolic process BP GO:0006177 4 GMP biosynthetic process BP GO:0046037 4 GMP metabolic process BP GO:0006807 19 nitrogen compound metabolic process BP GO:0008150 71 biological_process BP GO:0044763 19 single-organism cellular process BP GO:0007275 10 multicellular organism development BP GO:1901360 13 organic cyclic compound metabolic process BP GO:0006725 13 cellular aromatic compound metabolic process BP GO:0009059 1 macromolecule biosynthetic process BP GO:0046483 13 heterocycle metabolic process BP GO:0006139 13 nucleobase-containing compound metabolic process BP GO:1901070 4 guanosine-containing compound biosynthetic process BP GO:0009225 4 nucleotide-sugar metabolic process BP GO:0034645 1 cellular macromolecule biosynthetic process BP GO:1901135 17 carbohydrate derivative metabolic process BP GO:0005975 15 carbohydrate metabolic process BP GO:0005615 25 extracellular space CC GO:0044421 29 extracellular region part CC GO:0044424 17 intracellular part CC GO:0032991 5 macromolecular complex CC GO:0044464 31 cell part CC GO:0044446 4 intracellular organelle part CC GO:0044422 4 organelle part CC GO:0044444 6 cytoplasmic part CC GO:0043226 8 organelle CC GO:0043229 8 intracellular organelle CC GO:0005578 6 proteinaceous extracellular matrix CC GO:0043234 5 protein complex CC GO:0031012 6 extracellular matrix CC GO:0030414 23 peptidase inhibitor activity MF GO:0061134 23 peptidase regulator activity MF GO:0030234 23 enzyme regulator activity MF GO:0004866 22 endopeptidase inhibitor activity MF GO:0061135 22 endopeptidase regulator activity MF GO:0004857 23 enzyme inhibitor activity MF GO:0003676 11 nucleic acid binding MF GO:0008238 12 exopeptidase activity MF GO:0098772 23 molecular function regulator MF GO:0097159 35 organic cyclic compound binding MF GO:1901363 35 heterocyclic compound binding MF GO:0004177 9 aminopeptidase activity MF GO:0004553 10 hydrolase activity,hydrolyzing O-glycosyl compounds MF GO:0016798 10 hydrolase activity,acting on glycosyl bonds MF GO:0008237 14 metallopeptidase activity MF GO:0003938 3 IMP dehydrogenase activity MF GO:0042813 3 Wnt-activated receptor activity MF GO:0009032 2 thymidine phosphorylase activity MF GO:0016154 2 pyrimidine-nucleoside phosphorylase activity MF GO:0005102 8 receptor binding MF GO:0004697 3 protein kinase C activity MF GO:0046914 25 transition metal ion binding MF GO:0008241 2 peptidyl-dipeptidase activity MF GO:0003824 102 catalytic activity MF -
[1] 李钟杰,吴文澜,王勇. 东亚钳蝎多肽资源的药理活性研究进展[J]. 中草药,2018,49(21):5179-5190. doi: 10.7501/j.issn.0253-2670.2018.21.033 [2] 毛歆,刘辉,李文鑫,等. 马氏正钳蝎的形态和结构特征[J]. 动物学杂志,2017,52(3):468-477. [3] Chippaux J P,Goyffon M. Epidemiology of scorpionism:A global appraisal[J]. Acta Tropica,2008,107(2):71-79. doi: 10.1016/j.actatropica.2008.05.021 [4] 杨彬,高文远,张艳军. 基于转录组学-蛋白质组学-多肽组学整合关联分析策略的动物药蛋白多肽类成分研究思路及方法[J]. 中草药,2019,50(5):1033-1038. doi: 10.7501/j.issn.0253-2670.2019.05.001 [5] 王巍杰,王涛. 蓖麻基因组毒素家族的生物信息学分析[J]. 基因组学与应用生物学,2017,36(8):3083-3090. [6] 张博,苏杭,任献青,等. 基于高通量转录组测序的菟丝子黄酮改善雷公藤多苷片致大鼠生殖损伤的机制研究[J]. 中国中药杂志,2019,44(16):3478-3485. [7] 吴昕怡,严媛,刘小莉. 基于高通量测序的青叶胆转录组研究[J]. 中国现代应用药学,2018,35(3):363-369. [8] 吴超,彭娟,向林,等. 基于高通量测序的铁皮石斛叶片转录组分析[J]. 分子植物育种,2016,14(12):3334-3346. [9] Grabherr M G,Haas B J,Yassour M,et al. Full-length transcriptome assembly from RNA-Seq data without a reference genome[J]. Nature Biotechnology,2011,29(7):644-652. doi: 10.1038/nbt.1883 [10] 贾岩,张福生,肖淑贤,等. 款冬花不同发育阶段的代谢组学和比较转录组学分析[J]. 中国生物化学与分子生物学报,2017,33(6):615-623. [11] 冯陈晨,王文龙,红梅,等. 骆驼斯氏副柔线虫雌虫和雄虫比较转录组学分析[J]. 中国农业大学学报,2017,22(7):61-70. doi: 10.11841/j.issn.1007-4333.2017.07.008 [12] 江灵敏,王碧霞,孟蕾. 小叶女贞叶片转录组研究[J]. 中国现代应用药学,2018,35(11):1670-1674. [13] Ali Mortazavi,Brian A Williams,Kenneth McCue,et al. Mapping and quantifying mammalian transcriptomes by RNA-Seq[J]. Nature Methods,2008,5(7):621-628. doi: 10.1038/nmeth.1226 [14] Ye J,Fang L,Zheng H,et al. WEGO:A web tool for plotting GO annotations[J]. Nucleic Acids Res,2006,34(2):293-297. [15] Anders S,Huber W. Differential expression analysis for sequence count data[J]. Genome Biol,2010,11(10):R106. doi: 10.1186/gb-2010-11-10-r106 [16] Conesa A,Gotz S,et al. Blast2GO:A universal tool for annotation,visualization and analysis in functional genomics research[J]. Bioinformatics,2005,21(18):3674-3676. doi: 10.1093/bioinformatics/bti610 [17] 罗辉,叶华,肖世俊,等. 转录组学技术在水产动物研究中的运用[J]. 水产学报,2015,39(4):598-607. [18] 马赛箭,安超,薛文娇,等. 基于高通量测序的出芽短梗霉转录组学研究[J]. 基因组学与应用生物学,2016,35(4):931-941. [19] 蒋可人,马峥,郑航,等. 转录组与蛋白质组整合分析在生物学研究中的应用[J]. 生物技术通报,2018,34(12):50-55. [20] 展波,高媛媛,林维平,等. 中华大蟾蜍皮肤Cathelicidin家族新型抗菌肽的鉴定及其抗菌活性[J]. 中国中药杂志,2016,41(4):630-635. [21] RA Dueñas-Cuellar,Santana C,ACM Magalhães,et al. Scorpion toxins and ion channels:Potential applications in cancer therapy[J]. Toxins,2020,12(5):326-327. doi: 10.3390/toxins12050326 [22] 陈惠,辛丽丽,龚婕宁. 基于全转录组测序技术的转录组学在中医药领域的应用前景分析[J]. 环球中医药,2013,6(10):759-763. doi: 10.3969/j.issn.1674-1749.2013.10.014 [23] 张晓萌,李健春,王琼,等. 转录组测序技术在中医药领域的应用[J]. 中国现代中药,2016,18(8):1084-1087. [24] 肖炜卓,张龙,王晓冬,等. 慢性牙周炎患者龈下菌斑宏转录组学分析[J]. 中国医药导报,2019,16(21):21-23. -