天津科技大学乔长晟教授等:高产聚苹果酸黑色素短梗霉CGMCC18996全基因组组装注释及关键蛋白分析

2023-12-16作者:来源:责任编辑:食品界 字体A+AA-

聚苹果酸(PMLA)是以苹果酸为唯一单体的均聚高分子聚合物,属于聚酯类聚合物,具有高生物相容性、高水溶性、生物可吸收性、化学可衍生性、可降解性和无免疫原性等多种优良性能,在生物医药、食品和生物材料领域具有潜在的应用前景。研究表明产黑色素短梗霉(Aureobasidium melanogenum)是一种具有较强产PMLA能力的类酵母真菌,对该菌种进行基因组测序及组装可为改造菌种,提高产量提供理论依据。

天津科技大学生物工程学院的王舸楠、李佳谦、乔长晟*等通过PacBio Sequel II及Illumina NovaSeq 6000测序平台对高产PMLA产黑色素短梗霉基因组进行测序,通过不同组装软件对测序的下机文件进行组装及优化;结合转录组数据对组装结果进行基因结构注释。之后对基因组注释结果进行不同数据库的功能注释,同时分析PMLA合成关键蛋白。通过这种方法,期望得到适合于基因组分析以及后续分子生物学实验的高质量基因组,为产黑色素短梗霉的开发利用提供一定生物信息学参考,并同时为其他类似物种的基因组组装提供思路。

1 通过二代测序数据进行基因组预组装
基于Illumina NovaSeq 6000测序平台对产黑色素短梗霉基因组进行测序,共得到35.85 Gb×2的双端测序结果。且该测序平台得到的raw reads具有较高的质量评分(Q>35)。之后,选取质控后clean reads进行后续的组装实验。

不同k-mer长度对产黑色素短梗霉clean reads进行组装结果见表1,组装结果显示,产黑色素短梗霉基因组大小约为44 Mb。其中,在k-mer长度为127时得到N50值为908694,L50值为14,基因组覆盖度为121.2×。基于该结果可以判断该菌基因组长度理论值在44 Mb左右;且随着k-mer长度的增加,N50值增大,L50值减小;若继续增大k-mer值会进一步优化组装参数。但由于SPAdes软件进行组装的k-mer值最大为127,这可能是考虑到继续加大k-mer值对测序深度要求较高,从而提高测序成本。

2 三代测序组装结果及基因组结构注释

基于PacBio平台的单分子测序共产生46 Gb大小的bam基因组测序文件,转换为fasta文件后,根据二代组装结果设置基因组大小为44 Mb进行组装。各组装软件组装结果如表2所示,其中,选用Canu组装的最优结果通过quickmerge软件与其他组装结果进行融合,并结合二代测序文件进行基因组纠正(polish),在删除重复contigs后的最终组装结果见表3。

结合转录组测序文件进行基因组结构注释共注释出15684 个基因,并找到基因编码区与氨基酸预测区,因结合转录组测序文件进行结构注释,这些基因可能包含有可变剪切和重复注释的结构,会增加注释出的基因数目。因此,进行功能注释和基因名称注释后需删除重复的基因名;最终,共获得6202 个基因注释结果。

3 GO、KEGG、COG以及antiSMASH次级代谢注释结果

对注释出的6202 个基因进行GO、KEGG与COG数据库注释,结果如图1所示。其中,COG注释结果显示大部分基因与碳水化合物转运及代谢、氨基酸转运代谢、转录后修饰、RNA加工及修饰有关。KEGG注释结果显示大部分基因所处代谢通路与核糖体、过氧化物体、RNA转运有关。GO注释结果显示大部分基因与RNA、过氧化物体以及线粒体有关。最终,antiSMASH次级代谢物预测结果共发现4 个非核糖体肽合成酶(NRPS)基因簇、5 个一类聚酮合酶(pks)基因簇、3 个β-内酯类合成基因簇以及7 个萜类合成基因簇,其中1 个一类pks基因簇和黑色素合成有关(相关性100%),1 个一类pks基因簇与黑麦酮酸类化合物合成有关(相关性18%)。

4 产黑色素短梗霉菌体透射电镜结果
如图2所示,在低产组中菌株具有较大细胞核(N)以及周围存在的具有双层膜结构线粒体(M),在高产组中出现了类似乙醛酸循环体的圆形结构,提示黑色素短梗霉中可能存在有乙醛酸循环途径。

5 PMLA合成相关基因结构预测

在对基因结构与基因名注释后,找到PCKA、MASY的蛋白质序列,其晶体结构预测结果如图3、4所示,其中,PCKA、MASY与PDB上传晶体结构(PCKA:1YLH,MASY:3CUZ)进行比对,结果显示预测的蛋白结构与PDB数据库中序列比对结果基本一致,氨基酸比对结果中序列与其晶体结构中小分子配体的结合位点也具有较高的一致性。同时蛋白的保守作用位点如PCKA中86R、140V、146G、287G、288D、289D,MASY中440C、275C、276G、277R、278W在比对结果中一致。


讨 论

结合基因组及转录组测序结果可以组装并注释出质量较高的基因组。本研究通过三代测序(Pacbio sequel II平台)、二代测序(Illumina NovaSeq 6000)平台对产黑色素短梗霉基因组进行测序,因三代组装需要预估基因组大小,因此,首先通过二代数据进行基因组预组装共得到44 Mbp基因组大小。之后考察了不同组装软件对产黑色素短梗霉基因组的组装效果,在一般的默认选项下,Canu软件得到了较好的组装效果。对该组装结果通过二代数据修正并去重后得到包含26 个contigs、N50为2204220、GC值为50.09%、大小为42 Mb的较高质量基因组组装结果。通过转录组数据对该组装结果进行结构注释,共找到6202 个基因。产黑色短梗霉属于出芽短梗霉的亚种,其在不同环境中也会呈现出酵母状与菌丝体状的不同形态。将基因组组装与注释结果与酵母和丝状真菌的模式生物基因组进行比较;其中酿酒酵母(Saccharomyces cerevisiae)基因组大小为12.15 Mb,编码6016 个蛋白,GC含量为38.15%;构巢曲霉基因组大小为30.30 Mb,编码10008 个蛋白,GC含量为50.10%。因此,产黑色素短梗霉基因组组成更偏向构巢曲霉,且本实验室先前通过无参转录组注释发现很多与构巢曲霉同源的基因。因构巢曲霉是丝状真菌的模式生物,该结果提示产黑色素短梗霉可能同样适用构巢曲霉的分子转化方法。

本研究通过Illumina NovaSeq 6000平台对产黑色素短梗霉进行了大约35 GB下机文件大小的高通量测序,该测序量的测序深度较大,理论测序深度为1000×。通过二代组装软件进行组装后,最终组装出N50值为908694的基因组,该结果仅达到三代测序组装结果N50的41.4%,因此,考虑到组装结果以及建库与测序成本,三代测序进行组装辅以二代测序进行基因组修正的测序方法更具有性价比。
通过COG、KEGG与GO数据库注释结果表明,产黑色素短梗霉中基因表达主要位于核糖体、线粒体以及过氧化物体等细胞器中,其中,有研究表明线粒体中的三羧酸循环、乙醛酸循环体中的乙醛酸循环以及细胞质中的还原性三羧酸途径与PMLA的生物合成有关。功能注释结果中出现了大量与过氧化物体有关的基因,而能够产生苹果酸的乙醛酸循环体也属于一类过氧化物体。因此,该结果说明在产黑色素短梗霉中可能存在乙醛酸循环体。实验室先前研究发现乙醛酸体中的MASY可通过乙醛酸途径生成苹果酸,相比于线粒体中存在的苹果酸/天冬氨酸穿梭体系,乙醛酸循环体中苹果酸可能可以直接通过单层乙醛酸体膜进入细胞质中而被非核糖体肽合成酶(NRPS)聚合成PMLA 。透射电镜结果也显示,在加入CaCO3的高产PMLA组中,菌体内部出现了较多的圆形细胞器,提示菌体中存在乙醛酸循环体的可能。antiSMASH注释结果表明在产黑色素短梗霉中存在4 个NRPS基因簇,该结果也同样反映出NRPS蛋白聚合苹果酸形成PMLA的可能性。同时,注释出的与黑色素合成的pks基因簇可解释该菌种在生长过程中逐渐变黑的现象。
实验室先前研究表明,PCKAMASYNRPS基因在PMLA高产组中发生了较大幅度的上调。因此,通过对基因组注释得到的PCKAMASY的编码区进行了蛋白结构预测,并将预测结果与PDB上已有的晶体结构进行比对。比对结果表明,蛋白预测结果与已有晶体结构基本吻合,且保守结构域相似,提示预测蛋白与其他菌株中已存在蛋白可能具有相似的功能。PCKA是糖异生途径的限速酶,一般情况下催化草酰乙酸转化为磷酸烯醇式丙酮酸,但有研究表明PCKA在真菌细胞质中可反向催化磷酸烯醇式丙酮酸生成草酰乙酸。而细胞质中的草酰乙酸会进一步转化为PMLA的前体物质苹果酸。MASY可催化乙醛酸循环中的第二部反应,将乙醛酸转化为苹果酸,而乙醛酸体的单层膜结构可能使苹果酸被动运输进入细胞质,进而被细胞质中存在的NRPS蛋白聚合成为PMLA。本实验没有对NRPS蛋白预测的原因是因为其氨基酸序列较长(5000 aa左右),软件无法预测,其次是在PDB上还没有找到近似的蛋白晶体结构,比对较为困难。
本研究对产黑色素短梗霉进行二代、三代基因组测序并组装得到最优组装结果,后通过转录组数据对基因组进行结构注释,将得到的结构注释结果进行不同数据库的功能注释。同时对产黑色素短梗霉进行了透射电镜拍摄,电镜结果提示菌株中存在乙醛酸循环体结构,该结构可能与PMLA合成有关,最终,实验通过对PMLA合成相关的PCKA和MASY蛋白进行结构预测并与PDB上已有电镜结果进行比对。发现产黑色素短梗霉中这两种蛋白与PDB上已有晶体结构基本一致,且这两种蛋白功能最终都与苹果酸代谢有关。本实验结果可为产黑色短梗霉菌株的PMLA代谢提供一定的参考,相关的测序下机文件以及组装的基因组文件已上传至国家生物信息中心(PRJCA011444),为后续的菌株开发利用提供基础。

本文《高产聚苹果酸黑色素短梗霉CGMCC18996全基因组组装注释及关键蛋白分析》来源于《食品科学》2023年44卷第16期213-219页,作者:王舸楠,李佳谦,李雨桐,陈世伟,王淑贤,赵廷彬,贾士儒,乔长晟。DOI:10.7506/spkx1002-6630-20220906-059。