小美聊科研001期-微生物组学测序十大错误认知(上)

  • 2020-01-13 09:20:10
  • 94
  • 0

微生物组学测序十大错误认知(上)

聚焦生命科研动态,透析行业热门话题,小美聊科研,带您解读信息背后的知识。大家好,我是小美。

 

大家都知道,使用高通量测序技术解决微生物组学问题,已经成为一种成熟并且高效的技术手段。最近呢,我们的技术人员与科研工作者沟通时,发现很多人对组学研究存在不少模糊甚至错误的认识,为了便于大家学习到正确的知识,我们特意收集了最多、最受研究者们关注的典型十大错误认知,帮您梳理背后的逻辑,助您知其然知其所以然,明明白白做科研。

 

错误认知1:微生物组学测序,测序量越多越好

解析:微生物组学测序,大致呢可以分为五类,即纯培养微生物基因组denovo测序、微生物基因组重测序、微生物转录组测序以及基于混合型的宏样本多样性测序(也叫作扩增子测序)与宏基因组测序。

对于纯培养微生物基因组denovo测序、微生物基因组重测序而言,数据分析所需的数据量一般都有一定的限制,比如denovo测序在80-200×数据量时结果比较好,经验表明,120-150×数据量是大多数微生物基因组组装效果更优一些。而数据量过高,往往会导致软件不能有效调用数据进行组装组装最终失败,或者因运算量极大程度增大带来大量的时间和运算资源浪费,即便最终组装出来了,还有可能会导致基因组组装不准确,比如多拷贝的质粒或噬菌体等漏组装等等。

对于微生物重测序而言呢,理论上30×以上的数据量就足够了,实际工作中微生物一般在100×左右的测序深度,计算结果更为准确且运算效率较高。而很多软件默认识别最高200×的测序深度,过高了也没有被有效计算,除非大家还要专门修改软件代码和参数。

微生物多样性测序,每个样本3万条以上的有效测序reads,适用于绝大多数情况。对于这类研究,理论上是测序量越多越好,这样可以获得更多的低丰度物种的信息,但是实际上呢,使用通用引物进行PCR扩增时,已经决定了有多少种物种的代表基因分子被抓取出来了,仅仅在测序端增大测序量,可能会导致大量的duplication发生,导致无效测序,反而影响结果的准确性。从研究的意义上来看,低丰度的物种对于最终结果差异分析的影响几乎可以忽略,研究者往往更关注与表型变化相关的物种差异性,所以,多样性测序量,适量就好,过多也没有多大价值和意义。

宏基因组样本测序,一般测序量6G/样本,对于物种丰富度比较高的样本,测序量可以增加到10G/样本。目前而言,这些测序量也还是偏少的,更多的测序量可以发现或者组装出更多的基因。而实际研究中,宏基因组测序往往会测定很多样本,生物学重复加上不同的处理条件,最终样本量和测序量都会成倍增加。而现在的计算方法和很多科研单位、科技服务公司的计算资源,一般很难承受过大的数据量的严峻考验,这不仅仅是数据分析所需的硬件投入大大增加,还会使得分析时间指数级增长,对大家而言,都消耗不起呀。所以,虽然有些学者愿意拿出更多的经费增大测序量,但面对如此庞大的数据,在投入和产出比并不理想的情况下,大家也就不再盲目追求测序量的增加了。

而对于微生物转录组而言,看的是相对表达量和不同处理下的表达差异,200-500×的有效测序量,适合于大部分样本。更大的测序量,对于结果的准确性和精确性,并没有显著性提高。

总结一下,微生物组学测序研究,测序量适合就好,没必要盲目追求量大。正如中国老祖宗常说的一句话,知足常乐,适可而止。看来测序也很有哲学思维嘛。

 

错误认知2:微生物多样性测序,三代技术比二代测序技术好

解析:在微生物多样性研究中,有三种比较成熟的、基于测序的方法,分别是基于一代测序的荧光定量PCR方法、基于二代测序的扩增子测序方法和基于三代测序的全长Marker基因测序方法。目前最主流、通量最大、价格最便宜、效果最好、数据库最丰富的就是基于二代测序技术的扩增子测序方法。近年来,三代单分子测序测序技术的日益成熟和价格的持续下调,为微生物多样性的研究带来了新思路。三代测序reads有效读长是比较长的,完全可以将Marker基因测通,从而呢可以获得基因的全长序列。大家应该可以想到,使用全长序列进行比较分析,肯定会比使用局部序列分析更能确定序列来源啦,所以使用三代测序获得的全长Marker基因往往可以把物种区分的更加精细,这在很多情况下会优于二代测序的基因局部序列分析结果。

目前使用较为成熟的三代测序仪是PacBio Sequel II,用在对16S rDNA的全长测序上。但是目前三代测序技术在微生物多样性研究中受限于以下几点:

① 因为价格问题,有效测序量较低,适合于研究丰度较高的物种,而中低丰度的物种可能无法被有效测到;

② 测序的准确性仍旧逊于二代测序技术,尤其是Nanopore测序仪的数据准确性;

③ 目前适合于全长marker基因的物种分类数据库,存在严重的库容量不足的问题,远远无法跟二代测序数据对应的微生物物种分类数据库媲美,导致测序出来的全长基因无法确认是什么物种,也就无法进行物种分类了。

总结一下,每种测序技术都各有各的自身优势和各自不同的应用场景,并不能直接说哪种测序技术一定优于另外一种甚至替代另外一种,根据自己的科研需求选择合适的方法,才是王道。

 

错误认知3:宏基因组测序,完全可以代替扩增子测序

解析:扩增子测序的原理是基于一个特定的marker基因来研究样本中有什么物种或者什么环境的改变、什么处理方式的改变等等,最终是如何影响样品中物种变化的。如果marker基因选的比较合适,扩增子测序确实是一种比较好的在物种水平上研究微生物的方法。

而宏基因组测序的原理是通过基因组的测序组装并预测和注释各类基因,在基因和大片段序列的水平上研究样品中微生物的潜在功能或者基因与表型的相关性。宏基因组研究通过对基因的详细注释和不同分类,推测微生物的功能进而锁定目标基因。

宏基因组更关注基因的类型、丰度等层面的变化,虽然也可以通过组装出来的大片段序列通过算法推测是什么物种,并大致统计该物种的丰度,但这与扩增子测序直接使用更优的marker基因直接研究物种丰度和种类变化,在准确性上是大打折扣的。

总结一下,可以简单地理解,宏基因组是回答微生物菌群的基因情况而扩增子测序是回答微生物菌群的物种情况的,二者不能彼此替代,大家需要根据自己的研究目的进行选择。

 

错误认知4:微生物多样性测序结果分析时,不必进行数据的抽平处理

解析:微生物多样性测序研究的所有数据分析,都是基于OTU的注释信息表完成的,主要包括微生物的物种分类注释信息以及丰度信息。我们在这里谈的丰度是相对丰度,是基于测序量的reads数来计算的。而在样品制备中,在很多环节都会导致数据量的不可控,比如说吧,不同样本之间由于基于marker基因如16S rDNA的PCR存在扩增效率的差异问题、样本批次问题,在建库和上机环节,又存在样本和批次间的测序接头引物添加效率差异问题、上机文库定量差异问题以及测序偏好性问题、产出的数据质控问题等等,无法保证每个样品上机前分子数一致以及下机后的有效reads数保持一致,必然会带来样品之间测序量的不同。举个例子,样本A测序后获得3万条reads,分析出500个OTU,丰度最高的OTU是350×,而样本B测序后获得10万条reads,分析出800个OTU,丰度最高的OTU是800×,现在无法说直接样本B的物种种类和物种丰度就一定比样本A多,因为二者的起始测序量本身就不同,需要排除测序量带来的影响。

在早期的研究中,很多学者没有对样品的测序量进行均一化处理,其实原因也很简单,主要是测序太贵,并且各个样本之间测序量本身都差不多,测序量的均一化处理对于结果的影响并不显著。但是现在不同了,一来呢,测序变得非常廉价,测序量极大程度增大了,二来呢,样品类型也更加多样化,导致样品之间的实际测序量差异度明显增大。这种情况下,比较合理和准确的研究方法,就是对样品的测序量进行均一化处理,保证各个样本在相同的测序量水平上进行比较。

均一化处理的方法有两种,一种是在分析样本之间的数据时,每个样本中每个OTU的丰度值都变换成该OTU相对于该样本总OTU的丰度占比,然后再比较不同样本之间同一种OTU的丰度。这种方法的优点是可以保留所有的OTU,缺点是数据很不直观。

第二种方法是,在最初的reads水平上进行数据量的抽平,一般又分为以最低样本的测序量为基准进行抽平,和设定一个不超过最低样品测序量的数值进行抽平两大类。这种方法的优点是分析更加直观快捷,目前这种方法是使用最多最主流的。

总结一下,从严谨的角度来说,多样性测序需要进行样本之间的测序量均一化处理,其中最主流的方法是以最低样本的测序量为标准进行reads层面的抽平。

 

错误认知5:纯培养微生物基因组测序,也需要做生物学重复

解析:纯培养微生物基因组测序呢,主要是指基因组的denovo测序,即通过测序和后续的组装还原出微生物的基因组信息,在此基础上进行基因层面的各类功能注释。实际上,我们能够通过肉眼看到的纯培养的微生物菌落或者液体培养后获得的菌体,那含有的微生物细胞数目可是数以亿计的,在理论上,其实每个细胞都是一个独立的个体。个体之间,确实可能会存在着基因组序列上的差异,这主要是微生物基因组发生自发突变导致的。但是呢,微生物基因组的自发突变频率那可是极低的,有统计给出的数值是10-5~10-8。如果考虑到测序和组装算法自身的系统误差导致的最终组装结果的不准确性,基因组的自发突变带来的碱基不一致基本可以忽略不计了。

所以,对于纯培养的微生物基因组而言,进行DNA层面的全基因组测序时,无需考虑生物学重复和技术重复问题,极端一点说,微生物菌体中数以亿计的细胞之间,不也是个体之间的重复吗?

 

好啦,关于微生物组学测序的十大错误认知,本期就先分享前5个,不知以上知识,您get到了吗?

 

咱们,下期接着聊

评论

全部评论()
查看更多评论
湖北11选5 湖北快三 湖北快三 湖北快三 湖北11选5 湖北11选5 湖北快三 湖北快三 湖北11选5 湖北快三