您身边的生物信息分析师!

    南京迪康金诺生物技术有限公司

    默认图片
    网站首页 > 新闻资讯 > 公司新闻

    宏基因组复杂样品基因组的组装(无参考基因组)

    2014-07-09 17:58:57 南京迪康金诺生物技术有限公司 阅读

    Nature Biotechnology:2014-Identification and assembly of genomes and genetic elements in complex metagenomic samples without using reference genomes
    原文链接:http://www.nature.com/nbt/journal/vaop/ncurrent/full/nbt.2939.html
    该文章的数据分析思路大概如下图:

    宏基因组复杂样品基因组的组装(无参考基因组)X


            拿到测序原始数据,质控去除宿主基因组,样本拼接(SOAP denovol),预测基因,去冗余。 每个样本按照11M最少的测序数据,对样本基因丰度进行评估,随机选择一个基因作为种子进行聚类,如果样本间基因丰度相关系数(pearson>0.9)则化为一组,此外种子基因的丰度值满足该组所有基因丰度表达的中值,这样就限制了组的大小,另外分配的组还满足,一个组的成员至少包含2个基因,组内90%的基因要来自3个样本以上。那么根据非冗余基因划分的多个组这里可以称为:co-abundance gene groups(CAGs),可翻译成联合基因丰度群,这里共发现7381个 一般的古细菌和细菌的基因数目为>700,所以进一步定义在CAGs中包含基因数目大于700的群组,定义为MGS(metagenomic species),这里的一个群组就可以简单的理解为一个物种包含的所有基因组合,这里共发现741个 随后这篇文章用19个宏基因组样本验证上面的方法的可行性,这19个样本中已经确定包含了某个已经确定的物种(B.animalis),通过以上的划分,尽管从测序上来看每个样本只有平均3%的reads是来自某个确定物种,但是在某个划分的 MGS中已经覆盖了该物种95%的基因 关于每一个 MGS下一步试图去拼接去一个基因组,从之前已经拼接的样本中选取两个:一个是比对到MGS最多的样本;另外一个是组装出的contig包含最多 MGS基因的样本;随后对这两个样本进行段度组装,当然组装使用的reads是根据比对到MGS中的基因片段序列决定的,拼接使用的是velvet,以及soapdenovo GapCloser,加上2代454测序和sanger测序进行补洞,拼接出238个基因组,其中181个新的 那些包含基因数目较少的CAGs有可能是噬菌体
    推荐阅读:2014-An integrated catalog of reference genes in the human gut microbiome

    Powered by MetInfo 6.1.0 ©2008-2018 www.metinfo.cn